Como histogramas podem deturpar os dados estatísticos

Não existem regras rígidas e rápidas sobre como criar um histograma com base em um conjunto de data- estatística a pessoa que faz o gráfico começa a escolher os agrupamentos na X-eixo, bem como a escala e pontos inicial e final na y-eixo. Só porque há um elemento de escolha, no entanto, não significa que cada escolha é appropriate- na verdade, um histograma pode ser feito para ser enganosa de muitas maneiras.

Embora o número de grupos que você usa para um histograma é a critério da pessoa que faz o gráfico, não existe tal coisa como ir ao mar, quer por terem muito poucos bares, com tudo agrupados, ou por ter a forma como muitos bares, onde cada pequena diferença é ampliada.

Para decidir quantos bares um histograma deve ter, você deve dar uma boa olhada nas agrupamentos usados ​​para formar as barras no X-eixo e ver se elas fazem sentido. Por exemplo, não faz sentido falar de notas dos exames em grupos de 2 pontos- isso é muito detalhe - também muitos bares. Por outro lado, não faz sentido para as idades de grupo das pessoas por intervalos de 20 anos- que não é suficientemente descritivo.

Histograma # 1 que mostra o tempo entre erupções para géiser (& lt; i & gt; n & lt; / i & gt; = 222) “/ & gt;. & Lt; / p & gt; & lt; div classe =Histograma # 1 exibição de tempo entre erupções para Old Faithful (n = 222).

Os valores acima e abaixo ilustram este ponto.

Histograma # 2 mostrando tempo entre erupções para Old Faithful (<i>n = 222) “/ GT.;</div><div class=Histograma # 2 exibição de tempo entre erupções para Old Faithful (n = 222).

Cada histograma resume n = 222 observações da quantidade de tempo entre erupções do géiser no parque de Yellowstone. Histograma # 1 usa seis bares que agrupar os dados por intervalos de 10 minutos. Este histograma mostra um padrão deixou enviesada geral, mas com 222 observações que você está enchendo uma enorme quantidade de dados em apenas seis grupos-por exemplo, a barra para 75-85 minutos tem mais de 90 peças de dados na mesma. (Isso é mais de 40% do conjunto de dados!) Você pode dividi-la ainda mais do que isso.

Histograma # 2 mostra o mesmo conjunto de dados, em que o tempo entre as erupções é dividida em grupos de 3 minutos cada, resultando em 19 bares. Observe o padrão distinto nos dados que aparece com este histograma que não foi descoberto em histograma # 1. Vejam dois picos distintos nos dados: um pico em torno da marca 50 minutos, e um torno da marca 75 minutos. Um conjunto com dois picos de dados é chamada bimodal- histograma # 2 mostra um exemplo claro.



Olhando para histograma # 2, você pode concluir que o gêiser tem duas categorias de erupções: um grupo que tem um tempo de espera mais curto, e um outro grupo que tem um tempo de espera mais longo. Dentro de cada grupo para ver os dados são bastante perto de onde o pico está localizado. Olhando para histograma # 1, você não pode dizer isso.

o y-eixo de um histograma mostra como muitas observações estão em cada grupo, utilizando contagens ou percentagens. Um histograma pode ser enganosa se ele tem uma escala enganosa e / ou inapropriada pontos inicial e final na y-eixo.

Assista a escala no y-eixo de um histograma. Se ele vai por grandes incrementos e tem um ponto final que é muito maior do que o necessário, você vê uma grande quantidade de espaço em branco acima do histograma. As alturas das barras são espremidos para baixo, fazendo suas diferenças olhar mais uniforme do que deveriam. Se a escala vai em pequenos incrementos e termina no menor valor possível, as barras tornam-se esticada verticalmente, exagerando as diferenças em suas alturas e sugerindo uma diferença maior do que realmente existe.

O exemplo a seguir utiliza uma escala diferente em relação à vertical (y) Eixo de histograma # 2.

Video: Histogramas (Ferramenta da Qualidade) - Fundamentos e Exemplos

Histograma # 3 mostrando vezes gêiser erupção fiel velho, com incrementos verticais maiores
Histograma # 3 mostrando vezes gêiser erupção fiel velho, com incrementos verticais maiores

Histograma # 3 leva os dados fiel velhos (tempo entre erupções) e utiliza incrementos verticais de 20 minutos, de 0 a 100. comparar este com histograma # 2, que utiliza incrementos verticais de 5 minutos, de 0 a 35. histograma # 3 possui um monte de espaço em branco e dá a aparência de que os tempos estão mais uniformemente distribuída entre os grupos do que realmente são. Ele também faz com que o conjunto de dados parecer menor, se você não prestar atenção ao que está no y-eixo. Dos dois gráficos, histograma # 2 é mais apropriado.


Publicações relacionadas