O que um boxplot pode informá-lo sobre um conjunto de dados estatísticos
Um boxplot pode dar-lhe informações sobre a forma, a variabilidade e centro (ou mediana
Conteúdo
Video: #007 - Estatística Descritiva V - Quantis, BoxPlot e Simetria
Qual a forma boxplot revela sobre um conjunto de dados estatísticos
Um boxplot pode mostrar-se um conjunto de dados é simétrica (aproximadamente o mesmo em cada lado, quando cortada ao meio) ou inclinado (assimétrico). Um conjunto de dados simétrica mostra a mediana aproximadamente no meio da caixa.
Video: Análise Exploratória de Dados com CALC - Box-and-Whisker e Box-Plot
A mediana, parte do resumo de cinco números, é mostrado pela linha que atravessa a caixa na boxplot.
dados inclinados mostrar um boxplot desequilibrada, em que a mediana corta a caixa em duas partes desiguais. Se o faz mais parte da caixa é para a direita (ou acima) da mediana, os dados está a ser dito direito enviesada. Se a peça é mais à esquerda (ou abaixo) da mediana, os dados são enviesada esquerda.
Na figura acima, as idades têm razão distorcida. A parte da caixa à esquerda da mediana (representando as atrizes mais jovens) é menor do que a parte à direita da mediana (representando as atrizes mais velhas). Isso significa que as idades das atrizes mais jovens são mais próximos do que as idades das atrizes mais velhas.
Esta figura mostra a estatística descritiva dos dados e confirma a assimetria direita: a média de idade (33 anos) é menor do que a média de idade (35,69 anos).
Se um dos lados da caixa é maior que o outro, isso não significa que o lado contém mais dados. Na verdade, você não pode dizer o tamanho da amostra, olhando para um boxplot- é baseado em porcentagens do tamanho da amostra, não o tamanho da amostra em si. Cada seção do boxplot (o mínimo para Q1, Q1 com a mediana, a mediana para Q3, e Q3 ao máximo) contém 25% dos dados, não importa o quê. Se uma das secções é mais longo do que o outro, que indica uma gama mais ampla de valores de dados, em que a secção (ou seja, os dados são mais espalhadas). Uma pequena secção do boxplot indica os dados são mais condensado (mais perto em conjunto).
Embora um boxplot pode dizer se um conjunto de dados é simétrica (quando a mediana está no centro da caixa), não pode dizer-lhe a forma da simetria a forma como uma lata histograma.
Por exemplo, a figura mostra histogramas acima a partir de dois conjuntos de dados diferentes, cada uma contendo 18 valores que variam de 1 a 6. O histograma da esquerda tem um número igual de valores em cada grupo, e a da direita tem dois picos em 2 e 5. Ambos os histogramas mostram os dados são simétricas, mas suas formas são claramente diferentes.
Esta figura mostra as boxplots correspondentes para perceber esses mesmos dois dados conjuntos- eles são exatamente o mesmo. Isso ocorre porque os conjuntos de dados ambos têm os mesmos resumos de cinco números - eles são ambos simétrica com a mesma quantidade de distância entre Q1, a mediana, e Q3. No entanto, se você acabou de ver as boxplots e não os histogramas, você pode pensar que as formas dos dois conjuntos de dados são os mesmos, quando na verdade eles não são.
Apesar de sua fraqueza na detecção do tipo de simetria (você pode adicionar em um histograma para suas análises para ajudar a preencher essa lacuna), um boxplot tem uma grande cabeça em que você possa identificar medidas reais de propagação e centro diretamente do boxplot, onde em um histograma que você não pode. Um boxplot também é bom para a comparação de conjuntos de dados, mostrando-los no mesmo gráfico, lado a lado.
O que um boxplot revela sobre a variabilidade de um conjunto de dados estatísticos
Variabilidade em um conjunto de dados que é descrito pela síntese de cinco número é medido pela intervalo interquartil (IQR). o IQR é igual a Q3 - Q1, a diferença entre o percentil 75 e o percentil 25 (a distância que cobre o meio de 50% dos dados). Quanto maior for o IQR, o mais variável do conjunto de dados é.
A partir da figura acima mostra as estatísticas descritivas para Melhores idades Actriz, a variabilidade na idade dos Melhores vencedores Actriz, medida pelo IQR, é Q3 - Q1 = 39 - 28 = 11 anos. Do grupo de atrizes cujas idades eram mais próximo à mediana, metade delas estavam dentro de 11 anos um do outro quando eles ganharam seus prêmios.
Observe que o IQR ignora os dados abaixo do percentil 25 ou superior a 75, o qual pode conter valores aberrantes que podem inflar a medida da variabilidade de todo o conjunto de dados. Então, se os dados estão distorcidos, o IQR é uma medida mais apropriada da variabilidade do que o desvio padrão.
">