Quanto spread é lá nos dados?
Quando se trabalha com estatísticas de dados grandes, você identifica a propagação de um conjunto de dados do centro com várias medidas diferentes de resumo: variância, desvio padrão, quartis, intervalo interquartílico (II).
Conteúdo
A variação é o desvio médio quadrático entre os elementos do conjunto de dados e a média. Para uma amostra de dados, a variação é calculada assim:
Onde
XEu é o valor de um único elemento na amostra.
é a média da amostra.
n é o tamanho da amostra.
Video: VALE POR MUITOS HOMENS O MARTELETE O DEMOLIDOR '' IT'S WORTH MANY MEN THE MARTELETE THE DEMOLIDOR ''
O desvio padrão é a raiz quadrada da variância. Para a maioria das aplicações, o desvio padrão é mais conveniente de usar do que a variância como medida de spread. Isso porque variância é medido em quadrado unidades, enquanto que o desvio padrão é medida nas mesmas unidades como os dados. Por exemplo, a variância de um conjunto de dados consistindo de preços seria medido em dólares quadrado, e o desvio padrão seria medido em dólares. O desvio padrão é a medida mais amplamente utilizado da propagação em um conjunto de dados.
Quartis dividem um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) Divide os dados no menor de 25 por cento das observações e a maior de 75 por cento (25 por cento das observações são menos que Q1, e 75 por cento são Melhor que Q1). O segundo quartil (Q2) Divide os dados para o menor de 50 por cento das observações e a maior de 50 por cento. O terceiro quartil (Q3) Divide os dados para o menor de 75 por cento das observações e a maior de 25 por cento. A gama interquartil (IQR) é igual à diferença entre os primeiros e terceiros quartis:
O IQR representa a média 50 por cento dos dados.
Os quartis de um conjunto de dados são melhor ilustrado com um gráfico de caixa. A figura a seguir mostra um gráfico de caixa dos retornos diários para ExxonMobil, em 2013.
O gráfico de caixa mostra várias estatísticas-chave para os retornos da ExxonMobil:
Video: Galantis - Peanut Butter Jelly (Official Video)
O retorno mínimo é mostrado no gráfico como um único ponto na parte inferior da parcela (uma caixa mostra trama discrepantes como pontos individuais). Q1 como é mostrado na parte inferior da caixa, Q2 é a linha preta sólida no meio da caixa, e Q3 é a parte superior da caixa. O rendimento máximo é mostrado como um ponto único no topo da trama.