Testes gráficas de dados discrepantes
Identificando os outliers de dados não é uma questão de corte e secou-se. Não pode haver discordância sobre o que faz e não se qualifica como um outlier. A definição de um valor aberrante depende da distribuição de probabilidade assumida de uma população. Por exemplo, se a população realmente é normalmente distribuída, o gráfico de um conjunto de dados deve ter a mesma forma de assinatura sino - se isso não acontecer, isso poderia ser um sinal de que existem valores discrepantes nos dados.
Conteúdo
Você pode usar três técnicas gráficas para identificar valores atípicos:
histogramas
Os diagramas de caixa
QQ-plots
histogramas
UMA histograma é um gráfico utilizado para representar visualmente uma distribuição de probabilidade com uma série de barras verticais. O eixo horizontal mostra valores ou intervalos de valores para a variável a ser estudada, e o eixo vertical mostra as frequências correspondentes destes valores.
Como exemplo, o padrão e 500 índice Poor (S&P 500) é um índice de mercado de ações, que representa os preços das 500 maiores ações norte-americanas, ponderados pela sua capitalização de mercado. Uma das ações capitalização de mercado é igual ao preço por vezes compartilham o número de ações em circulação.
A figura mostra um histograma dos retornos diários para a Standard and Poor índice do mercado de 500 ações durante os anos 2009-2013.
De acordo com este histograma, a maioria dos retornos foram próximas de zero durante este período. Retorno acima de 0,01 (1 por cento) ou abaixo -0,01 (-1 por cento) ocorreu relativamente com pouca frequência. No entanto, para os rendimentos que se ocorrem fora do pequeno intervalo em torno de 0, a ocorrência de retorno negativos ultrapassado a ocorrência de retorno positivo, como pode ser visto pelo comprimento extremo da cauda esquerda.
A forma do histograma mostra que a distribuição de volta ao Standard and Poor de 500 durante este período é improvável que seja normal. Um problema é que a distribuição normal é simétrica em relação à sua média, ao passo que o histograma mostra que a distribuição de retorno está enviesada negativamente (Isto é, há um desequilíbrio entre os retornos negativos e positivos, com mais negativo do que os retornos positivos).
Os diagramas de caixa
UMA gráfico de caixa mostra a distribuição de um conjunto de dados em uma caixa. A caixa é baseado em quartis, que são como percentis exceto que há apenas quatro deles. O gráfico de caixa está estruturado da seguinte forma:
A parte superior da caixa representa o terceiro quartil (Ou quartil superior) (Q3) Dos dados. Isto é equivalente ao percentil 75.
A parte inferior da caixa representa o primeiro quartil (Ou quartil inferior) (Q1) Dos dados. Isto é equivalente ao percentil 25.
O meio da caixa (mostrado com uma linha a) representa o segundo quartil (Q2) Dos dados (também conhecidos como o mediana).
O primeiro quartil de um conjunto de dados é um valor que é maior do que 25 por cento dos elementos do conjunto de dados e menos do que os 75 por cento restantes. O segundo quartil (isto é, a mediana) é um valor que é maior do que 50 por cento dos elementos e menos do que os 50 por cento restantes. O terceiro quartil é um valor que é maior do que 75 por cento dos elementos e menos do que os 25 por cento restantes.
Video: Test EOAPD grafico de barras
o intervalo interquartil (IQR) é definida como a diferença entre os primeiros e terceiros quartis:
IQR = Q3 - Q1
o IQR é usado como uma medida de dispersão, ou como espalhar-se os dados estão sobre o centro. Ele também pode ser usado para identificar os outliers.
Para uma caixa de bigodes, existem linhas acima e abaixo da caixa. A linha superior representa o valor máximo em um conjunto de dados, excluindo os outliers. A linha inferior representa o valor mínimo em um conjunto de dados, novamente excluindo valores discrepantes. Os pontos individuais mostrados acima e abaixo dessas linhas são as outliers no conjunto de dados.
Quando você estiver usando um gráfico de caixa, um outlier é definido como segue:
Se um ponto de dados está abaixo Q1 - 1,5 (IQR), considera-se ser um outlier.
Se um ponto de dados está acima Q3 + 1,5 (IQR), considera-se ser um outlier.
A figura seguinte mostra um gráfico de caixa dos retornos diários para o S&P 500 índice do mercado de ações durante os anos de 2009-2013.
O gráfico de caixa mostra que há um outlier que é significativamente maior do que o resto dos retornos no conjunto de dados. Há também quatro valores atípicos que são significativamente menores do que o resto dos retornos no conjunto de dados. A existência destes valores extremos mostra que o conjunto de dados não podem ser normalmente distribuídos.
QQ-plots
Você pode plotar os dados da amostra com um QQ-plot (Abreviação de enredo quantil-quantil). Este lote compara os quantis dos dados da amostra com os quantis de uma distribuição de probabilidade especificada, tal como o normal.
quantis são usados para dividir um conjunto de dados em grupos de tamanhos iguais com base no valor de uma variável numérica particular. Existem vários tipos de quantis, incluindo o seguinte:
percentis dividir um conjunto de dados em 100 grupos iguais, cada um correspondendo a uma percentagem do total. Por exemplo, se um grupo de 1.000 estudantes leva um exame padronizado, e 200 deles recebem uma pontuação abaixo de 300, depois 300 seria o percentil 20 deste conjunto de dados. Isto indica que 20 por cento dos estudantes marcou abaixo de 300, enquanto que os 80 por cento restantes marcou superior a 300.
decis dividir um conjunto de dados em dez grupos iguais, cada um representando 10 por cento do total. Por exemplo, o quarto decil corresponde ao percentil 40.
quartis dividir um conjunto de dados em quatro grupos iguais, cada um representando 25 por cento do total. Por exemplo, o terceiro quartil corresponde ao percentil 75.
Video: Como fazer elaborar um histograma no Excel Polígono frequência Análise dados agrupados Estatística
A figura seguinte mostra um QQ-terreno dos retornos diários para o S&P índice de mercado 500 estoque durante 2009-2013, em comparação com a distribuição normal:
A linha a cheio no gráfico representa os percentis da distribuição normal. 0 representa a dizer- portanto, metade dos valores são inferiores a 0, e a outra metade são acima dela. Cerca de 95 por cento dos valores estão abaixo dos 2 (2 representa dois desvios padrão acima da média), ao passo que 5 por cento dos valores estão abaixo de -2 (-2 representa dois desvios padrão abaixo da média). Se o S&P retornos eram normalmente distribuídos, as suas quantis deve situar-se na linha.
Os pontos no gráfico são as observações reais no S&P 500 do conjunto de dados. Para os quantis normais que são maiores do que 2 (isto é, dois desvios padrão acima da média), o S&P 500 retornos são acima da linha, o que indica que a cauda direita é também “gordura” para ser coerente com a distribuição normal. Para quantis normais que estão abaixo de -1 (isto é, um desvio padrão abaixo do valor médio), o S&P 500 retorna estão abaixo da linha, o que indica que a cauda esquerda também é muito gorda para ser consistente com a distribuição normal.
No geral, a distribuição de retornos ao S&P 500 parece ser uma distribuição de cauda de gordura, o que significa que resultados extremos são muito mais provável do que seria o caso com a distribuição normal.