Testes gráficas de dados discrepantes

Identificando os outliers de dados não é uma questão de corte e secou-se. Não pode haver discordância sobre o que faz e não se qualifica como um outlier. A definição de um valor aberrante depende da distribuição de probabilidade assumida de uma população. Por exemplo, se a população realmente é normalmente distribuída, o gráfico de um conjunto de dados deve ter a mesma forma de assinatura sino - se isso não acontecer, isso poderia ser um sinal de que existem valores discrepantes nos dados.

Você pode usar três técnicas gráficas para identificar valores atípicos:

  • histogramas

  • Os diagramas de caixa

  • QQ-plots

histogramas

UMA histograma é um gráfico utilizado para representar visualmente uma distribuição de probabilidade com uma série de barras verticais. O eixo horizontal mostra valores ou intervalos de valores para a variável a ser estudada, e o eixo vertical mostra as frequências correspondentes destes valores.

Como exemplo, o padrão e 500 índice Poor (S&P 500) é um índice de mercado de ações, que representa os preços das 500 maiores ações norte-americanas, ponderados pela sua capitalização de mercado. Uma das ações capitalização de mercado é igual ao preço por vezes compartilham o número de ações em circulação.

A figura mostra um histograma dos retornos diários para a Standard and Poor índice do mercado de 500 ações durante os anos 2009-2013.

Um histograma dos retornos diários para o amplificador S &; P 500 2009-2013.
Um histograma dos retornos diários para o S&P 500 2009-2013.

De acordo com este histograma, a maioria dos retornos foram próximas de zero durante este período. Retorno acima de 0,01 (1 por cento) ou abaixo -0,01 (-1 por cento) ocorreu relativamente com pouca frequência. No entanto, para os rendimentos que se ocorrem fora do pequeno intervalo em torno de 0, a ocorrência de retorno negativos ultrapassado a ocorrência de retorno positivo, como pode ser visto pelo comprimento extremo da cauda esquerda.

A forma do histograma mostra que a distribuição de volta ao Standard and Poor de 500 durante este período é improvável que seja normal. Um problema é que a distribuição normal é simétrica em relação à sua média, ao passo que o histograma mostra que a distribuição de retorno está enviesada negativamente (Isto é, há um desequilíbrio entre os retornos negativos e positivos, com mais negativo do que os retornos positivos).

Os diagramas de caixa

UMA gráfico de caixa mostra a distribuição de um conjunto de dados em uma caixa. A caixa é baseado em quartis, que são como percentis exceto que há apenas quatro deles. O gráfico de caixa está estruturado da seguinte forma:

  • A parte superior da caixa representa o terceiro quartil (Ou quartil superior) (Q3) Dos dados. Isto é equivalente ao percentil 75.

  • A parte inferior da caixa representa o primeiro quartil (Ou quartil inferior) (Q1) Dos dados. Isto é equivalente ao percentil 25.

  • O meio da caixa (mostrado com uma linha a) representa o segundo quartil (Q2) Dos dados (também conhecidos como o mediana).

O primeiro quartil de um conjunto de dados é um valor que é maior do que 25 por cento dos elementos do conjunto de dados e menos do que os 75 por cento restantes. O segundo quartil (isto é, a mediana) é um valor que é maior do que 50 por cento dos elementos e menos do que os 50 por cento restantes. O terceiro quartil é um valor que é maior do que 75 por cento dos elementos e menos do que os 25 por cento restantes.

Video: Test EOAPD grafico de barras

o intervalo interquartil (IQR) é definida como a diferença entre os primeiros e terceiros quartis:



IQR = Q3 - Q1

o IQR é usado como uma medida de dispersão, ou como espalhar-se os dados estão sobre o centro. Ele também pode ser usado para identificar os outliers.

Para uma caixa de bigodes, existem linhas acima e abaixo da caixa. A linha superior representa o valor máximo em um conjunto de dados, excluindo os outliers. A linha inferior representa o valor mínimo em um conjunto de dados, novamente excluindo valores discrepantes. Os pontos individuais mostrados acima e abaixo dessas linhas são as outliers no conjunto de dados.

Quando você estiver usando um gráfico de caixa, um outlier é definido como segue:

  • Se um ponto de dados está abaixo Q1 - 1,5 (IQR), considera-se ser um outlier.

  • Se um ponto de dados está acima Q3 + 1,5 (IQR), considera-se ser um outlier.

A figura seguinte mostra um gráfico de caixa dos retornos diários para o S&P 500 índice do mercado de ações durante os anos de 2009-2013.

Um gráfico de caixa dos retornos diários para o amplificador S &; P 500 2.009-2.013.
Um gráfico de caixa dos retornos diários para o S&P 500 2009-2013.

O gráfico de caixa mostra que há um outlier que é significativamente maior do que o resto dos retornos no conjunto de dados. Há também quatro valores atípicos que são significativamente menores do que o resto dos retornos no conjunto de dados. A existência destes valores extremos mostra que o conjunto de dados não podem ser normalmente distribuídos.

QQ-plots

Você pode plotar os dados da amostra com um QQ-plot (Abreviação de enredo quantil-quantil). Este lote compara os quantis dos dados da amostra com os quantis de uma distribuição de probabilidade especificada, tal como o normal.

quantis são usados ​​para dividir um conjunto de dados em grupos de tamanhos iguais com base no valor de uma variável numérica particular. Existem vários tipos de quantis, incluindo o seguinte:

  • percentis dividir um conjunto de dados em 100 grupos iguais, cada um correspondendo a uma percentagem do total. Por exemplo, se um grupo de 1.000 estudantes leva um exame padronizado, e 200 deles recebem uma pontuação abaixo de 300, depois 300 seria o percentil 20 deste conjunto de dados. Isto indica que 20 por cento dos estudantes marcou abaixo de 300, enquanto que os 80 por cento restantes marcou superior a 300.

  • decis dividir um conjunto de dados em dez grupos iguais, cada um representando 10 por cento do total. Por exemplo, o quarto decil corresponde ao percentil 40.

  • quartis dividir um conjunto de dados em quatro grupos iguais, cada um representando 25 por cento do total. Por exemplo, o terceiro quartil corresponde ao percentil 75.

Video: Como fazer elaborar um histograma no Excel Polígono frequência Análise dados agrupados Estatística

A figura seguinte mostra um QQ-terreno dos retornos diários para o S&P índice de mercado 500 estoque durante 2009-2013, em comparação com a distribuição normal:

Um QQ-terreno dos retornos diários para o amplificador S &; P 500 2009-2013.
Um QQ-terreno dos retornos diários para o S&P 500 2009-2013.

A linha a cheio no gráfico representa os percentis da distribuição normal. 0 representa a dizer- portanto, metade dos valores são inferiores a 0, e a outra metade são acima dela. Cerca de 95 por cento dos valores estão abaixo dos 2 (2 representa dois desvios padrão acima da média), ao passo que 5 por cento dos valores estão abaixo de -2 (-2 representa dois desvios padrão abaixo da média). Se o S&P retornos eram normalmente distribuídos, as suas quantis deve situar-se na linha.

Os pontos no gráfico são as observações reais no S&P 500 do conjunto de dados. Para os quantis normais que são maiores do que 2 (isto é, dois desvios padrão acima da média), o S&P 500 retornos são acima da linha, o que indica que a cauda direita é também “gordura” para ser coerente com a distribuição normal. Para quantis normais que estão abaixo de -1 (isto é, um desvio padrão abaixo do valor médio), o S&P 500 retorna estão abaixo da linha, o que indica que a cauda esquerda também é muito gorda para ser consistente com a distribuição normal.

No geral, a distribuição de retornos ao S&P 500 parece ser uma distribuição de cauda de gordura, o que significa que resultados extremos são muito mais provável do que seria o caso com a distribuição normal.


Publicações relacionadas