Análise exploratória de dados gráfica técnicas (eda)

EDA é fortemente baseada em técnicas gráficas. Você pode usar técnicas gráficas para identificar as propriedades mais importantes de um conjunto de dados. Aqui estão algumas das técnicas gráficas mais amplamente utilizados:

  • Os diagramas de caixa

  • histogramas

  • gráficos de probabilidade normais

  • gráficos de dispersão

Os diagramas de caixa

Você usa diagramas de caixa para mostrar algumas das características mais importantes de um conjunto de dados, tais como o seguinte:

  • valor mínimo

  • Valor máximo

  • quartis

Quartis separar um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) É um valor tal que o seguinte é verdadeiro:

25 por cento das observações em um conjunto de dados são menos do que o primeiro quartil.

75 por cento das observações são maiores do que o primeiro quartil.

O segundo quartil (Q2) É um valor tal que

50 por cento das observações em um conjunto de dados são menos do que o segundo quartil.

50 por cento das observações são maiores do que o segundo quartil.

O segundo quartil também é conhecido como o mediana.

O terceiro quartil (Q3) É um valor tal que



75 por cento das observações em um conjunto de dados são menos do que o terceiro quartil.

25 por cento das observações são maiores do que o terceiro quartil.

Você também pode usar gráficos de caixas para identificar discrepantes. Estes são valores que são substancialmente diferentes das do resto do conjunto de dados. Outliers pode causar problemas para os testes estatísticos tradicionais, por isso é importante para identificá-los antes de realizar qualquer tipo de análise estatística.

histogramas

Você usar histogramas para obter insights sobre a distribuição de probabilidade de que um conjunto de dados segue. Com um histograma, o conjunto de dados é organizado em uma série de valores individuais ou intervalos de valores, cada um representado por uma barra vertical. A altura da barra mostra a frequência com um valor ou gama de valores ocorre. Com um histograma, é fácil ver como os dados são distribuídos.

gráficos de dispersão

Um gráfico de dispersão é uma série de pontos que mostram como duas variáveis ​​estão relacionados entre si. Uma dispersão aleatória de pontos indica que as duas variáveis ​​são independentes, ou que a relação entre eles é muito fraco. Se os pontos se assemelham de uma linha recta, isto indica que a relação entre as duas variáveis ​​é aproximadamente linear.

Duas variáveis ​​estão linearmente relacionados se eles pode ser descrito pela equação Y = mX + b.

X é a variável independente, e Y é a variável dependente. m é o declive, o que representa a alteração no Y devido a uma dada mudança na X. b é o interceptar, que mostra o valor de Y quando X é igual a zero.

A figura mostra um gráfico de dispersão entre duas variáveis ​​em que a relação parece ser linear.

Gráfico de dispersão de uma relação linear.
Gráfico de dispersão de uma relação linear.

Os pontos do gráfico de dispersão quase formar uma linha recta. Ele se inclina um pouco para a esquerda e se inclina um pouco para a direita, mas é mais ou menos em linha reta. Isto mostra que a relação é linear, com uma inclinação positiva.

A figura seguinte mostra um gráfico de dispersão entre duas variáveis ​​em que Y parece estar a aumentar mais rapidamente do que X.

Gráfico de dispersão de uma relação não linear.
Gráfico de dispersão de uma relação não linear.

Veja a curva? Esta relação não é claramente linear. É na verdade uma relação quadrática. Uma relação assume a forma quadrática Y = machado2 + bX + c.

A figura seguinte mostra um gráfico de dispersão que não parece haver qualquer relação entre X e Y.

Gráfico de dispersão com nenhuma relação entre as variáveis ​​& lt; i & gt; X & lt; / i & gt; e & lt; i & gt; Y. & lt; / i & gt;”largura =” 535 Gráfico de dispersão com nenhuma relação entre as variáveis X e Y.

As variáveis ​​no gráfico de dispersão são mostradas não relacionado ou independente- você pode ver isso pela falta de qualquer padrão nos dados.

Além de mostrar a relação entre duas variáveis, um gráfico de dispersão, também pode mostrar a presença de outliers. A figura seguinte mostra um conjunto de dados com uma observação de que é substancialmente diferente das outras observações.

gráfico de dispersão com um outlier.
gráfico de dispersão com um outlier.

O ponto de outlier precisa ser investigada para determinar se é o resultado de um erro ou outros problemas. É possível que o outlier terão de ser removidos dos dados.

gráficos de probabilidade normais

gráficos de probabilidade normais são usados ​​para ver quão de perto os elementos de um conjunto de dados seguem a distribuição normal. A suposição de normalidade é comum em muitas disciplinas. Por exemplo, é muitas vezes assumida em finanças e economia que os retornos para os estoques são normalmente distribuídos. O pressuposto de normalidade é muito conveniente, e muitos testes estatísticos são baseadas nesta premissa.

Aplicação de testes estatísticos que pressupõem normalidade a um não-normal dataset daria resultados extremamente questionáveis. Portanto, é importante para determinar se ou não os dados são normalmente distribuídos antes de realizar qualquer um desses testes estatísticos.

">

Publicações relacionadas