Encontre os valores discrepantes em seus dados infográficos

Video: Aula de Estatística - Quartis e Percentis

Na análise de dados para seus infográficos, você deve estar ciente de que alguns pontos de dados - conhecido como discrepantes - lay até agora fora da norma, como para chamar a atenção para si. Nos casos mais graves, podem mesmo distorcer dados e criar uma imagem enganosa do assunto. Você precisa reconhecer quando você tem um outlier e então decidir o que fazer sobre isso.

Esta tabela contém um exemplo simples para demonstrar essa idéia. Os dois conjuntos de dados representam notas de um aluno, durante oito semanas, em dois exams- semanalmente os números são a porcentagem correta no exame. O conjunto de dados à esquerda (o primeiro exame) não contém um outlier, mas o conjunto de dados à direita (o segundo exame) faz. A um outlier é mostrada em negrito.

Notas da Prova semanais
SemanaAs classes (nenhuma outlier)Graus (um outlier)
190%90%
288%88%
390%90%
485%50%
586%86%
687%87%
785%85%
884%84%
Média87%83%

A média na coluna do meio pinta muito uma imagem precisa da realização do aluno no teste regular. O outlier (negrito) único (50%) no conjunto de dados à direita joga uma chave para as obras, no entanto, deixar cair a média do aluno em quatro pontos percentuais e distorcer os dados.

O que faz um jornalista de dados fazer em tal caso? Aqui estão algumas opções:

  • Jogue fora o outlier. Se você estiver usando apenas a média em sua gráfica e estão preocupados que é enganosa, eliminar o outlier como uma aberração e, em seguida, calcular a média, sem essa semana, como mostrado na figura.

    Neste exemplo, de deitar fora o outlier significaria pontuação no teste de média desse estudante salta para cima de 87%, que (como a primeira coluna mostra) é uma representação melhor de realização ao longo do prazo.



    Se você vai com esta opção, certifique-se de adicionar uma nota explicando tudo: neste caso, a exclusão de um ponto de dados. Sempre ser o mais transparente possível.

  • Mostrar os dados como está. Se você estiver usando apenas a média em seu gráfico ou plotagem todos os dados em um gráfico, você pode sempre apresentar os dados exatamente como ele veio para você, como mostrado na figura a seguir.

    Video: valores discrepantes

    Neste caso, você deve adicionar uma nota chamando o outlier de modo que o leitor está plenamente consciente disso.

  • Construir uma “linha de melhor ajuste.” Esta opção só se aplica se você estiver indo para criar um gráfico mostrando todos os dados. A linha de melhor ajuste - também chamado de regressão linear - é uma média visual de seus dados: literalmente a linha que representa seus pontos de dados dispersos melhor.


Publicações relacionadas