Encontre os valores discrepantes em seus dados infográficos
Video: Aula de Estatística - Quartis e Percentis
Na análise de dados para seus infográficos, você deve estar ciente de que alguns pontos de dados - conhecido como discrepantes - lay até agora fora da norma, como para chamar a atenção para si. Nos casos mais graves, podem mesmo distorcer dados e criar uma imagem enganosa do assunto. Você precisa reconhecer quando você tem um outlier e então decidir o que fazer sobre isso.
Esta tabela contém um exemplo simples para demonstrar essa idéia. Os dois conjuntos de dados representam notas de um aluno, durante oito semanas, em dois exams- semanalmente os números são a porcentagem correta no exame. O conjunto de dados à esquerda (o primeiro exame) não contém um outlier, mas o conjunto de dados à direita (o segundo exame) faz. A um outlier é mostrada em negrito.
Semana | As classes (nenhuma outlier) | Graus (um outlier) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Média | 87% | 83% |
A média na coluna do meio pinta muito uma imagem precisa da realização do aluno no teste regular. O outlier (negrito) único (50%) no conjunto de dados à direita joga uma chave para as obras, no entanto, deixar cair a média do aluno em quatro pontos percentuais e distorcer os dados.
O que faz um jornalista de dados fazer em tal caso? Aqui estão algumas opções:
Jogue fora o outlier. Se você estiver usando apenas a média em sua gráfica e estão preocupados que é enganosa, eliminar o outlier como uma aberração e, em seguida, calcular a média, sem essa semana, como mostrado na figura.
Neste exemplo, de deitar fora o outlier significaria pontuação no teste de média desse estudante salta para cima de 87%, que (como a primeira coluna mostra) é uma representação melhor de realização ao longo do prazo.
Se você vai com esta opção, certifique-se de adicionar uma nota explicando tudo: neste caso, a exclusão de um ponto de dados. Sempre ser o mais transparente possível.
Mostrar os dados como está. Se você estiver usando apenas a média em seu gráfico ou plotagem todos os dados em um gráfico, você pode sempre apresentar os dados exatamente como ele veio para você, como mostrado na figura a seguir.
Video: valores discrepantes
Neste caso, você deve adicionar uma nota chamando o outlier de modo que o leitor está plenamente consciente disso.
Construir uma “linha de melhor ajuste.” Esta opção só se aplica se você estiver indo para criar um gráfico mostrando todos os dados. A linha de melhor ajuste - também chamado de regressão linear - é uma média visual de seus dados: literalmente a linha que representa seus pontos de dados dispersos melhor.