Estatísticas robustas e dados grande
Uma estatística é dito ser robusto
Conteúdo
Por exemplo, suponha que os seguintes dados representa uma amostra dos rendimentos do agregado familiar em uma cidade pequena (medido em milhares de dólares por ano):
32, 47, 20, 25, 56
Você calcular a média da amostra como a soma dos cinco observações divididas por cinco:
A média da amostra é de US $ 36.000 por ano. A maioria dos domicílios da amostra são muito próximo a este valor.
Suponha vez que a amostra é constituída pelos seguintes valores:
32, 47, 20, 25, 376
Porque a renda familiar de US $ 376.000 é substancialmente maior do que a renda familiar próximo mais próximo de US $ 32.000, a renda familiar de US $ 376.000 pode ser considerado um outlier.
Com o valor aberrante, a média da amostra é agora como segue:
Esta medida não é representativa da maioria das famílias na cidade. Assim, a utilidade da média é comprometida na presença de outliers.
Você calcular a mediana da amostra, classificando os dados do menor para o maior e, em seguida, encontrar o valor que divide a amostra ao meio. Em outras palavras, a metade das observações estão abaixo da média, e a outra metade são acima.
A primeira amostra:
32, 47, 20, 25, 56
A amostra classificadas:
20, 25, 32, 47, 56
Neste caso, a média é de 32 porque a metade dos restantes observações estão abaixo de 32 e a outra metade são acima dela.
A segunda amostra:
32, 47, 20, 25, 376
A amostra classificadas:
Video: Agrupar Dados em Classes - Tabelas de Estatística
20, 25, 32, 47, 376
Video: Estatística Básica #6: Média Aritmética para Dados Agrupados
Apesar da presença do outlier de 376, a mediana ainda é 32. Ele não foi afetado pelo outlier. Isso mostra que, ao contrário da média, a mediana é robusto no que diz respeito a outliers.
Outros exemplos de estatísticas sólidas incluem a mediana, desvio absoluto, e o intervalo interquartil.