Estatísticas robustas e dados grande

Uma estatística é dito ser robusto

se não é fortemente influenciada pela presença de outliers. Por exemplo, a média não é robusta, porque pode ser fortemente afectada pela presença de outliers. Por outro lado, a mediana é robusto - não é afetado por valores discrepantes.

Por exemplo, suponha que os seguintes dados representa uma amostra dos rendimentos do agregado familiar em uma cidade pequena (medido em milhares de dólares por ano):

32, 47, 20, 25, 56

Você calcular a média da amostra como a soma dos cinco observações divididas por cinco:

A média da amostra é de US $ 36.000 por ano. A maioria dos domicílios da amostra são muito próximo a este valor.

Suponha vez que a amostra é constituída pelos seguintes valores:

32, 47, 20, 25, 376

Porque a renda familiar de US $ 376.000 é substancialmente maior do que a renda familiar próximo mais próximo de US $ 32.000, a renda familiar de US $ 376.000 pode ser considerado um outlier.

Com o valor aberrante, a média da amostra é agora como segue:

Esta medida não é representativa da maioria das famílias na cidade. Assim, a utilidade da média é comprometida na presença de outliers.



Você calcular a mediana da amostra, classificando os dados do menor para o maior e, em seguida, encontrar o valor que divide a amostra ao meio. Em outras palavras, a metade das observações estão abaixo da média, e a outra metade são acima.

A primeira amostra:

32, 47, 20, 25, 56

A amostra classificadas:

20, 25, 32, 47, 56

Neste caso, a média é de 32 porque a metade dos restantes observações estão abaixo de 32 e a outra metade são acima dela.

A segunda amostra:

32, 47, 20, 25, 376

A amostra classificadas:

Video: Agrupar Dados em Classes - Tabelas de Estatística

20, 25, 32, 47, 376

Video: Estatística Básica #6: Média Aritmética para Dados Agrupados

Apesar da presença do outlier de 376, a mediana ainda é 32. Ele não foi afetado pelo outlier. Isso mostra que, ao contrário da média, a mediana é robusto no que diz respeito a outliers.

Outros exemplos de estatísticas sólidas incluem a mediana, desvio absoluto, e o intervalo interquartil.


Publicações relacionadas