Como verificar quantiles em r

Além da média e variação, você também pode dar uma olhada nos quantis em R. A quantil,

ou percentil, diz-lhe quanto de seus dados encontra-se abaixo de um determinado valor. A 50 por cento quantil, por exemplo, é a mesma que a mediana. Novamente, R tem algumas funções convenientes para ajudá-lo a olhar para os quantis.

Calculando o intervalo

Os quantis mais usados ​​são realmente os 0 por cento e 100 por cento quantiles. Você poderia facilmente chamar-lhes o mínimo eo máximo, porque é isso que eles são. Você pode obter os dois juntos usando o alcance() função. Esta função convenientemente dá-lhe a gama dos dados. Assim, para conhecer a gama de milhagens, você simplesmente fazer:

gt; range (carros $ mpg) [1] 10,4 33,9

Calculando os quartis

A gama ainda lhe dá apenas informações limitadas. Muitas vezes, os estatísticos relatam o primeiro eo terceiro quartil juntamente com o alcance e a mediana. Estes quartis são, respectivamente, os 25 por cento e 75 por cento quantis, que são os números para o qual um quarto e três quartos dos dados é menor. Você obter esses números usando o quantil () função, assim:

gt; quantil (carros $ mpg) 0% 25% 50% 75% 100% 10.400 15,425 19.200 22.800 33.900


Os quartis não são os mesmos que a dobradiça inferior e superior calculado no resumo de cinco números. Os dois últimos são, respectivamente, a mediana da metade inferior e superior de seus dados, e eles diferem ligeiramente dos primeiro e terceiro quartis. Para obter os cinco estatísticas numéricas, você usa o fivenum () função.

Obtendo na velocidade com a função quantil

o quantil () função pode dar-lhe qualquer quantil quiser. Para isso, você usar o probs argumento. Você dá o probs (Ou probabilidades) como um número fraccionário. Para os 20 por cento quantil, por exemplo, você usar 0.20 como um argumento para o valor. Este argumento também leva um vetor como um valor, para que possa, por exemplo, obter os 5 por cento e 95 por cento quantiles como este:

gt; quantil (carros $ MPG, Probs = c (0,05, 0,95)) 5% 95% 11,995 31,300

O valor padrão para o probs argumento é um vector que representa o mínimo (0), o primeiro quartil (0,25), a mediana (0,5), o terceiro quartil (0,75), e o valor máximo (1).

O argumento na.rm permite remover todos N / D valores antes de calcular o respectivo estatística. Se você não fizer isso, qualquer vector contendo N / D terá N / D como um resultado. Isso funciona de forma idêntica ao na.rm argumento do soma() função.


Publicações relacionadas