Como desvendá estatísticas em ggplot2 em r

Depois dos dados de mapeamento, e Geoms, o quarto elemento de um ggplot2

camada em I descreve a forma como os dados devem ser resumidos. Dentro ggplot2, você se referem a este resumo estatístico como um STAT.

Video: Making Boxplots using R's ggplot2 Package

Uma característica muito conveniente de ggplot2 é a sua gama de funções para resumir seus dados na trama. Isso significa que muitas vezes você não tem que pré-resumir seus dados. Por exemplo, a altura das barras em um histograma indica quantas observações de algo que você tem em seus dados. O resumo estatístico para isso é contar as observações. Os estatísticos referem-se a este processo como binning, eo status padrão para geom_bar () é stat_bin ().

Análogo à forma que cada geom tem um padrão associado Stat, cada Stat também tem um padrão geom.

Então, isso levanta a questão: Como você decide se deseja usar um geom ou um Stat? Em teoria, não importa se você escolher o geom ou o Stat primeiro. Na prática, no entanto, que muitas vezes é intuitivo para começar com um tipo de trama em primeiro lugar - em outras palavras, especificar um geom. Se depois quiser adicionar outra camada de resumo estatístico, use um Stat.

Fazendo um histograma com & lt; span class =geom_bar ().”width =” 535 "/>
Fazendo um histograma com geom_bar ().

Neste enredo, que utilizou os mesmos dados para primeiro criar um gráfico de dispersão com geom_point (), e, em seguida, você adicionou uma linha suave com stat_smooth ().

Aqui alguns exemplos práticos do uso de Stat funções.

StatDescriçãopadrão Geom
stat_bin ()Conta o número de observações nas lixeiras.geom_bar ()
stat_smooth ()Cria uma linha lisa.geom_line ()
stat_sum ()Adiciona valores.geom_point ()
stat_identity ()Não há resumo. Lotes de dados como está.geom_point ()
stat_boxplot ()Resume os dados para um gráfico de caixa-and-whisker.geom_boxplot ()

binning dados

Você já viu como usar stat_bin () para resumir seus dados em lixeiras, porque este é o status padrão de geom_bar (). Isto significa que as duas linhas de código a seguir produzir parcelas idênticas:

> Ggplot (tremores, AES (x = profundidade)) + geom_bar (binwidth = 50)> ggplot (tremores, AES (x = profundidade)) + stat_bin (binwidth = 50)

suavização de dados

o ggplot2 pacote também faz com que seja muito fácil criar linhas de regressão através de seus dados. Você usa o stat_smooth () função para criar este tipo de linha.

A coisa interessante sobre stat_smooth () é que ele faz uso de regressão local por padrão. R tem várias funções que podem fazer isso, mas ggplot2 usa o loess () função de regressão local. Isto significa que se você quiser criar um modelo de regressão linear, você tem que dizer stat_smooth () usar uma função suave diferente. Você pode fazer isso com o método argumento.



Para ilustrar a utilização de uma mais suave, início através da criação de um conjunto disperso de desemprego na longley conjunto de dados:

> p <- ggplot(longley, aes(x = Year, y = Employed)) + geom_point()> p

Em seguida, adicione um mais suave. Isto é tão simples como adicionar stat_smooth () à sua linha de código.

> P + stat_smooth ()

Seu gráfico deve ser semelhante a trama à esquerda da imagem abaixo.

As vezes, ggplot2 gera mensagens com dicas extras e informações. Contanto que você não vê aviso ou erro, você pode ignorar essas mensagens. Nesse caso, stat_smooth () diz que o padrão mais suave é um método chamado loesse (Suavização local). A mensagem também diz que você pode usar métodos de alisamento alternativas.

Finalmente, use stat_smooth () para caber e traçar um modelo de regressão linear. Você pode fazer isso adicionando o argumento método =lm:

Video: R - Graphs - Bar Charts with Error Bars in Ggplot2

> P + stat_smooth (método = “LM”)

Seu gráfico deve agora olhar como o enredo para a direita.

Adicionando linhas de regressão com <span class =stat_smooth () “largura =” 535 "/ GT.;
Adicionando linhas de regressão com stat_smooth ().

Não fazer nada com a identidade

Às vezes você não quer ggplot2 para resumir seus dados na trama. Isso geralmente acontece quando seus dados estão já pré-resumidos ou quando cada linha de seu quadro de dados tem de ser plotados separadamente. Nestes casos, você quer dizer ggplot2 para não fazer nada em tudo, e a estatística de fazer isso é stat_identity (). Você deve ter notado que stat_identity é a estatística padrão para os pontos e linhas.


Publicações relacionadas