Como desvendá estatísticas em ggplot2 em r
Depois dos dados de mapeamento, e Geoms, o quarto elemento de um ggplot2
Conteúdo
Video: Making Boxplots using R's ggplot2 Package
Uma característica muito conveniente de ggplot2 é a sua gama de funções para resumir seus dados na trama. Isso significa que muitas vezes você não tem que pré-resumir seus dados. Por exemplo, a altura das barras em um histograma indica quantas observações de algo que você tem em seus dados. O resumo estatístico para isso é contar as observações. Os estatísticos referem-se a este processo como binning, eo status padrão para geom_bar () é stat_bin ().
Análogo à forma que cada geom tem um padrão associado Stat, cada Stat também tem um padrão geom.
Então, isso levanta a questão: Como você decide se deseja usar um geom ou um Stat? Em teoria, não importa se você escolher o geom ou o Stat primeiro. Na prática, no entanto, que muitas vezes é intuitivo para começar com um tipo de trama em primeiro lugar - em outras palavras, especificar um geom. Se depois quiser adicionar outra camada de resumo estatístico, use um Stat.
Neste enredo, que utilizou os mesmos dados para primeiro criar um gráfico de dispersão com geom_point (), e, em seguida, você adicionou uma linha suave com stat_smooth ().
Aqui alguns exemplos práticos do uso de Stat funções.
Stat | Descrição | padrão Geom |
---|---|---|
stat_bin () | Conta o número de observações nas lixeiras. | geom_bar () |
stat_smooth () | Cria uma linha lisa. | geom_line () |
stat_sum () | Adiciona valores. | geom_point () |
stat_identity () | Não há resumo. Lotes de dados como está. | geom_point () |
stat_boxplot () | Resume os dados para um gráfico de caixa-and-whisker. | geom_boxplot () |
binning dados
Você já viu como usar stat_bin () para resumir seus dados em lixeiras, porque este é o status padrão de geom_bar (). Isto significa que as duas linhas de código a seguir produzir parcelas idênticas:
> Ggplot (tremores, AES (x = profundidade)) + geom_bar (binwidth = 50)> ggplot (tremores, AES (x = profundidade)) + stat_bin (binwidth = 50)
suavização de dados
o ggplot2 pacote também faz com que seja muito fácil criar linhas de regressão através de seus dados. Você usa o stat_smooth () função para criar este tipo de linha.
A coisa interessante sobre stat_smooth () é que ele faz uso de regressão local por padrão. R tem várias funções que podem fazer isso, mas ggplot2 usa o loess () função de regressão local. Isto significa que se você quiser criar um modelo de regressão linear, você tem que dizer stat_smooth () usar uma função suave diferente. Você pode fazer isso com o método argumento.
Para ilustrar a utilização de uma mais suave, início através da criação de um conjunto disperso de desemprego na longley conjunto de dados:
> p <- ggplot(longley, aes(x = Year, y = Employed)) + geom_point()> p
Em seguida, adicione um mais suave. Isto é tão simples como adicionar stat_smooth () à sua linha de código.
> P + stat_smooth ()
Seu gráfico deve ser semelhante a trama à esquerda da imagem abaixo.
As vezes, ggplot2 gera mensagens com dicas extras e informações. Contanto que você não vê aviso ou erro, você pode ignorar essas mensagens. Nesse caso, stat_smooth () diz que o padrão mais suave é um método chamado loesse (Suavização local). A mensagem também diz que você pode usar métodos de alisamento alternativas.
Finalmente, use stat_smooth () para caber e traçar um modelo de regressão linear. Você pode fazer isso adicionando o argumento método =“lm”:
Video: R - Graphs - Bar Charts with Error Bars in Ggplot2
> P + stat_smooth (método = “LM”)
Seu gráfico deve agora olhar como o enredo para a direita.
Não fazer nada com a identidade
Às vezes você não quer ggplot2 para resumir seus dados na trama. Isso geralmente acontece quando seus dados estão já pré-resumidos ou quando cada linha de seu quadro de dados tem de ser plotados separadamente. Nestes casos, você quer dizer ggplot2 para não fazer nada em tudo, e a estatística de fazer isso é stat_identity (). Você deve ter notado que stat_identity é a estatística padrão para os pontos e linhas.