Como a parcela dados resumidos num ggplot2 em r

Uma característica muito conveniente de ggplot2

é a sua gama de funções para resumir seus dados R na trama. Isso significa que muitas vezes você não tem que pré-resumir seus dados. Por exemplo, a altura das barras em um histograma indica quantas observações de algo que você tem em seus dados.

O resumo estatístico para isso é contar as observações. Os estatísticos referem-se a este processo como binning, eo status padrão para geom_bar () é stat_bin ().

Análogo à forma que cada geom tem um status padrão associado, cada status também tem uma geom padrão.

Então, isso levanta a questão: Como você decide se deseja usar um geom ou uma estatística? Em teoria, não importa se você escolher o geom ou stat primeiro. Na prática, no entanto, que muitas vezes é intuitivo para começar com um tipo de trama em primeiro lugar - em outras palavras, especificar um geom. Se depois quiser adicionar outra camada de resumo estatístico, use uma estatística.

Neste enredo, que utilizou os mesmos dados para primeiro criar um gráfico de dispersão com geom_point () e, em seguida, você adicionou uma linha suave com stat_smooth ().

Video: Learn ggplot2 with DataCamp

Dê uma olhada em alguns exemplos práticos do uso de Stat funções.

StatDescriçãopadrão Geom
stat_bin ()Conta o número de observações nas lixeiras.geom_bar ()
stat_smooth ()Cria uma linha lisa.geom_line ()
stat_sum ()Adiciona valores.geom_point ()
stat_identity ()Não há resumo. Lotes de dados como está.geom_point ()
stat_boxplot ()Resume os dados para um gráfico de caixa-and-whisker.geom_boxplot ()
Como bin dados em ggplot2

Você já viu como usar stat_bin () para resumir seus dados em lixeiras, porque este é o status padrão de geom_bar (). Isto significa que as duas linhas de código a seguir produzir parcelas idênticas:

Video: ggplot2 tutorial: Multiple Groups and Variables

gt; ggplot (tremores, AES (x = profundidade)) + gt geom_bar (binwidth = 50); ggplot (tremores, AES (x = profundidade)) + stat_bin (binwidth = 50)

Como suavizar dados R em ggplot2

o ggplot2 pacote também faz com que seja muito fácil criar linhas de regressão através de seus dados. Você usa o stat_smooth () função para criar este tipo de linha.

Video: 2.4 Histograms and Density Plots (Visualizing Data Using ggplot2)



A coisa interessante sobre stat_smooth () é que ele faz uso de regressão local por padrão. R tem várias funções que podem fazer isso, mas ggplot2 usa o loess () função de regressão local. Isto significa que se você quiser criar um modelo de regressão linear você tem que dizer stat_smooth () usar uma função suave diferente. Você pode fazer isso com o método argumento.

Para ilustrar a utilização de uma mais suave, início através da criação de um conjunto disperso de desemprego na longley conjunto de dados:

gt; ggplot (Longley, AES (X = ano, Y = Employed)) + geom_point ()

Em seguida, adicione um mais suave. Isto é tão simples como adicionar stat_smooth () à sua linha de código.

gt; ggplot (Longley, AES (X = ano, Y = Employed)) ++ geom_point () + stat_smooth ()

Finalmente, diga stat_smooth usar um modelo de regressão linear. Você pode fazer isso adicionando o argumento método =”LM”.

Video: R Visualisations within Power BI (using R and Power BI)

gt; ggplot (Longley, AES (X = ano, Y = Employed)) ++ geom_point () + stat_smooth (método ="lm")

Como saber ggplot2 para deixar seus dados unsummarized

Às vezes você não quer ggplot2 para resumir seus dados na trama. Isso geralmente acontece quando seus dados estão já pré-resumidos ou quando cada linha de seu quadro de dados tem de ser plotados separadamente. Nestes casos, você quer dizer ggplot2 para não fazer nada em tudo, e a estatística de fazer isso é stat_identity ().


Publicações relacionadas