Como a pista correlações de dados em r

Video: Curso do RStudio: 4 - Correlações

Os estatísticos adoro quando eles podem vincular uma variável de dados para outro. R pode ajudar a encontrar essa relação. Luz solar, por exemplo, é prejudicial para saias: Quanto mais tempo o sol brilha, as saias mais curtas tornou. Assim, o número de horas de sol correlaciona com comprimento da saia.

Obviamente, não há realmente uma relação causal direta aqui - você não vai encontrar saias curtas durante o verão nas regiões polares. Mas, em muitos casos, a busca de relações causais começa com olhando para correlações.

Para ilustrar isso, dê uma olhada no famoso íris conjunto de dados em R. Um dos maiores estatísticos de todos os tempos, Sir Ronald Fisher, utilizado este conjunto de dados para ilustrar como medições múltiplas pode ser usado para discriminar entre diferentes espécies. Este conjunto de dados contém cinco variáveis, como você pode ver, usando o nomes () função:

Video: Como calcular o Coeficiente de correlação e gráfico de dispersão no Excel

gt; nomes (íris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length"[4] "Petal.Width" "Espécies"

Ele contém medições de características de flores para três espécies de íris e de 50 flores para cada espécie. Duas variáveis ​​descrever as sépalas (Sepal.Length e Sepal.Width), Duas outras variáveis ​​descrevem as pétalas (Petal.Length e Petal.Width), E a última variável (Espécies) É um factor que indica a partir da qual a espécie flor vem.



Embora as aparências podem enganar, você quer globo ocular seus dados antes de cavar mais fundo nele. Para traçar uma grade de gráficos de dispersão para todas as combinações de duas variáveis ​​em seu conjunto de dados, você pode simplesmente usar o enredo() funcionar em seu quadro de dados, como este:

gt; trama (íris [-5])

Porque scatterplots são úteis somente para as variáveis ​​contínuas, você pode soltar todas as variáveis ​​que não são contínuas. Muitas variáveis ​​na matriz enredo faz as parcelas difícil de ver. No código anterior, você deixa cair a variável Espécies, porque isso é um fator.

Video: Manipulação de Dados com R #1

Você pode ver o resultado dessa simples linha de código. Os nomes de variáveis ​​aparecem nos quadrados na diagonal, indicando quais as variáveis ​​são plotados ao longo do X-eixo e o y-eixo. Por exemplo, a segunda trama na terceira linha possui Sepal.Width no X-eixo e Petal.Length no y-eixo.


Publicações relacionadas