Como usar a função merge () com conjuntos de dados em r

Video: Introdução à Teoria dos Conjuntos | MEM #1

Em R utilizar o merge () função para combinar os quadros de dados. Esta função potente tenta identificar colunas ou linhas que são comuns entre as duas tramas de dados diferentes.

Como usar mala para encontrar o cruzamento de dados

A forma mais simples de merge () encontra a intersecção entre dois diferentes conjuntos de dados. Em outras palavras, para criar um quadro de dados que consiste naqueles estados que são frios, bem como grande, use a versão padrão do merge ():

gt; Merge (cold.states, large.states) Nome Geada Area1 Alasca 152 5664322 Colorado 166 1037663 Montana 155 1455874 Nevada 188 109889

Se você estiver familiarizado com uma linguagem de banco de dados como SQL, você pode ter adivinhado que merge () é muito semelhante a um banco de dados aderir. Esta é, de fato, o caso e os diferentes argumentos para merge () permitem realizar junções naturais, bem como para a esquerda, direita, e externa completa junta.

o merge () função recebe um grande número de argumentos. Estes argumentos podem parecer bastante intimidante até você perceber que eles formam um número menor de argumentos relacionados:

  • X: Um quadro de dados.

  • y: Um quadro de dados.

  • de, by.x, by.y: Os nomes das colunas que são comuns a ambos X e y. O padrão é usar as colunas com nomes comuns entre os dois quadros de dados.

  • tudo, all.x, all.y: valores lógicos que especificam o tipo de mesclagem. O valor padrão é all = FALSE (O que significa que apenas as linhas correspondentes são devolvidos).

Esse último grupo de argumentos - todos, all.x e aliado - merece alguma explicação. Estes argumentos determinar o tipo de impressão em série que vai acontecer.

Como entender os diferentes tipos de merge



o merge () função permite quatro formas de combinar dados:

  • Natural juntar-se: Para manter apenas as linhas que correspondem a partir dos quadros de dados, especificar o argumento all = FALSE.

  • junção externa completa: Para manter todas as linhas de ambos os quadros de dados, especifique tudo = TRUE.

  • Junção externa esquerda: Para incluir todas as linhas do seu quadro de dados X e somente aqueles de y que correspondem, especifique all.x = TRUE.

  • Direito junção externa: Para incluir todas as linhas do seu quadro de dados y e somente aqueles de X que correspondem, especifique all.y = TRUE.

Como encontrar a união (junção externa completa)

Voltando aos exemplos de estados norte-americanos, para executar uma mala completa de estados frios e grande porte, uso fundir e especificar tudo = TRUE:

Video: Matemática - Conjuntos Numéricos

gt; Merge (cold.states, large.states, todos = TRUE) Nome Geada Area1 Alasca 152 5664322Arizona NA 1.134.173 Califórnia NA 156.361 .... 13 Texas NA 26213414Vermont 168 NA15Wyoming 173 NA

Ambos os quadros de dados tem uma variável Nome, então R coincide com os casos com base nos nomes dos estados. a variável geada vem da trama de dados cold.states, e a variável Área vem da trama de dados large.states.

Note que este executa a fusão completa e preenche as colunas com N / D valores onde não há dados correspondentes.


Publicações relacionadas