Como remover dados duplicados no r
Uma aplicação muito útil de subconjuntos de dados é encontrar e remover valores duplicados. R tem uma função útil, duplicados ()
Conteúdo
gt; duplicado (C (1,2,1,3,1,4)) [1] FALSO FALSO FALSO VERDADEIRO FALSO VERDADEIRO
Se você tentar isso em um quadro de dados, R verifica automaticamente as observações (significado, ele trata cada linha como um valor). Assim, por exemplo, com a trama de dados íris:
Video: Como Remover Valores Duplicados no Excel | Dicas Minuto - Como Excluir Dados Duplicados no Excel
gt; duplicado (íris) [1] FALSO FALSO FALSO FALSO FALSO FALSO FALSO FALSO FALSO [10] FALSO FALSO FALSO FALSO FALSO FALSO FALSO FALSO FALSO .... [136] False false false false false false FALSO FALSO VERDADEIRO [145] false false false false false false
Se você olhar com cuidado, você percebe que linha 143 é uma duplicata (porque o elemento 143 do seu resultado tem o valor VERDADE). Você também pode dizer isso usando o qual() função:
Video: Como eliminar datos de un data.frame (matriz de datos) en Rstudio
gt; que (duplicado (íris)) [1] 143
Agora, para remover o duplicado íris, você precisa excluir esta linha a partir de seus dados. Lembre-se que há duas maneiras de excluir dados usando subsetting:
Video: IDENTIFICAR E TRATAR VALORES DUPLICADOS - Excel RAP10
Especifique um vetor lógico, onde FALSO significa que o elemento irá ser excluída. o ! (Ponto de exclamação) operador é a negação lógica. Isso significa que ele converte VERDADE para dentro FALSO e vice versa. Então, para remover as duplicatas de íris, você faça o seguinte:
Video: Como remover dados duplicados no Excel. Super Fácil!
gt; iris [! duplicado (íris),]
Especificar valores negativos. Em outras palavras:
gt; índice lt; - que (duplicado (íris)) gt; íris [-Index,]
Em ambos os casos, você vai perceber que sua instrução removeu linha 143.