Como lidar com valores duplicados em seus dados

Os dados são armazenados de diferentes maneiras em diferentes sistemas. Assim não é nenhuma surpresa que quando a coleta e consolidação de dados de várias fontes, é possível que as duplicatas aparecer. Em particular, o que faz um registro único indivíduo é diferente para diferentes sistemas.

Um resumo da conta investimento está ligado a um número de conta. Um resumo portfólio pode ser armazenado em um nível individual ou familiar. E as histórias comerciais de todas essas contas são armazenados no nível da transação individual.

É importante ser claro sobre o que é suposto para diferenciar registros exclusivos no seu arquivo de dados. Por exemplo, se é um arquivo de nível de transação, em seguida, números de conta e IDs domésticos será duplicada. Contanto que você entender isso e está fazendo uma análise de nível de transação, você vai ficar bem.

Mas se você estiver interessado em usar esses dados para analisar o número de contas detidas por cada agregado familiar, você vai correr em problemas. Os agregados familiares que negociam com mais frequência terá mais registros do que aqueles que não o comércio muito. Você precisa ter um arquivo no nível da conta.

Removendo registros duplicados não é particularmente difícil. A maioria dos pacotes estatísticos e sistemas de banco de dados têm built-in comandos desse grupo registros juntos. (Na verdade, na linguagem SQL do banco de dados, esse comando é chamado Group By.)


Publicações relacionadas