Limpar os dados para o seu modelo de análise preditiva

Video: Aprenda a limpar o WhatsApp para liberar espaço de armazenamento no iPhone

Você vai precisar para se certificar de que os dados é limpo de coisas estranhas antes que você possa usá-lo em seu modelo de análise preditiva. Isto inclui encontrar e corrigir quaisquer registros que contêm valores errôneos, e tentar preencher eventuais valores em falta. Você também terá que decidir se deseja incluir registros duplicados (duas contas de clientes, por exemplo). O objetivo geral é para garantir a integridade das informações que você está usando para construir o seu modelo preditivo. Preste especial atenção à integralidade, exactidão e actualidade dos dados.

É útil para criar estatísticas descritivas (características quantitativas) para vários campos, tais como cálculo min e max, verificando distribuição de frequência (quantas vezes ocorre algo) e verificar os intervalos esperados. Executando uma verificação regular pode ajudar a sinalizar quaisquer dados que está fora do intervalo previsto para uma investigação mais aprofundada. Todos os registros que mostram aposentados com datas de nascimento na década de 1990 podem ser sinalizados por este método.

Além disso, o cruzamento da informação é importante para que você tenha certeza que os dados são precisos. Para uma análise mais profunda das características dos dados e a identificação da relação entre os registros de dados, você pode fazer uso de perfis de dados (Analisando a disponibilidade de dados e coleta de estatísticas sobre a qualidade dos dados), e ferramentas de visualização.

Video: O que é cache? Como limpar sem usar nenhum app?

Os dados em falta pode ser devido ao fato de que a informação em particular não foi gravado. Nesse caso, você pode tentar preencher tanto quanto você pode- padrões adequados podem ser facilmente adicionados para preencher os espaços em branco de certos campos.

Por exemplo, para pacientes em uma maternidade enfermaria do hospital onde o campo de gênero está faltando um valor, o aplicativo pode simplesmente preenchê-lo como feminino. Para essa matéria, para qualquer homem que foi internado em um hospital com um registro que faltava para o estado de gravidez, esse registro pode igualmente ser preenchido como não aplicável. Um código postal falta de um endereço pode ser inferida a partir do nome da rua e cidade fornecido neste endereço.



Nos casos em que a informação é desconhecida ou não podem ser inferidas, então você precisa usar valores de outros do que um espaço em branco para indicar que os dados estão faltando, sem afetar a exatidão da análise. Um espaço em branco nos dados pode significar várias coisas, a maioria deles não é bom ou útil. Sempre que você pode, você deve especificar a natureza desse vazio por enchimento lugar significativo. Para os dados numéricos feitos inteiramente de números pequenos e positivos (valores entre 0 e 100), o utilizador, por exemplo, pode definir o número -999,99 como lugar de enchimento para a falta de dados.

Assim como é possível definir uma rosa em um milharal como uma erva daninha, outliers podem significar coisas diferentes para diferentes análises. É comum para alguns modelos a ser construída exclusivamente para rastrear esses valores discrepantes e bandeira deles. modelos de detecção de fraude e monitoramento atividades criminosas estão interessados ​​nesses valores atípicos, que, em tais casos indicam algo indesejado ter lugar.

Video: CCleaner - Limpeza de temporários, cache de navegadores, dados privativos e exclusão segura de dados

Então, mantendo os valores atípicos no conjunto de dados em casos como estes é recomendado. No entanto, quando os outliers são considerados anomalias dentro dos dados - e só vai distorcer as análises e levar a resultados errados - removê-los de seus dados. O que você não quer que aconteça é que seu modelo irá tentar prever os valores atípicos, e acabam deixando de prever qualquer outra coisa.

Duplicação nos dados também pode ser útil ou um nuisance- alguns dos que pode ser necessário, pode indicar valor, e pode refletir um estado precisa dos dados. Por exemplo, um registro de um cliente com várias contas pode ser representado com várias entradas que são (tecnicamente, pelo menos) duplicado e repetitivos dos mesmos registros.

Video: Quando eu devo limpar cache ou limpar dados?

Outro exemplo seria um cliente que tem tanto um telefone de trabalho e um telefone pessoal com a mesma empresa e com o projeto de lei vai para o mesmo endereço - algo que seria valioso para saber. Da mesma forma, quando os registros duplicados não contribuem valor para a análise e não são necessários, em seguida, removê-los pode ser de grande valor. Isto é especialmente verdadeiro para grandes conjuntos de dados, onde a remoção de registros duplicados pode simplificar a complexidade dos dados e reduzir o tempo necessário para análise.

Você pode preventivamente evitar que dados incorretos de entrar em seus sistemas adotando alguns procedimentos específicos:

  • Instituto controlos de qualidade e validação de dados para todos os dados que estão sendo coletados.
  • Permita que seus clientes para validar e auto-corrigir seus dados pessoais.
  • Fornecer seus clientes com possíveis e esperados valores para escolher.
  • Rotineiramente executar verificações sobre a integridade, consistência e precisão dos dados.

Publicações relacionadas