Identificando dados em falta para a aprendizagem de máquina

Mesmo se você tem exemplos suficientes na mão para a formação de ambos os algoritmos de aprendizado de máquina simples e complexos, eles devem apresentar valores completos nos recursos, sem quaisquer dados em falta. Ter um exemplo incompleta torna a ligação todos os sinais dentro e entre as características impossíveis. Os valores em falta também tornam difícil para o algoritmo de aprender durante o treinamento. Você deve fazer algo sobre os dados em falta.

Na maioria das vezes, você pode ignorar valores ausentes ou repará-los por adivinhar um valor provável substituto. No entanto, muitos valores em falta tornar previsões mais incertas porque a informação faltando poderia esconder qualquer possível figura-consequentemente, os valores mais ausentes nas características, o mais variável e impreciso as previsões.

Como primeiro passo, contar o número de casos que faltam em cada variável. Quando uma variável tem muitos casos ausentes, pode ser necessário para soltá-lo do conjunto de dados de treinamento e teste. Uma boa regra de ouro é a queda de uma variável, se mais de 90 por cento de suas instâncias estão faltando.

Video: A Escolha é Nossa

Alguns algoritmos de aprendizagem não sei como lidar com valores ausentes e reportar erros em ambas as fases de treinamento e teste, enquanto que outros modelos de tratá-los como valores zero, causando uma subestimação do valor previsto ou probabilidade (é como se parte da fórmula isn `t funcionando corretamente). Consequentemente, será necessário substituir todos os valores em falta em sua matriz de dados com algum valor adequado para a aprendizagem de máquina para acontecer corretamente.

Existem muitas razões para a falta de dados, mas o ponto essencial é se os dados estão faltando aleatoriamente ou em uma ordem específica. dados em falta aleatório é ideal porque você pode adivinhar o seu valor usando uma média simples, uma média, ou outro algoritmo de aprendizagem de máquina, sem muitas preocupações. Alguns casos contêm um forte viés em direção a certos tipos de exemplos.



Por exemplo, pense no caso de se estudar a renda de uma população. As pessoas ricas (por razões fiscais, presumivelmente) tendem a esconder sua verdadeira renda relatando a você que eles não sabem. Os pobres, por outro lado, pode-se dizer que eles não querem relatar sua renda por medo de julgamento negativo. Se você perder informação de certas camadas da população, reparando os dados em falta pode ser difícil e enganosa, porque você pode pensar que tais casos são apenas como os outros.

Em vez disso, eles são bastante diferentes. Portanto, você não pode simplesmente usar valores médios para substituir os valores em falta - você deve usar abordagens complexas e sintonizá-las com cuidado. Além disso, a identificação de casos que não estão faltando dados de forma aleatória é difícil porque requer uma inspeção mais próxima de como valores em falta são associado com outras variáveis ​​no conjunto de dados.

Quando faltam dados de forma aleatória, você pode facilmente reparar os valores vazios porque você obter dicas para o seu verdadeiro valor de outras variáveis. Quando os dados não está faltando ao acaso, você não pode obter boas dicas de outras informações disponíveis a menos que você compreender a associação de dados com o caso ausente.

Portanto, se você tem que descobrir o rendimento em seus dados em falta, e ele está faltando porque a pessoa é rico, você não pode substituir o valor em falta com uma média simples, porque você vai substituí-lo com uma renda média. Em vez disso, você deve usar uma média da renda de pessoas ricas como um substituto.

Quando os dados não está faltando ao acaso, o fato de que o valor está faltando é informativo porque ajuda a rastrear o grupo em falta. Você pode deixar a tarefa de olhar para a razão que está faltando para o seu algoritmo de aprendizado de máquina através da construção de um novo recurso binário que informa quando o valor de uma variável está faltando. Consequentemente, o algoritmo de aprendizado de máquina vai descobrir o melhor valor a ser usado como um substituto por si só.


Publicações relacionadas