Coleta e limpeza de dados para a aprendizagem de máquina

Video: JUPYTER#02 - HELLO MOSSORÓ WORLD

Embora as máquinas aprender a partir dos dados, nenhuma receita mágica existe no mundo de algoritmos (como os “existe almoço grátis” teorema) quando se trata de dados. Mesmo funções de aprendizagem sofisticadas e avançadas bater na parede e um desempenho inferior quando você não apoiá-los com o seguinte:

Video: Coleta de lixo em banheiros

  • quantidades suficientemente grande de dados que são adequados para o algoritmo que você usar
  • dados limpos e bem preparados adequados para uso em aprendizado de máquina

quantidade de dados é benéfica na aprendizagem quando se explica viés e variância trade-offs. Como um lembrete, grandes quantidades de dados pode provar benéfico para fins de aprendizagem quando a variabilidade das estimativas é um problema, porque os dados específicos usados ​​para a aprendizagem influencia fortemente previsões (o problema overfitting). Mais dados podem realmente ajudar, porque um número maior de algoritmos de aprendizagem exemplos ajudas máquina para disambiguate o papel de cada sinal captado a partir de dados e tomada em modelagem da previsão.

Além quantidade de dados, a necessidade de limpeza de dados é compreensível - é apenas como a qualidade do ensino que você começa na escola. Se os seus professores ensinam só nonsense, fazer exemplos errados, gastar tempo brincando, e de outras maneiras não levar o ensino a sério, você não vai fazer bem em seus exames, não importa como você é inteligente. O mesmo é verdadeiro para os algoritmos simples e complexos - se você alimentá-los dados de lixo, eles só produzem previsões sem sentido.



De acordo com o princípio de lixo dentro, lixo para fora (GIGO para o short), dados ruins podem realmente prejudicar a aprendizagem de máquina. Bad dados consiste de dados em falta, outliers distribuições de valores distorcidos, redundância de informação, e não características bem explicada.

Video: Jupyter #01 - Conhecendo nosso LAB para Data Science

Dados ruins podem não ser ruim no sentido de que é errado. Muitas vezes, dados ruins é apenas dados que não esteja em conformidade com as normas definidas para os seus dados: um rótulo escrito em muitos valores erráticos maneiras-diferentes transbordou de datas outros dados Fields escritos em formats- inválido e texto não estruturado que você deveria ter estruturado em uma variável categórica.

Aplicação das regras de validade dos dados em seus bancos de dados e trabalhar na concepção de melhores tabelas de dados, bem como a exatidão do processo que armazena dados pode revelar-se uma ajuda inestimável para o aprendizado de máquina e deixá-lo concentrar-se na resolução de problemas de dados mais complicadas.


Publicações relacionadas