Aprendizado de máquina: criar suas próprias características em dados

Às vezes, os dados brutos que você obter a partir de várias fontes não terá os recursos necessários para executar tarefas de aprendizagem de máquina. Quando isso acontece, você deve criar suas próprias características, a fim de obter o resultado desejado. Criação de um recurso não significa a criação de dados de ar. Você cria novos recursos a partir de dados existentes.

Compreender a necessidade de criar recursos

Uma grande limitação de algoritmos de aprendizagem de máquina é que ele pode ser impossível adivinhar uma fórmula que poderia associar a sua resposta para as características que você está usando. Às vezes, essa incapacidade de adivinhar acontece porque você não pode mapear a resposta usando as informações que você tem disponível (o que significa que você não tem a informação certa). Em outros casos, a informação fornecida não ajuda o algoritmo de aprender corretamente.

Por exemplo, se você está modelando o preço dos imóveis, a superfície da terra é bastante previsível, porque as propriedades maiores tendem a custar mais. Mas se em vez da superfície, você fornece seu algoritmo de aprendizagem de máquina com o comprimento dos lados da terra (a latitude e longitude coordenadas de seus cantos), o algoritmo pode não descobrir o que fazer com a informação fornecida. Alguns algoritmos vai conseguir encontrar a relação entre as características, mas a maioria dos algoritmos não.

A resposta para esse problema é a criação recurso. criação característica é que parte da aprendizagem de máquina que é considerado mais uma arte do que uma ciência, pois implica a intervenção humana no criativamente misturar os recursos existentes. Você executar essa tarefa por meio de adição, subtração, multiplicação e proporção para gerar novos recursos derivados com maior poder preditivo do que os originais.

Conhecendo bem o problema e descobrir como um ser humano iria resolvê-lo é parte da criação recurso. Assim, a conexão com o exemplo anterior, o fato de que a superfície da terra se conecta ao preço do imóvel é de conhecimento comum. Se a superfície está faltando a partir de seus recursos ao tentar adivinhar o valor de uma propriedade, você pode recuperar essa informação a partir dos dados existentes - e isso aumenta o desempenho das previsões.

Independentemente de saber se você confiar no senso comum, conhecimento comum, ou conhecimento especializado, você pode fazer muita coisa para o seu algoritmo de máquina, se você primeiro descobrir quais informações devem trabalhar o melhor para o problema e, em seguida, tentar tê-lo disponível ou derivar-lo de Entre suas características.

Criação de recursos automaticamente

Você pode criar alguns novos recursos automaticamente. Uma maneira de conseguir a criação recurso automático é usar a expansão polinomial. maneiras específicas estão disponíveis para alcançar a expansão polinomial de modo que você criar recursos automaticamente em ambos os R e Python. Por enquanto, você precisa entender os conceitos por trás da expansão polinomial.

Em expansão polinomial, você cria automaticamente as interações entre características, bem como criar poderes (por exemplo, calcular o quadrado de um recurso). Interações dependem de multiplicação dos recursos. Criando um novo recurso usando multiplicação ajuda a manter o controle de como os recursos tendem a se comportar como um todo. Portanto, ele ajuda a mapear relações complexas entre seus recursos que podem alusão a situações especiais.



Um grande exemplo de uma interação é o ruído emitido a partir de um carro e o preço do carro. Os consumidores não apreciam carros barulhentos, a menos que comprar um carro esporte, caso em que o ruído do motor é um plus que lembra o proprietário da potência do carro. Ele também faz espectadores notar o carro legal, então o ruído desempenha um grande papel em mostrar porque o ruído certamente vai atrair a atenção dos outros. Por outro lado, o ruído ao dirigir um carro da família não é tão legal.

Video: Aprendizado de Máquina

Em uma aplicação de aprendizagem de máquina, na tentativa de prever a taxa de preferência por um determinado carro, apresenta como o ruído eo preço do carro são preditivos por si mesmos. No entanto, multiplicando-se os dois valores e adicioná-los ao conjunto de recursos pode inequivocamente dica para um algoritmo de aprendizagem que o alvo é um carro esportivo (quando você multiplicar altos níveis de ruído por um preço elevado).

Powers ajudar através da criação de relações não-lineares entre a resposta e os recursos, insinuando situações específicas.

Video: O que é Machine Learning? Conheça o Google AutoDraw

Como outro exemplo, imagine que você tem que prever despesas anuais de uma pessoa. Idade é um bom indicador porque como as pessoas crescem, a sua mudança de vida e situação familiar velho e maduro, também. Os alunos começam pobres, mas, em seguida, encontrar trabalho e pode construir uma família. De um ponto de vista geral, as despesas tendem a crescer como faz a idade até um certo ponto. Aposentadoria normalmente marca um ponto em que as despesas tendem a diminuir. Age contém essa informação, mas é uma característica que tende a crescer, e relacionando as despesas para o seu crescimento não ajuda a descrever a inversão que ocorre em uma determinada idade.

Adicionando o recurso quadrado ajuda a criar um efeito contra a idade em si, que é pequeno no começo, mas cresce rapidamente com a idade. O efeito final é uma parábola, com um crescimento inicial caracteriza-se por um pico em despesas de uma certa idade, e em seguida um decréscimo.

Como mencionado inicialmente, sabendo de antemão tal dinâmica (ruído e de esportes do carro, de consumo e de idade mais velho) pode ajudar a criar as características certas. Mas se você não sabe essas dinâmicas com antecedência, a expansão polinomial irá criá-los automaticamente para você, porque, dada uma certa ordem, ele irá criar interações e poderes dessa ordem. A fim de salientar o número de multiplicações e a potência máxima para aplicar os recursos existentes.

Assim, uma expansão polinomial de ordem 2 levanta todos os recursos para a segunda potência e multiplica cada característica por todos os outros. (Você começa a multiplicação de todas as combinações de duas características.) Claramente, quanto maior o número, os novos recursos mais será criado, mas muitos deles será redundante e apenas contribuem para tornar o seu algoritmo de aprendizado de máquina overfit os dados.

Ao usar a expansão polinomial, você tem que prestar atenção para a explosão de características que você está criando. Powers aumentam linearmente, por isso, se você tem cinco características e você precisa de uma expansão da ordem 2, cada recurso é levantada até à segunda potência. O aumento da ordem de um só acrescenta um novo recurso de energia para cada recurso de origem. Em vez disso, as interações aumentar com base em combinações dos recursos até que a ordem.

Na verdade, com cinco características e uma expansão polinomial de ordem 2, todas as dez combinações únicas do acoplamento dos recursos são criados. Aumentar a fim de 3 vai exigir a criação de todas as combinações únicas de duas variáveis, além das combinações únicas de três variáveis, ou seja, 20 recursos.


Publicações relacionadas