Escolhendo o algoritmo certo para aprendizagem de máquina
Video: Como Escolher Máquina de Costura em 5 Passos! | Karina B
aprendizado de máquina envolve o uso de muitos algoritmos diferentes. Esta tabela dá-lhe um rápido resumo dos pontos fortes e fracos de vários algoritmos.
Algoritmo | melhor no | prós | contras |
Floresta aleatório | Apt em quase qualquer problema de aprendizagem de máquina bioinformática | Podem trabalhar em paralelo raramente causa overfitting trata automaticamente valores ausentes Não há necessidade de transformar qualquer variável Não há necessidade de ajustar os parâmetros Pode ser usado por quase qualquer pessoa com excelentes resultados | Difícil de interpretar Mais fraco na regressão ao estimar valores nas extremidades da distribuição dos valores de resposta Tendenciosa em problemas multiclasse para com as classes mais frequentes |
gradiente Boosting | Apt em quase qualquer problema de aprendizagem de máquina Os motores de busca (resolvendo o problema de aprender a classificar) | Ele pode aproximar mais função não-linear Melhor em preditor classe trata automaticamente valores ausentes Não há necessidade de transformar qualquer variável | Pode overfit se correr para muitas iterações Sensível aos dados ruidosos e outliers Não funciona bem sem ajuste parâmetro |
Regressão linear | previsões de linha de base previsões econométricas respostas modelagem de marketing | Simples de entender e explicar Raramente causa overfitting usando L1 & L2 regularização é eficaz na seleção de recursos Rápido para treinar Fácil de treinar em dados grandes graças à sua versão estocástica | Você tem que trabalhar duro para torná-lo apto funções não-lineares Podem sofrer de valores atípicos |
Support Vector Machines | reconhecimento de caracteres reconhecimento de imagem classificação de texto | criação característica não-linear automática Pode aproximar funções não-lineares complexas | Difíceis de interpretar quando se aplica kernels não-lineares Sofre de muitos exemplos, após 10.000 exemplos que começa a tomar muito tempo para treinar |
K-vizinhos mais próximos | visão computacional multilabel marcação sistemas de recomendação Soletrar problemas verificar | formação rápida, preguiçoso Pode, naturalmente, lidar com problemas multiclasse extremas (como texto de marcação) | Lento e complicado na fase prevendo Pode deixar de prever corretamente devido à maldição da dimensionalidade |
AdaBoost | Detecção de rosto | trata automaticamente valores ausentes Não há necessidade de transformar qualquer variável Não overfit facilmente Alguns parâmetros para ajustar Ele pode alavancar diversos fracas-alunos | Sensível aos dados ruidosos e outliers Nunca o melhor em previsões de classe |
Naive Bayes | reconhecimento facial Análise de sentimentos detecção de spam classificação de texto | Fácil e rápido de implementar, não requer muita memória e pode ser usado para a aprendizagem on-line Fácil de entender Leva em conta o conhecimento prévio | suposições de independência recurso fortes e irrealistas Falha estimar ocorrências raras Sofre de características irrelevantes |
Redes neurais | reconhecimento de imagem reconhecimento de linguagem e tradução Reconhecimento de fala reconhecimento de visão | Pode aproximar qualquer função não-linear Robusto a outliers Funciona apenas com uma porção dos exemplos (os vectores de apoio) | Muito difícil de configurar Difícil ajustar por causa de muitos parâmetros e você também tem que decidir a arquitectura da rede Difícil de interpretar Fácil de overfit |
regressão logística | Ordenando os resultados por probabilidade respostas modelagem de marketing | Simples de entender e explicar Raramente causa overfitting usando L1 & L2 regularização é eficaz na seleção de recursos O melhor algoritmo para prever probabilidades de um evento Rápido para treinar Fácil de treinar em dados grandes graças à sua versão estocástica | Você tem que trabalhar duro para torná-lo apto funções não-lineares Podem sofrer de valores atípicos |
SVD | sistemas de recomendação | Pode reestruturar os dados de uma forma significativa | Difícil entender por que os dados foi reestruturado de uma certa maneira |
PCA | removendo collinearity Reduzindo as dimensões do conjunto de dados | Pode reduzir a dimensionalidade dos dados | Implica fortes hipóteses lineares (os componentes são a somas ponderadas das características) |
K-means | segmentação | Rápido em encontrar aglomerados Pode detectar valores atípicos em múltiplas dimensões | Sofre de multicolinearidade Os agrupamentos são esféricas, não pode detectar grupos de outra forma soluções instáveis, depende de inicialização |