Noções básicas de modelos de classificação para previsões analíticas

Uma vez que você tem todas as ferramentas e informações necessárias para começar a criar um modelo preditivo, a diversão começa. Em geral, a criação de um modelo de aprendizagem para tarefas de classificação implicará os seguintes passos:

Conteúdo

Video: data mining - Árvore de decisão
Video: video 017 previsao 12 meses
Video: aula 18.1 - dicas especiais - análise dimensional - parte 1 [hd]

Video: Data Mining - Árvore de Decisão

Carregar os dados.
Escolha um classificador.
Treinar o modelo.
Visualize o modelo.
Testar o modelo.
Video: Video 017 Previsao 12 meses
Avaliar o modelo.
Video: Aula 18.1 - Dicas especiais - Análise dimensional - parte 1 [HD]

Tanto a regressão logística e modelos de classificação Support Vector Machine (SVM) executam muito bem usando o conjunto de dados Iris.

sepal Comprimento	sepal Largura	Comprimento pétala	pétala Largura	Classe Alvo / etiqueta
5.1	3,5	1,4	0,2	Setosa (0)
7	3.2	4.7	1,4	Versicolor (1)
6,3	3,3	6	2,5	Virginica (2)

O modelo de regressão logística com o parâmetro C = 1 foi perfeito nas suas previsões, enquanto o modelo de SVM e o modelo de regressão logística com C = 150 perdeu apenas uma previsão. De fato, a alta precisão de ambos os modelos é um resultado de ter um pequeno conjunto de dados que tem pontos de dados que estão muito perto de linearmente separáveis.

Curiosamente, o modelo de regressão logística com C = 150 teve um plot de superfície decisão mais bonito do que aquele com C = 1, mas não um melhor desempenho. Isso não é um negócio tão grande, considerando que o conjunto de teste é tão pequeno. Se outra divisão aleatório entre conjunto de treinamento e conjunto de teste foram selecionados, os resultados poderiam facilmente ter sido diferente.

Isso revela uma outra fonte de complexidade que surge na avaliação do modelo: o efeito da amostragem, e como escolher o treinamento e testes conjuntos podem afetar a saída do modelo. técnicas de validação cruzada pode ajudar a minimizar o impacto da amostragem aleatória no desempenho do modelo.

Para um conjunto de dados maior com dados não-linearmente separáveis, seria de esperar os resultados para desviar ainda mais. Além disso, a escolha do modelo apropriado torna-se cada vez mais difícil devido à complexidade e tamanho dos dados. Esteja preparado para gastar uma grande quantidade de tempo ajustando os parâmetros para obter um ajuste ideal.

Ao criar modelos preditivos, tente alguns algoritmos e exaustivamente ajustar seus parâmetros até encontrar o que funciona melhor para seus dados. Em seguida, compare os seus resultados contra o outro.

Video: Data Mining - Árvore de Decisão

Video: Video 017 Previsao 12 meses

Video: Aula 18.1 - Dicas especiais - Análise dimensional - parte 1 [HD]