Como usar o ajuste de curvas em análise preditiva
Ajuste de curva
Conteúdo
A curva pode passar por todos os pontos de dados ou ficar dentro da maior parte dos dados, ignorando alguns pontos de dados na esperança de atrair as tendências dos dados. Em ambos os casos, uma função matemática simples é atribuído a todo o corpo de dados, com o objectivo de ajustar todos os pontos de dados para uma curva que delineia as tendências e os auxiliares de predição.
ajuste de curva pode ser conseguido em uma de três maneiras:
Ao encontrar um ajuste exato para cada ponto de dados (um processo chamado interpolação)
Ao ficar dentro da maior parte dos dados, ignorando alguns dos pontos de dados na esperança de tendências de desenho a partir dos dados
Ao empregar suavização de dados para chegar a uma função que representa o gráfico alisou
ajuste de curva pode ser usado para preencher possíveis pontos de dados para substituir os valores em falta ou ajudar os analistas a visualizar os dados.
Quando você está trabalhando para gerar um modelo de análise preditiva, evite adaptar seu modelo para caber sua amostra de dados perfeitamente. Tal modelo irá falhar - miseravelmente - para prever conjuntos de dados ainda variados semelhantes fora da amostra de dados. Colocação de um modelo muito de perto a uma amostra de dados em particular é um erro clássico chamado overfitting.
Video: Aula 30 - Cálculo Numérico: Ajuste de Curvas - Método dos Mínimos Quadrados
As desgraças de overfitting
Em essência, overfitting um modelo é o que acontece quando você treinar excessivamente o modelo para representar apenas a sua amostra de dados - o que não é uma boa representação dos dados como um todo. Sem um conjunto de dados mais realistas para continuar, o modelo pode então ser atormentado com erros e riscos quando vai operacional - e as consequências para o seu negócio pode estar falando sério.
Overfitting um modelo é uma armadilha comum porque as pessoas querem criar modelos que trabalham - e assim são tentados a manter variáveis de ajustes e parâmetros até que o modelo executa perfeitamente - em muito poucos dados. Errar é humano. Felizmente, é também humana para criar soluções realistas.
Para evitar overfitting seu modelo para o conjunto de dados de amostra, certifique-se de ter um corpo de dados de teste disponíveis, que é separada de seus dados de amostra. Depois, você pode medir o desempenho do seu modelo de forma independente antes de fazer o modelo operacional.
Video: Computação Numérica - Ajuste de Curvas 01 - Algoritmo do Método dos Mínimos Quadrados
Assim, uma salvaguarda geral contra overfitting é dividir seus dados para duas partes: a formação de dados de dados e teste. O desempenho do modelo com os dados de teste lhe dirá muito sobre se o modelo está pronto para o mundo real.
Outra prática recomendada é ter certeza de que seus dados representa o maior população do domínio que você está modelando para. Tudo um modelo overtrained sabe é as características específicas do conjunto de dados de amostra que é treinado. Se você treinar o modelo apenas em vendas com raquetes de neve (digamos) no inverno, não se surpreenda se ele falhar miseravelmente quando é executado novamente em dados de qualquer outra estação.
Como evitar overfitting
Vale a pena repetir: Muito ajustes do modelo é capaz de resultar em overfitting. Um tal ajuste está incluindo muitas variáveis em análise. Manter essas variáveis a um mínimo. incluir apenas as variáveis que você vê como absolutamente necessário - aqueles que você acha que vai fazer uma diferença significativa para o resultado.
Esta visão só vem de um conhecimento íntimo do domínio do negócio em que está. É aí que a experiência de especialistas de domínio pode ajudar a mantê-lo de cair na armadilha de overfitting.
Aqui está uma lista das melhores práticas para ajudar a evitar overfitting o seu modelo:
Escolheu um conjunto de dados para trabalhar com que seja representativo da população como um todo.
Video: AJUSTE CURVA
Divida o seu conjunto de dados para duas partes: a formação de dados de dados e teste.
Mantenha as variáveis analisadas ao mínimo saudável para a tarefa em mãos.
Conte com a ajuda de especialistas de conhecimento de domínio.
No mercado de ações, por exemplo, uma técnica analítica clássica é volta-teste - execução de um modelo com dados históricos para procurar a melhor estratégia de negociação.
Suponha que, depois de executar o seu novo modelo com os dados gerados por um mercado recente touro, e aprimorando o número de variáveis utilizadas em sua análise, o analista cria o que parece ser uma estratégia de negociação ideal - um que iria produzir os maiores retornos E se ele poderia voltar e negociar apenas durante o ano em que produziu os dados de teste. Infelizmente, ele não pode.
Se ele tenta aplicar esse modelo em um mercado de urso atual, veja a seguir: Ele vai incorrer em perdas por aplicação de um modelo muito otimizado para um período limitado de tempo e um conjunto de condições que não se encaixam realidades atuais. (Tanto para os lucros hipotéticos.)
O modelo funcionou apenas para que desapareceu mercado de touro porque era overtrained, tendo os sinais de contexto que produziu os dados de exemplo - com suas especificidades, outliers e deficiências. Todas as circunstâncias que cercam esse conjunto de dados provavelmente não será repetido no futuro, ou em uma verdadeira representação de toda a população - mas todos eles apareceram no modelo overfitted.
Se a saída do modelo é muito precisa, considere que uma dica para dar uma olhada. Conte com a ajuda de especialistas de conhecimento de domínio para ver se os resultados são realmente muito bom para ser verdade, e executar esse modelo em mais dados de teste para futuras comparações.