Fundamentos da análise preditiva processo-classificações de dados

A um nível de bronze-tachas, preditivo classificação de dados analítico consiste em duas fases: a fase de aprendizagem e a fase de predição. A fase de aprendizagem implica treinar o modelo de classificação, executando um conjunto designado de dados passados ​​através do classificador. O objetivo é ensinar o seu modelo para extrair e descobrir relações ocultas e regras - o regras de classificação a partir de dados históricos (treinamento). O modelo faz isso empregando um algoritmo de classificação.

O estágio de previsão que segue a fase de aprendizagem consiste em ter o modelo de prever novos rótulos de classe ou valores numéricos que classificam os dados que não tenha visto antes (isto é, dados de teste).

Para ilustrar esses estágios, suponha que você&rsquo-re o proprietário de uma loja online que vende relógios. Você&rsquo-VE possuía a loja on-line por um bom tempo, e se reuniram uma série de dados transacionais e dados pessoais sobre os clientes que compraram os relógios de sua loja. Suponha que você&rsquo-ve capturar esses dados através de seu site, fornecendo formulários web, além de os dados transacional você&rsquo-VE recolhidas através de operações.

Você também pode adquirir dados de uma terceira parte que fornece informações sobre seus clientes fora do seu interesse em relógios. que&não rsquo-S tão difícil como sounds- existem empresas cujo modelo de negócio é para rastrear os clientes on-line e coletar e vender informações valiosas sobre eles.

A maioria dessas empresas de terceiros reunir dados de sites de mídia social e aplicar métodos de mineração de dados para descobrir a relação de usuários individuais com os produtos. Neste caso, como o proprietário de uma loja de relógio, você&rsquo-estaria interessado na relação entre clientes e seu interesse em comprar relógios.

Você pode inferir este tipo de informação a partir da análise, por exemplo, um perfil de rede social de um cliente, ou um comentário microblog do tipo que você encontrar no Twitter.

Para medir um indivíduo&rsquo-s nível de interesse em relógios, você pode aplicar qualquer uma das várias ferramentas de texto de análise que pode descobrir essas correlações em um indivíduo&rsquo-s texto escrito (status de redes sociais, tweets, postagens do blog, e tal) ou atividade on-line (como interações sociais online, upload de fotos, e pesquisas).



Depois de coletar todos os dados sobre seus clientes&rsquo- transações passadas e interesses atuais - o dados de treinamento que mostra o seu modelo o que procurar - você&rsquo-ll necessidade de organizá-lo em uma estrutura que torna mais fácil para acessar e usar (como um banco de dados).

Neste ponto, você&rsquo-ve atingido a segunda fase de classificação de dados: o fase predição, que é tudo sobre o teste de seu modelo e a precisão das regras de classificação que gerou. Para esse efeito, você&rsquo-vai precisar de dados de clientes históricos adicionais, referidos como dados de teste (Que é diferente a partir dos dados de treinamento).

Você alimenta esses dados de teste em seu modelo e medir a precisão das previsões resultantes. Você contar as vezes que o modelo previu corretamente o comportamento futuro dos clientes representados em seus dados de teste. Você também contar as vezes que o modelo feito previsões erradas.

Neste ponto, você tem apenas dois resultados possíveis: ou você&rsquo-re satisfeito com a precisão do modelo ou você aren&rsquo-t:

  • Se vocês&rsquo-re satisfeito, então você pode começar a receber o seu modelo pronto para fazer previsões como parte de um sistema de produção.

  • Se vocês&rsquo-re não está feliz com a previsão, então você&rsquo-ll necessidade de reciclar o seu modelo com um novo conjunto de dados de treinamento.

Se os seus dados formação original não era suficientemente representativo da piscina de seus clientes - ou continham dados barulhento que jogou fora o modelo&resultados rsquo-s através da introdução de sinais falsos - então lá&rsquo-s mais trabalho a fazer para obter o seu modelo em funcionamento. De qualquer resultado é útil em seu caminho.


Publicações relacionadas