Como encontrar o valor em seus dados análise preditiva

Qualquer viagem bem sucedida leva preparação séria. modelos de análise preditiva são essencialmente um mergulho profundo em grandes quantidades de dados. Se os dados não forem bem preparado, o modelo de análise preditiva vai emergir do mergulho com nenhum peixe. A chave para encontrar o valor em análise preditiva é preparar os dados - cuidadosamente e meticulosamente - que o seu modelo irá usar para fazer previsões.

Video: Grings - Moda, Média e Mediana aula 4

processamento de dados de antemão pode ser um obstáculo no processo de análise preditiva. Ganhando experiência na construção de modelos de previsão - e, em particular, preparação de dados - ensina a importância da paciência. A seleção, processamento, limpeza e preparação dos dados é trabalhoso. É a tarefa mais demorada no ciclo de vida de análise preditiva. No entanto, adequada e sistemática preparação dos dados irá aumentar significativamente a chance de que suas análises de dados vai dar frutos.

Embora leva tempo e esforço para construir esse primeiro modelo preditivo, uma vez que você dar o primeiro passo - a construção do primeiro modelo que encontra valor em seus dados - em seguida, modelos futuros serão menos recurso intensivo e demorado, mesmo com completamente novo conjuntos de dados. Mesmo se você não usar os mesmos dados para o próximo modelo, os analistas de dados terá uma valiosa experiência com o primeiro modelo.

Como aprofundar seus dados análise preditiva

Usando uma analogia fruta, você não só tem que remover o mau casca ou a tampa, mas cavar para chegar ao-núcleo como você chegar mais perto do núcleo, você começa a melhor parte do fruto. A mesma regra se aplica aos dados grandes.

Noções básicas de validade dos dados de análise preditiva

Dados nem sempre é válida quando você encontrá-lo. A maioria dos dados é ou incompleto (Faltando alguns atributos ou valores) ou barulhento (contendo outliers ou erros). Nos campos de bioinformática biomédicas, por exemplo, os outliers pode levar a analítica para gerar resultados incorretos ou enganosos.

Video: Como-Aprender calcular porcentagem utilizando regra de três

Outliers em dados sobre o cancro, por exemplo, pode ser um factor importante que distorce a precisão dos tratamentos médicos: amostras de expressão genética podem aparecer como positivos falsos cancerosas porque eles foram analisadas contra uma amostra que continha erros.



dados inconsistentes são dados que contém discrepâncias nos atributos de dados. Por exemplo, um registro de dados pode ter dois atributos que não correspondem: digamos, um código postal (como 20037) e um estado correspondente (Delaware). Dados inválidos podem levar a modelagem preditiva errado, o que leva a resultados analíticos enganosas que fará com que decisões executivas ruins.

Por exemplo, o envio de cupons para fraldas para as pessoas que não têm filhos é um erro bastante óbvio. Mas pode acontecer facilmente se o departamento de uma empresa de marketing fralda acaba com resultados inválidos de seu modelo de análise preditiva.

Gmail nem sempre pode sugerir as pessoas certas, se você está tentando preencher os potenciais clientes que você pode ter esquecido de incluir em uma lista de e-mail do grupo. Facebook, para dar outro exemplo, pode sugerir amigos que pode não ser o tipo que você está procurando.

Nesses casos, é possível que haja muito grande margem de erro nos modelos ou algoritmos. Na maioria dos casos, as falhas e anomalias são nos dados selecionados inicialmente para alimentar o modelo preditivo - mas os algoritmos que o poder do modelo preditivo pode ter grandes blocos de dados inválidos.

Fundamentos da variedade de dados em análise preditiva

A ausência de uniformidade nos dados é outro grande desafio conhecido como variedade de dados. Do fluxo infinito de dados não estruturados de texto (gerados através de e-mails, apresentações, relatórios de projetos, textos, tweets) às demonstrações estruturados bancárias, dados de geolocalização e dados demográficos do cliente, as empresas estão morrendo de fome para essa variedade de dados.

Agregar esses dados e prepará-la para análise é uma tarefa complexa. Como você pode integrar os dados gerados a partir de sistemas diferentes, tais como Twitter, Opentable.com, pesquisa do Google, e um terceiro que rastreia os dados do cliente? Bem, a resposta é que não há uma solução comum. Cada situação é diferente, e o cientista de dados geralmente tem que fazer um monte de manobras para integrar os dados e prepará-lo para análise.

Mesmo assim, uma abordagem simples para a normalização podem apoiar a integração de dados de diferentes fontes: Você concorda com provedores de seus dados para um formato de dados padrão que seu sistema pode lidar com - um quadro que pode fazer todas as suas fontes de dados gerar dados que são lidos por ambos os seres humanos e máquinas. Pense nisso como uma nova linguagem que todas as fontes de dados grande vai falar cada vez que eles estão no mundo do big data.


Publicações relacionadas