As limitações dos dados em análise preditiva
Tal como acontece com muitos aspectos de qualquer sistema de negócios, de dados é uma criação humana - por isso é aptos a ter alguns limites sobre sua usabilidade quando você obtê-lo. Aqui está um resumo de algumas limitações que você é provável encontrar:
Os dados podem ser incompleta. Os valores em falta, até mesmo a falta de uma seção ou uma parte substancial dos dados, poderia limitar a sua usabilidade.
Por exemplo, seus dados podem cobrir apenas uma ou duas condições de um conjunto maior de que você está tentando modelo - como quando um modelo construído para analisar o desempenho do mercado de ações só tem dados disponíveis a partir dos últimos 5 anos, o que distorce os dados e o modelo para a assunção de um mercado de touro.
No momento em que o mercado sofre qualquer correção que leva a um mercado de urso, o modelo não consegue adaptar-se - simplesmente porque não foi treinado e testado com dados que representa um mercado de urso.
Certifique-se de que você está olhando para um período de tempo que lhe dá uma visão completa das flutuações naturais do seu data- seus dados não deve ser limitado por sazonalidade.
Se você estiver usando dados de pesquisas, tenha em mente que as pessoas nem sempre fornecem informações precisas. Nem todo mundo vai responder a verdade sobre (digamos) quantas vezes eles exercem - ou quantas bebidas alcoólicas que consomem - por semana. As pessoas não podem ser desonesto tanto como auto-consciente, mas os dados ainda está inclinado.
Os dados coletados a partir de diferentes fontes podem variar em qualidade e formato. Os dados coletados de diversas fontes como pesquisas, e-mails, formulários de entrada de dados e site da empresa terá diferentes atributos e estruturas. Dados de várias fontes podem não ter muito a compatibilidade entre os campos de dados. Tais dados exige grande pré-processamento antes que seja análise pronto. A barra lateral que acompanha fornece um exemplo.
Os dados coletados de várias fontes podem ter diferenças de formatação, registros duplicados e inconsistências entre campos de dados mescladas. Espere gastar muito tempo a limpeza desses dados - e ainda mais validando sua confiabilidade.
Para determinar as limitações de seus dados, certifique-se de:
Verificar todas as variáveis que você vai usar no seu modelo.
Avaliar o alcance dos dados, especialmente ao longo do tempo, para que o seu modelo pode evitar a armadilha sazonalidade.
Verificar a existência de valores em falta, identificá-los e avaliar seu impacto na análise global.
Cuidado com os valores extremos (outliers) e decidir sobre a possibilidade de incluí-los na análise.
Confirmar que o conjunto de dados de treinamento e teste é grande o suficiente.
Certificar-se de que tipo de dados (números inteiros, valores decimais, ou caracteres, e assim por diante) é correcta e definir os limites superior e inferior de valores possíveis.
Preste atenção extra para integração de dados quando os dados vem de várias fontes.
Certifique-se de entender as suas fontes de dados e seu impacto sobre a qualidade geral de seus dados.
Escolha um conjunto de dados relevante que é representativa de toda a população.
Escolha os parâmetros certos para a sua análise.
Mesmo depois de todo esse cuidado e atenção, não se surpreenda se os seus dados ainda precisa de pré-processamento antes que você possa analisá-lo com precisão. Pré-processamento, muitas vezes leva muito tempo e esforço significativo porque tem que abordar várias questões relacionadas com os dados originais - estas questões incluem:
Quaisquer valores em falta a partir dos dados.
Quaisquer inconsistências e / ou erros existentes nos dados.
Todas as duplicatas ou de outliers nos dados.
Qualquer normalização ou outra transformação dos dados.
Quaisquer dados derivados necessários para a análise.