As limitações dos dados em análise preditiva

Tal como acontece com muitos aspectos de qualquer sistema de negócios, de dados é uma criação humana - por isso é aptos a ter alguns limites sobre sua usabilidade quando você obtê-lo. Aqui está um resumo de algumas limitações que você é provável encontrar:

  • Os dados podem ser incompleta. Os valores em falta, até mesmo a falta de uma seção ou uma parte substancial dos dados, poderia limitar a sua usabilidade.

    Por exemplo, seus dados podem cobrir apenas uma ou duas condições de um conjunto maior de que você está tentando modelo - como quando um modelo construído para analisar o desempenho do mercado de ações só tem dados disponíveis a partir dos últimos 5 anos, o que distorce os dados e o modelo para a assunção de um mercado de touro.

    No momento em que o mercado sofre qualquer correção que leva a um mercado de urso, o modelo não consegue adaptar-se - simplesmente porque não foi treinado e testado com dados que representa um mercado de urso.

    Certifique-se de que você está olhando para um período de tempo que lhe dá uma visão completa das flutuações naturais do seu data- seus dados não deve ser limitado por sazonalidade.

  • Se você estiver usando dados de pesquisas, tenha em mente que as pessoas nem sempre fornecem informações precisas. Nem todo mundo vai responder a verdade sobre (digamos) quantas vezes eles exercem - ou quantas bebidas alcoólicas que consomem - por semana. As pessoas não podem ser desonesto tanto como auto-consciente, mas os dados ainda está inclinado.

  • Os dados coletados a partir de diferentes fontes podem variar em qualidade e formato. Os dados coletados de diversas fontes como pesquisas, e-mails, formulários de entrada de dados e site da empresa terá diferentes atributos e estruturas. Dados de várias fontes podem não ter muito a compatibilidade entre os campos de dados. Tais dados exige grande pré-processamento antes que seja análise pronto. A barra lateral que acompanha fornece um exemplo.

Os dados coletados de várias fontes podem ter diferenças de formatação, registros duplicados e inconsistências entre campos de dados mescladas. Espere gastar muito tempo a limpeza desses dados - e ainda mais validando sua confiabilidade.

Para determinar as limitações de seus dados, certifique-se de:

Verificar todas as variáveis ​​que você vai usar no seu modelo.

  • Avaliar o alcance dos dados, especialmente ao longo do tempo, para que o seu modelo pode evitar a armadilha sazonalidade.

  • Verificar a existência de valores em falta, identificá-los e avaliar seu impacto na análise global.

  • Cuidado com os valores extremos (outliers) e decidir sobre a possibilidade de incluí-los na análise.



  • Confirmar que o conjunto de dados de treinamento e teste é grande o suficiente.

  • Certificar-se de que tipo de dados (números inteiros, valores decimais, ou caracteres, e assim por diante) é correcta e definir os limites superior e inferior de valores possíveis.

  • Preste atenção extra para integração de dados quando os dados vem de várias fontes.

  • Certifique-se de entender as suas fontes de dados e seu impacto sobre a qualidade geral de seus dados.

    • Escolha um conjunto de dados relevante que é representativa de toda a população.

    • Escolha os parâmetros certos para a sua análise.

    Mesmo depois de todo esse cuidado e atenção, não se surpreenda se os seus dados ainda precisa de pré-processamento antes que você possa analisá-lo com precisão. Pré-processamento, muitas vezes leva muito tempo e esforço significativo porque tem que abordar várias questões relacionadas com os dados originais - estas questões incluem:

    • Quaisquer valores em falta a partir dos dados.

    • Quaisquer inconsistências e / ou erros existentes nos dados.

    • Todas as duplicatas ou de outliers nos dados.

    • Qualquer normalização ou outra transformação dos dados.

    • Quaisquer dados derivados necessários para a análise.


    Publicações relacionadas