Estruturar seus dados para análise preditiva

Os dados em bruto é um recurso potencial para a análise preditiva, mas não pode ser utilmente analisados até que seja dada uma estrutura consistente. Os dados que residem em vários sistemas deve ser recolhido e transformado para obtê-lo pronto para análise. Os dados recolhidos devem residir em um sistema separado para que ele não irá interferir com o sistema de produção ao vivo. Embora a construção de seu modelo, dividir o seu conjunto de dados em um conjunto de dados de treinamento para treinar o modelo, e um conjunto de dados de teste para validar o modelo.

Conteúdo

Extrair, transformar e carregar seus dados
Manter os dados atualizados
Video: softfinança análise preditiva
Descrevendo os dados de ensaio e de teste

Extrair, transformar e carregar seus dados

Depois ele é inicialmente recolhidos, os dados são geralmente em um dispersos State- ele reside em vários sistemas ou bases de dados. Antes que você possa usá-lo para um modelo de análise preditiva, você tem que consolidar-lo em um só lugar. Além disso, você não quer trabalhar em dados que residem em sistemas operacionais - que está pedindo para ter problemas. Em vez disso, coloque uma parte dele em algum lugar onde você pode trabalhar nele livremente sem afetar as operações. ETL (extracto, transformação e carga) é o processo que atinge esse estado desejável.

Muitas organizações têm múltiplas databases- seu modelo preditivo provavelmente irá utilizar os dados de todos eles. ETL é o processo que recolhe todas as informações necessárias e coloca-lo em um ambiente separado, onde você pode executar sua análise. ETL não é, contudo, uma vez-e-for-all operação-geralmente é um processo contínuo que atualiza os dados e mantém-lo atualizado. Certifique-se de executar seus processos de ETL durante a noite ou em outros momentos, quando a carga sobre o sistema operacional é baixo.

O passo de extracção recolhe os dados desejados na sua forma em bruto a partir de sistemas operacionais.
O passo de transformação faz com que os dados recolhidos pronto para ser usado em seu modelo preditivo - fundi-la, gerando os atributos derivados desejados, e colocando os dados transformados no formato adequado para caber requisitos de negócios.
O passo de carregamento coloca os dados em seu local designado, onde você pode executar a sua análise sobre ele - por exemplo, em um data mart, data warehouse, ou outro banco de dados.

Você deve seguir uma abordagem sistemática para construir seus processos de ETL para cumprir os requisitos de negócio. É uma boa prática para manter uma cópia dos dados originais em uma área separada para que você pode sempre voltar a ele no caso de um erro interrompe a transformação ou os passos de carregamento dos processos. A cópia dos dados originais serve como um backup que você pode usar para reconstruir todo o conjunto de dados empregados por sua análise, se necessário. O objetivo é desviar a Lei de Murphy e voltar em seus pés rapidamente se você tiver que executar novamente todo o processo ETL do zero.

Seu processo de ETL deve incorporar modularidade - separar as tarefas e realizar o trabalho em etapas. Esta abordagem tem vantagens no caso de você deseja reprocessar ou recarregar os dados, ou se você quiser usar alguns desses dados para uma análise diferente ou para construir diferentes modelos preditivos. O design do seu ETL deve ser capaz de acomodar até mesmo grandes mudanças de requisitos de negócios - com apenas mudanças mínimas para o seu processo de ETL.

Manter os dados atualizados

Após a etapa de carregamento de ETL, depois de receber os dados para esse banco de dados separado, data mart ou armazém, você vai precisar para manter os dados atualizados para que os modeladores pode executar novamente modelos previamente construídos em novos dados.

Video: SoftFinança Análise Preditiva

A implementação de um data mart para os dados que você deseja analisar e mantê-lo até à data irá permitir que você atualizar os modelos. Você deve, para que o assunto, atualizar os modelos operacionais regularmente depois que são deployed- novos dados pode aumentar o poder preditivo de seus modelos. Novos dados pode permitir que o modelo para representar novas perspectivas, tendências e relacionamentos.

Ter um ambiente separado para os dados também permite obter um melhor desempenho para os sistemas utilizados para executar os modelos. Isso é porque você não está sobrecarregando os sistemas operacionais com as consultas intensivas ou de análise necessários para os modelos a serem executados.

Dados continua a vir - mais do mesmo, mais rápido e em maior variedade o tempo todo. Implementação de automação e da separação de tarefas e ambientes podem ajudá-lo a gerenciar esse fluxo de dados e apoiar a resposta em tempo real de seus modelos preditivos.

Para garantir que você está capturando os fluxos de dados e que você está atualizando seus modelos apoiando processos de ETL automatizados, arquitetura analítica deve ser altamente modular e adaptável. Se você manter este objetivo do projeto em mente para cada parte de construir para o seu projecto global analítica preditiva, a melhoria contínua e ajustes que ir junto com análise preditiva será mais suave para manter e serão realizados com maior sucesso.

Descrevendo os dados de ensaio e de teste

Quando seus dados está pronto e você está prestes a começar a construir seu modelo preditivo, é útil para delinear a sua metodologia de testes e elaborar um plano de teste. O teste deve ser impulsionado pelas metas de negócios que você recolheu, documentadas, e recolhidos todos os dados necessários para ajudá-lo a alcançar.

Logo de cara, você deve desenvolver um método para testar se um objetivo de negócio foi atingido com sucesso. Porque análise preditiva medir a probabilidade de um resultado futuro - e a única maneira de estar pronto para executar um tal teste é através da formação de seu modelo em dados passados, você ainda tem que ver o que ele pode fazer quando está acima de encontro a dados futuros. Claro, você não pode arriscar a execução de um modelo inédito em dados futuros reais, então você vai precisar usar os dados existentes para simular os dados futuros de forma realista. Para fazer isso, você tem que dividir os dados que você está trabalhando em treinamento e teste conjuntos de dados.

Certifique-se de que você selecione esses dois conjuntos de dados de forma aleatória, e que ambos os conjuntos de dados conter e cobrir todos os parâmetros de dados que você está medindo.

Quando você dividir seus dados em conjuntos de dados de teste e treinamento, você está evitando eficazmente quaisquer problemas sobreajustamento que podem surgir com overtraining o modelo em todo o conjunto de dados e pegar todos os padrões de ruído ou características específicas que só pertencem ao conjunto de dados de amostra e aren` t aplicável a outros conjuntos de dados.

Separando os dados para treinamento e teste conjuntos de dados, cerca de 70 por cento e 30 por cento, respectivamente, garante uma medição precisa do desempenho do modelo de análise preditiva que você está construindo. Que pretende avaliar o seu modelo contra os dados de teste, porque é uma maneira simples de medir se as previsões do modelo são precisas. Sucedendo aqui é uma indicação de que o modelo será bem sucedida quando é implantado. Um conjunto de dados de teste servirá como um conjunto independente de dados que o modelo ainda não visto- executando o seu modelo contra o conjunto de dados de teste fornece uma prévia de como o modelo vai executar quando ele vai viver.