Como extrair, transformar e carregar dados para análise preditiva

Video: Avaliação Antropométrica #5 - Protocolo de Medidas de Dobras Cutâneas

Depois ele é inicialmente recolhidos, os dados são geralmente em um dispersos State- ele reside em vários sistemas ou bases de dados e deve ser analisado antes de prever qualquer coisa. Antes que você possa usá-lo para um modelo de análise preditiva, você tem que consolidar-lo em um só lugar. Além disso, você não quer trabalhar em dados que residem em sistemas operacionais - que está pedindo para ter problemas.

Em vez disso, coloque uma parte dele em algum lugar onde você pode trabalhar nele livremente sem afetar as operações. ETL (extracto, transformação e carga) é o processo que atinge esse estado desejável.

Muitas organizações têm múltiplas databases- seu modelo preditivo provavelmente irá utilizar os dados de todos eles. ETL é o processo que recolhe todas as informações necessárias e coloca-lo em um ambiente separado, onde você pode executar sua análise.

ETL não é, contudo, uma vez-e-for-all operação-geralmente é um processo contínuo que atualiza os dados e mantém-lo atualizado. Certifique-se de executar seus processos de ETL durante a noite ou em outros momentos, quando a carga sobre o sistema operacional é baixo.



  • O passo de extracção recolhe os dados desejados na sua forma em bruto a partir de sistemas operacionais.

  • O passo de transformação faz com que os dados recolhidos pronto para ser usado em seu modelo preditivo - fundi-la, gerando os atributos derivados desejados, e colocando os dados transformados no formato adequado para caber requisitos de negócios.

  • O passo de carregamento coloca os dados em seu local designado, onde você pode executar a sua análise sobre ele - por exemplo, em um data mart, data warehouse, ou outro banco de dados.

Video: Power BI - Análise estatística utilizando dados do IBGE

Você deve seguir uma abordagem sistemática para construir seus processos de ETL para cumprir os requisitos de negócio. É uma boa prática para manter uma cópia dos dados originais em uma área separada para que você pode sempre voltar a ele no caso de um erro interrompe a transformação ou os passos de carregamento dos processos.

Seu processo de ETL deve incorporar modularidade - separar as tarefas e realizar o trabalho em etapas. Esta abordagem tem vantagens no caso de você deseja reprocessar ou recarregar os dados, ou se você quiser usar alguns desses dados para uma análise diferente ou para construir diferentes modelos preditivos. O design do seu ETL deve ser capaz de acomodar grandes mudanças de requisitos de negócios - com alterações mínimas para o seu processo de ETL.


Publicações relacionadas