O papel do etl tradicional em big data

ferramentas de ETL combinam três funções importantes (Extract, Transform, Load) necessários para obter dados de um ambiente de dados grande e colocá-lo em outro ambiente de dados. Tradicionalmente, ETL foi usado com o processamento em lotes em ambientes de armazenamento de dados. data warehouses fornecer aos usuários de negócios com uma maneira de consolidar as informações para analisar e relatar dados relevantes para o seu foco de negócios. ferramentas ETL são usados ​​para transformar dados em formato exigido pela data warehouses.

A transformação é realmente feito numa localização intermédia antes de os dados são carregados para o armazém de dados. Muitos fornecedores de software, incluindo IBM, Informatica, Pervasive, Talend e Pentaho, fornecer ferramentas de software ETL.

ETL fornece a infra-estrutura subjacente para a integração através da realização de três importantes funções:

Video: Get Rid of Traditional ETL, Move to Spark! (Bas Geerdink)

  • Extrair: Ler os dados do banco de dados fonte.

  • Transformar: Converter o formato dos dados extraídos de modo que ele está em conformidade com os requisitos do banco de dados alvo. Transformação é feito usando regras ou fusão de dados com outros dados.

  • Carga: Gravar dados no banco de dados destino.

No entanto, ETL está evoluindo para apoiar a integração através de muito mais do que armazéns de dados tradicionais. ETL pode apoiar a integração entre os sistemas transacionais, armazenamentos de dados operacionais, plataformas de BI, hubs MDM, a nuvem e plataformas Hadoop. fornecedores de software de ETL estão estendendo suas soluções para fornecer a extração grande de dados, transformação e carregamento entre Hadoop e plataformas de gerenciamento de dados tradicionais.

Video: Hadoop Vs Traditional Database Systems | Hadoop Data Warehouse | Hadoop and ETL | Hadoop Data Mining



ferramentas de ETL e software para outros processos de integração de dados, como limpeza de dados, profiling e auditoria todos os trabalhos sobre diferentes aspectos dos dados para garantir que os dados será considerado confiável. ferramentas de ETL integração com ferramentas de qualidade de dados, e muitos incorporar ferramentas para limpeza de dados, mapeamento de dados e identificação de linhagem de dados. Com ETL, você só extrair os dados que você precisa para a integração.

ETL ferramentas são necessárias para o carregamento e de conversão de dados estruturados e não estruturados em Hadoop. ferramentas de ETL avançados podem ler e escrever vários arquivos em paralelo de e para Hadoop para simplificar a forma como os dados são fundidos em um processo de transformação comum. Algumas soluções incorporam bibliotecas de transformações ETL pré-construídos, tanto para os dados da transação e interação que são executados em Hadoop ou uma infra-estrutura de grade tradicional.

A transformação de dados é o processo de mudar o formato de dados, de modo que ele pode ser utilizado por diferentes aplicações. Isso pode significar uma mudança do formato os dados são armazenados em no formato necessário para a aplicação que irá utilizar os dados. Este processo também inclui mapeamento instruções para que os aplicativos são contadas como obter os dados necessários para processar.

O processo de transformação de dados é feita muito mais complexa, devido ao crescimento escalonamento no valor de dados não estruturados. A aplicação de negócio, tais como gestão de relacionamento com o cliente tem requisitos específicos para como os dados devem ser armazenados. Os dados são susceptíveis de ser estruturada nas linhas organizadas e colunas de um banco de dados relacional. dados é Semi-estruturado ou desestruturado se ele não seguir os requisitos de formato rígido.

As informações contidas em uma mensagem de e-mail é considerado não-estruturados, por exemplo. Algumas das informações mais importantes de uma empresa é em formas não estruturados e semi-estruturados, como documentos, mensagens de correio electrónico, formatos de mensagens complexas, interações de suporte ao cliente, transações e informações provenientes de pacotes de aplicações como ERP e CRM.

ferramentas de transformação de dados não são projetados para funcionar bem com dados não estruturados. Como resultado, as empresas que necessitam de incorporar informações não estruturadas em sua tomada de decisão de processos de negócios têm sido confrontados com uma quantidade significativa de codificação manual para realizar a integração de dados necessário.

Video: A Hadoop-based ETL platform for feed consolidation at Big Data Spain 2013

Dado o crescimento ea importância de dados não estruturados para a tomada de decisões, soluções ETL dos principais fornecedores estão começando a oferecer abordagens padronizadas para transformar dados não estruturados de modo que possa ser mais facilmente integrados com dados estruturados operacionais.


Publicações relacionadas