A transformação de dados em hadoop
Video: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS)
Conteúdo
A ideia de motores de ETL inspirados Hadoop ganhou muita tração nos últimos anos. Afinal, o Hadoop é um armazenamento de dados flexível e plataforma de processamento que pode suportar enormes quantidades de dados e operações sobre esses dados. Ao mesmo tempo, é tolerante a falhas, e oferece a oportunidade de redução de custos de capital e de software.
Apesar da popularidade do Hadoop como um motor de ETL, no entanto, muitas pessoas (incluindo uma empresa famosa de analistas) não recomendam Hadoop como a única peça de tecnologia para sua estratégia de ETL. Esta é em grande parte porque o desenvolvimento de fluxos de ETL requer uma grande quantidade de conhecimentos sobre sistemas de sua organização existentes banco de dados, a natureza dos dados em si, e os relatórios e aplicativos dependentes dele.
Em outras palavras, os DBAs, desenvolvedores e arquitetos em seu departamento de TI precisa para tornar-se bastante familiarizado com Hadoop para implementar os fluxos de ETL necessários. Por exemplo, um monte de codificação manual intensivo com porco, Hive, ou mesmo MapReduce pode ser necessário para criar mesmo o mais simples dos fluxos de dados - o que coloca sua empresa no gancho para essas habilidades se seguir este caminho.
Video: Hadoop
Você tem que codificar elementos, tais como a depuração paralela, serviços de gestão de aplicações (como apontar verificação e erro e manipulação de eventos). Além disso, considere os requisitos corporativos, como glossarization e ser capaz de mostrar a linhagem de seus dados.
Existem requisitos regulamentares para relatórios padrão muitos da indústria, onde linhagem de dados é necessário- a organização relatora deve ser capaz de mostrar onde os pontos de dados no relatório vêm, como os dados tem de você, eo que tem sido feito para os dados.
Video: Entenda de uma vez por todas o que é MapReduce - O que é Hadoop? (Parte 3)
Mesmo para sistemas de banco de dados relacional, ETL é complexa o suficiente que existem produtos populares especializadas que fornecem interfaces para o gerenciamento e desenvolvimento de fluxos de ETL. Alguns desses produtos agora ajudar na ETL baseada em Hadoop e outras desenvolvimento baseado em Hadoop. No entanto, dependendo de suas necessidades, você pode precisar de escrever um pouco do seu próprio código para apoiar a sua lógica de transformação.