A opção de pré-processamento de dados híbrido em hadoop
Video: TensorFlow Ecosystem: Integrating TensorFlow with your infrastructure (TensorFlow Dev Summit 2017)
Conteúdo
Além de ter de armazenar grandes volumes de dados de frio, uma pressão que vê na data warehouses tradicionais é que a quantidade de recursos de processamento crescente estão a ser utilizados para transformação de cargas de trabalho (ELT).
A idéia por trás usando Hadoop como um motor de pré-processamento para lidar com a transformação de dados significa que os ciclos de processamento preciosas são liberados, permitindo que o data warehouse para aderir a seu propósito original: Responda às perguntas de negócios repetidos para suportar aplicações analíticas. Mais uma vez, você está vendo como Hadoop pode complementar as implementações tradicionais de armazenamento de dados e aumentar a sua produtividade.
Talvez uma pequena, lâmpada imaginária acendeu-se sobre sua cabeça e você está pensando: “Ei, talvez haja estamos algumas tarefas de transformação perfeitamente adequado para a capacidade de processamento de dados do Hadoop, mas eu sei que há também um monte de trabalho de transformação rica em algébrica, passo-a-passo tarefas onde o SQL em um motor de banco de dados relacional seria a melhor escolha. Não seria legal se eu poderia correr SQL em Hadoop?”
Video: LANCHE PRÉ-TREINO
SQL em Hadoop já está aqui. Com a capacidade de emitir consultas SQL em relação aos dados no Hadoop, você não está preso com apenas uma abordagem de ETL para seus fluxos de dados - você também pode implantar aplicativos ELT-like.
Outra abordagem híbrida a considerar é para onde correr a sua lógica de transformação: em Hadoop ou no armazém de dados? Embora algumas organizações estão preocupadas com a execução de tudo, mas analytics em seus armazéns, a verdade é que bancos de dados relacionais são excelentes na execução de SQL, e poderia ser um lugar mais prático para executar uma transformação de Hadoop.