Hadoop sqoop para big data

Sqoop (SQL-to-Hadoop) é uma ferramenta de dados grande que oferece a capacidade de extrair dados de armazenamentos de dados não-Hadoop, transformar os dados em uma forma utilizável por Hadoop, e depois carregar os dados no HDFS. Este processo é chamado de ETL, para Extract, Transform, and Load.

Video: How To Import Data From RDBMS To HDFS | Sqoop Hadoop Tutorial

Apesar de obter dados em Hadoop é crítico para o processamento usando MapReduce, também é fundamental para obter dados fora do Hadoop e em uma fonte de dados externa para uso em outros tipos de aplicação. Sqoop é capaz de fazer isso também.

Embora às vezes é necessário para mover os dados em tempo real, é mais frequentemente necessário para carregar ou descarregar dados em massa. Como Pig, Sqoop é um interpretador de linha de comando. Você digita comandos Sqoop para o intérprete e eles são executados um de cada vez. Quatro principais características são encontradas em Sqoop:

  • importação em massa: Sqoop pode importar tabelas individuais ou bancos de dados inteiros em HDFS. Os dados são armazenados nos diretórios nativos e arquivos no sistema de arquivos HDFS.

    Video: Apache Sqoop Tutorial -Importing and Exporting Data

  • Entrada direta: Sqoop pode importar e mapear SQL (relacional) bancos de dados diretamente em Hive e HBase.



  • interação de dados: Sqoop pode gerar classes Java para que você possa interagir com os dados programaticamente.

  • Exportação de dados: Sqoop pode exportar dados diretamente do HDFS em um banco de dados relacional usando uma definição tabela de destino com base nas especificações do banco de dados alvo.

Sqoop funciona olhando para o banco de dados que deseja importar e selecionar uma função apropriada de importação para os dados de origem. Depois que ele reconhece a entrada, em seguida, lê os metadados para a tabela (ou banco de dados) e cria uma definição de classe de seus requisitos de entrada.

Você pode forçar Sqoop que ser muito seletivos para que você obtenha apenas as colunas que você está procurando antes de entrada em vez de fazer uma entrada inteira e, em seguida, à procura de seus dados. Isso pode economizar tempo considerável. A importação real do banco de dados externo para HDFS é realizado por um trabalho MapReduce criado nos bastidores por Sqoop.

Sqoop é uma ferramenta eficaz para não-programadores. O outro item importante a ser observado é a dependência de tecnologias subjacentes como HDFS e MapReduce. Você vê isso repetidamente ao longo do elemento do ecossistema Hadoop.


Publicações relacionadas