A importação de dados com sqoop

Pronto para mergulhar a importação de dados com Sqoop? Comece por tomar um olhar para a figura, que ilustra as etapas em uma operação típica Sqoop de importação a partir de um RDBMS ou um sistema de data warehouse. Nada muito complicado aqui - apenas uma tabela de dados de produtos típicos de um (típico) empresa fictícia que está sendo importado para um cluster típico Apache Hadoop de um sistema de gestão de dados típico (DMS).

Durante o Passo 1, Sqoop utiliza o conector adequado para recuperar os metadados tabela os produtos a partir dos DMS alvo. (Os metadados é usado para mapear os tipos de dados da tabela Produtos para tipos de dados na linguagem Java.)

Passo 2, em seguida, usa esses metadados para gerar e compilar uma classe Java que será utilizado por uma ou mais tarefas mapa para importar as linhas reais da tabela Produtos. Sqoop poupa a classe Java gerada para espaço temporário ou um diretório que você especificar para que você possa aproveitá-lo para o processamento posterior de seus registros de dados.



O código Java gerado Sqoop que é guardado para você é como o dom que continua a dar! Com esse código, Sqoop importa registros da DMS e os armazena para HDFS usando um de três formatos que você pode escolher: dados Avro binários, arquivos de seqüência binários ou arquivos de texto delimitados. Depois, este código está disponível para você para processamento de dados subseqüente.

arquivos de seqüência são uma escolha natural se você está importando tipos de dados binários e você vai precisar da classe Java gerada para serializar e anular os seus dados mais tarde - talvez para processamento MapReduce ou exportação. dados Avro - com base no quadro de serialização próprio Apache - é útil se você precisa para interagir com outros aplicativos após a importação para HDFS.

Se você optar por armazenar os dados importados no formato de texto delimitado, você pode encontrar o código Java gerado valioso mais tarde, como você analisar e realizar conversões de formato de dados em seus novos dados. Você verá que o código gerado também ajuda você mesclar conjuntos de dados após as operações de importação Sqoop, eo código Java gerado pode ajudar a evitar ambigüidade ao processar dados de texto delimitados.

Finalmente, durante o Passo 3, Sqoop divide os registos de dados na tabela de produtos através de um número de tarefas de mapa (com o número de mapeadores opcionalmente especificados pelo utilizador) e importa os dados da tabela em HDFS, colmeia, ou HBase.


Publicações relacionadas