Os princípios de design sqoop
Quando se trata de Sqoop, uma imagem é muitas vezes vale mais que mil palavras, então confira a figura, que lhe dá uma visão panorâmica da arquitetura Sqoop.
Conteúdo
Video: Apache Sqoop Tutorial Part 1
A idéia por trás Sqoop é que ele aproveita mapa tarefas - tarefas que realizam a importação paralela e exportação de tabelas de banco de dados relacionais - desde dentro da estrutura Hadoop MapReduce. Esta é uma boa notícia porque a estrutura MapReduce fornece tolerância a falhas para trabalhos de importação e exportação, juntamente com processamento paralelo!
Video: Why city flags may be the worst-designed thing you've never noticed | Roman Mars
Você vai apreciar a tolerância a falhas, se houver uma falha durante uma grande importação de mesa ou de exportação porque a estrutura MapReduce vai se recuperar sem a necessidade de iniciar o processo novamente.
Sqoop pode importar dados para Hive e HBase. Note-se, no entanto, que as setas a colmeia e ponto HBase em apenas uma direcção. Os dados armazenados em qualquer banco de dados relacional com suporte JDBC pode ser diretamente importado para os sistemas de colméia ou HBase com Sqoop. As exportações, no entanto, são realizados a partir de dados armazenados no HDFS.
Portanto, se você precisa exportar suas tabelas Hive, você apontar Sqoop aos diretórios HDFS que armazenam suas tabelas Hive. Se você precisa exportar tabelas HBase, você primeiro tem que exportá-los para HDFS e, em seguida, executar o comando de exportação Sqoop.