A zona de destino com base em hadoop

Video: Como subir una Base de Datos SQL en Hadoop

Quando você tenta decifrar o que um ambiente de análise pode parecer no futuro, você tropeçar o padrão do tempo zona de aterragem baseados em Hadoop e outra vez. Na verdade, ele não é mais sequer uma discussão futuros orientada porque a zona de aterragem tornou-se a forma que prospectivas empresas agora tentam salvar os custos de TI e fornecer uma plataforma para análise de dados inovador.

Assim que é exatamente a zona de aterragem? No nível mais básico, o zona de aterrissagem é apenas o lugar central onde os dados vai pousar na sua empresa - extrações semanais de dados de bancos de dados operacionais, por exemplo, ou a partir de arquivos de log de geração de sistemas. Hadoop é um repositório útil em que a aterrar de dados, por estas razões:

  • Ele pode lidar com todos os tipos de dados.

  • É facilmente escalável.

  • Ele é barato.

  • Uma vez que você pousar dados no Hadoop, você tem a flexibilidade para consultar, analisar ou processar os dados em uma variedade de maneiras.

Video: What is Hbase in Hadoop

Este diagrama mostra apenas parte da história e não é de forma completa. Afinal, você precisa saber como os dados se move da zona de aterragem para o armazém de dados, e assim por diante.

O ponto de partida para a discussão sobre a modernização de um data warehouse tem que ser como as organizações usam data warehouses e os desafios departamentos de TI enfrentam com eles.

Video: HBase Tutorial | Apache HBase Tutorial for Beginners | NoSQL Databases | Hadoop Tutorial | Edureka

Na década de 1980, uma vez que as organizações se tornaram bons em armazenar suas informações operacionais em bancos de dados relacionais (transações de vendas, por exemplo, ou status da cadeia de suprimentos), líderes empresariais começaram a querer relatórios gerados a partir destes dados relacionais. As lojas relacionais primeiros eram bancos de dados operacionais e foram projetados para On-line Transaction Processing (OLTP), de modo que os registros podem ser inseridos, atualizados ou excluídos o mais rápido possível.

Esta é uma arquitetura impraticável para relatórios em larga escala e análise, de modo relacional Online Analytical Processing (ROLAP) bancos de dados foram desenvolvidos para atender a essa necessidade. Isto levou à evolução de todo um novo tipo de RDBMS: a armazém de dados, que é uma entidade separada e vive ao lado de armazenamentos de dados operacionais de uma organização.



Isso se resume a usar ferramentas específicas para uma maior eficiência: você tem lojas operacionais de dados, que são projetados para processar de forma eficiente transações e armazéns de dados, que são projetados para suportar análises e relatórios repetido.

Os armazéns de dados estão sob crescente estresse, porém, pelas seguintes razões:

O aumento da demanda para manter longos períodos de dados online.

  • Aumento da demanda por recursos de processamento para transformar os dados para uso em outros armazéns e data marts.

    Video: What is HBase?

  • Aumento da demanda por análises inovadoras, que exige que os analistas de fazer perguntas sobre os dados do armazém, em cima da apresentação regular de relatórios que já está sendo feito. Isso pode incorrer processamento adicional significativo.

  • Na figura, você pode ver o armazém de dados apresenta-se como o principal recurso para os vários tipos de análise listadas no lado direito da figura. Aqui você também vê o conceito de uma zona de aterragem representados, onde Hadoop irá armazenar dados de uma variedade de fontes de dados de entrada.

    Para habilitar uma zona de aterragem Hadoop, você vai precisar para assegurar que você pode gravar dados de várias fontes de dados para HDFS. Para bancos de dados relacionais, uma boa solução seria usar Sqoop.

    Mas o desembarque dos dados é apenas o começo.

    Quando você está se movendo dados de muitas fontes em sua zona de aterragem, uma questão que você vai inevitavelmente correr em é a qualidade dos dados. É comum que as empresas têm muitas bases de dados operacionais, onde detalhes importantes são diferentes, por exemplo, que um cliente pode ser conhecido como “D. deRoos”em um banco de dados, e‘Dirk deRoos’em outro.

    Outro problema de qualidade encontra-se em sistemas onde há uma forte dependência de entrada manual de dados, seja de clientes ou funcionários - aqui, não é incomum encontrar os primeiros nomes e sobrenomes trocados ao redor ou outra desinformação nos campos de dados.

    questões de qualidade de dados são um grande negócio para ambientes de data warehouse, e é por isso que um monte de esforço vai para etapas de limpeza e validação de dados de outros sistemas são processados ​​como ele é carregado para o armazém. Tudo se resume a Confiar em: Se os dados que você está fazendo perguntas de encontro é sujo, você não pode confiar nas respostas em seus relatórios.

    Assim, enquanto há um enorme potencial em ter acesso a muitos conjuntos de dados diferentes a partir de diferentes fontes em sua zona de aterragem Hadoop, você tem de levar em consideração a qualidade dos dados e quanto você pode confiar nos dados.


    Publicações relacionadas