Bases de dados de processamento paralelo

Video: Barramento de dados e processamento paralelo com PIC16F628A

Para proporcionar uma melhor compreensão das alternativas SQL-on-Hadoop para Hive, pode ser útil rever uma cartilha sobre o processamento massivamente paralelo (MPP) de bancos de dados em primeiro lugar.

Video: Processamento Paralelo: Resumo

Apache Hive é mergulhado em cima do Hadoop Distributed File System (HDFS) eo sistema MapReduce e apresenta uma interface de programação SQL-como aos seus dados (HiveQL, para ser preciso). Esta combinação de tecnologias Hadoop implantado em um cluster é semelhante às bases de dados do MPP, que já existem há algum tempo no mercado de TI.

bases de dados MPP geralmente fornecem uma interface SQL e um sistema de gestão de base de dados relacional (RDBMS) rodando sobre um conjunto de servidores em rede entre si por uma interligação de alta velocidade. A figura mostra os componentes de um RDBMS que são tipicamente incluídos em soluções SQL-on-Hadoop.

Video: O Poder do Processamento Paralelo



sistemas de dados relacionais evoluíram consideravelmente a um ponto onde as melhores práticas têm surgido entre a maioria das ofertas em termos de uma infra-estrutura de execução de consulta ideal. A figura mostra isso em termos de fluxo de uma consulta como ele é processado por um motor RDBMS.

Em primeiro lugar, o texto da consulta é analisado e compreendido. Em seguida, a árvore de sintaxe para a consulta é compilado em um plano de execução lógica, que é então otimizada para formar o plano de execução física final, que é então executado pelo tempo de execução. Para muitas das soluções SQL-on-Hadoop, você está vendo componentes semelhantes sendo implantado em Hadoop.

cachos MPP são geralmente referidos como tendo uma arquitetura sem compartilhamento, porque cada sistema tem sua própria CPU, memória e disco. No entanto, através do software de banco de dados de alta velocidade e interconexões, as funções do sistema como um todo e pode escalar à medida que novos servidores são adicionados ao cluster. O sistema global é explicitamente ajustado para fornecer resposta de consulta rápida, interativa.

bases de dados MPP são muitas vezes mais flexível, escalável e rentável do que os RDBMS tradicionais, hospedados em um grande servidor multiprocessador.


Publicações relacionadas