Google dremel e hadoop

Video: Google I/O 2012 - Crunching Big Data with BigQuery

Para a maioria das pessoas, o termo Dremel traz à mente um prático de alta velocidade, ferramenta de baixo torque que funciona bem para uma variedade de trabalhos em torno da casa. Mas você sabia que o Google criou uma Dremel? Em vez de produzir outro handheld ferramenta mecânica, no entanto, o Google escolheu uma ferramenta de software rápida destinada à análise interativa de dados grandes.

Video: Crunching Big Data with Google BigQuery + Introducing Apache Drill

Tal como acontece com outras tecnologias do Google que inspiraram partes do ecossistema Hadoop, como MapReduce, o Google File System (HDFS) e BigTable (veja HBase), o Google desenvolveu Dremel para uso interno e, em seguida, publicou um artigo descrevendo o propósito e design da tecnologia . (Em outras palavras, Dremel não é algo que você pode baixar e usar em seu cluster Hadoop.)

Google usa Dremel para uma variedade de tarefas, incluindo a análise de documentos web rastreado, detecção de spam e-mail, trabalhando através de relatórios de falhas de aplicação, e muito mais. serviço BigQuery do Google realmente usa Dremel.

Video: How does Google use Percolator, Dremel and Pregel?

Google projetado tecnologia MapReduce para processamento em lote mais conjuntos enormes de dados. Como suas necessidades evoluiu, assim como sua tecnologia, e Google decidiu criar Dremel para melhorar o desempenho para consultas interativas contra grandes conjuntos de dados.



A abordagem MapReduce fornece tolerância a escalabilidade e consulta falha, mas é fundamentalmente um sistema baseado em lote, para tempos de resposta para consultas menores (consultas envolvendo apenas uma pequena parte de todo um conjunto de dados, por exemplo) muitas vezes não são o que os usuários esperam.

Video: Hadoop a Solution for Big Data - Webinar Video | Hadoop Webinar

Então, o Google desenvolveu uma tecnologia de execução de consulta projetado para consultas interativas, que roda em servidores intermediários em cima do sistema de arquivos do Google (GFS). (Lembre-se, GFS foi a inspiração para Apache HDFS, que é sistema de arquivos do Hadoop.)

Semelhante a colméia, Dremel usa uma linguagem SQL-like (familiar para a maioria dos programadores) e emprega um layout de dados colunar. Dremel fornece resposta de consulta rápida, interativa, preservando a tolerância escalabilidade e falhas encontradas no Apache Hive. No whitepaper Dremel, o Google explica como ele pode realizar consultas de agregação dentro de segundos sobre mesas com um trilhão de linhas - não é mau de todo.

Então, o Google tem a sua tecnologia Dremel, que ele usa internamente, mas depois há todas as tecnologias “inspirado por” Dremel (tipo como de todos aqueles perfumes “inspirado por” Drakkar Noir).


Publicações relacionadas