Grandes tecnologias quadro de dados que você deve saber para conseguir um emprego em big data

Além de armazenar informações, existem várias estruturas importantes para a organização, acesso e análise de dados grandes. Existem quatro tecnologias importantes que você precisa estar familiarizado com ou especialista, dependendo da função de dados grande que você está perseguindo.

O quadro Hadoop

O quadro Hadoop é um projeto Apache open-source - a tecnologia não autônomo, mas uma coleção de tecnologias. Hadoop tem muitas implementações usadas por populares grandes fornecedores de dados como, Amazon Web Services, Cloudera, Hortonworks e MapR.

Video: VAGAS DE EMPREGO NO CANADA - O CANADA PRECISA DE VOCE

Hadoop permite a muito alta velocidade de processamento de dados grandes usando uma estratégia MapReduce. MapReduce é um modelo de programação usada para processar grandes quantidades de dados através de sistemas agrupados em paralelo. Isto faz suas cargas de trabalho em arquivos que são armazenados dentro de uma estrutura sistema de arquivos, como o Hadoop Distributed File System (HDFS) ou mesmo conjuntos de dados estruturados. Como você deve ter adivinhado a partir do nome MapReduce, há duas etapas do processo:

  • Mapeamento: Há um nó mestre que leva grandes trabalhos e mapeia os para nós trabalhadores menores para fazer o trabalho. Em alguns casos, um nó trabalhador poderia simplificar ainda mais a carga de trabalho para os nódulos menores. (Um passo mapa é como um ONDE cláusula em uma instrução SQL.)

  • Reduzir: Quando o trabalho é feito por nós de trabalhadores, o nó mestre recolhe as “respostas” e reúne os resultados. (Uma reduzir passo é como um GRUPO cláusula em uma instrução SQL.)

A alimentação está na paralelização (trabalhando múltiplos postos de trabalho, ao mesmo tempo) do passo de mapeamento. Você pode classificar através petabytes de dados em horas em vez de dias, como seria o caso para consultas de banco de dados tradicionais que executam o SQL.

O objetivo do Hadoop é tomar lotes e lotes de dados e obter um conjunto de respostas ou resultados. Isto é feito através de um mapa / reduzir a processo em paralelo. Os dados são “mapeado” de acordo com algum algoritmo de ordenação e, em seguida, “reduzido” por meio de um algoritmo de síntese adicional para obter um conjunto de resultados. A magia está na parte paralela.

Video: Como conseguir um emprego mais rápido!



Muitos trabalhos de mapeamento pode ser feito ao mesmo tempo através de uma rede de computadores, ou nós. Os nós são recursos independentes dentro de uma rede de sistemas de computador. Ao compartilhar a carga, o trabalho de triagem que enormes quantidades de dados pode ser feito rapidamente.

Porco

Porco e sua linguagem, Pig Latin (você não pode acusar os geeks de não ter senso de humor), são uma plataforma para analisar grandes conjuntos de dados criados originalmente pelo Yahoo! para o acesso aos clusters Hadoop e mais tarde mudou-se para a comunidade open-source Apache.

Pig Latin é o idioma de acesso que é usado para acessar o ambiente de execução de porco. Ele foi projetado para fazer o trabalho de criação de postos de trabalho MapReduce mais fácil. Você não tem que construir seu próprio mapa e reduzir funções, mas é uma outra língua para aprender.

colméia

O desafio para os programadores de banco de dados tradicionais que se deslocam para novas tecnologias é que eles têm de aprender novas linguagens e paradigmas, como o porco. Eles foram programando em SQL durante anos, e movendo-se para modelos de ciência da computação mais puros é um desafio. Digite o Hive.

Hive permite aos programadores confortáveis ​​com SQL para escrever Hive Query Language (HQL) para consultar clusters Hadoop. Usando uma linguagem muito semelhante ao SQL, Hive pode traduzir tipo SQL põe em Hadoop-falar, o que torna a usabilidade do Hadoop muito mais palatável para os programadores RDMBS tradicionais.

Pense nisso como um mecanismo de tradução. Se um programador não sabe como programar em Hadoop, mas sabe como usar SQL para acessar dados, Hive atua como essa ponte e traduz tipo SQL põe em Hadoop.

Faísca

Spark é uma plataforma emergente que também é construída sobre HDFS. Além de ser capaz de alavancar HDFS, faísca pode acessar HBase, Cassandra, e outros insumos. Faísca aproveita grid computing para grandes processamento paralelo e pode armazenar informação na memória RAM, que fornece acesso ultra-rápido aos dados e recursos de computação para análise.

Os programadores podem acessar faísca usando Python, Scala, ou Java. Faísca também pode ser usado em conjunto com a análise de gráficos como GraphX ​​e MLIB, que é a biblioteca de aprendizado de máquina do Apache.


Publicações relacionadas