Fatores que aumentam a escala de análise estatística em hadoop

Os povos da razão provar os seus dados antes de executar análise estatística em Hadoop é que este tipo de análise, muitas vezes requer recursos computacionais significativos. Este não é apenas sobre os volumes de dados: existem cinco principais fatores que influenciam a escala de análise estatística:

  • Este é fácil, mas temos de mencionar: o volume de dados em que você vai realizar a análise definitivamente determina a escala de análise.

  • O número de transformações necessárias sobre o conjunto de dados antes de aplicar modelos estatísticos é definitivamente um fator.

  • O número de correlações entre pares que você precisa para calcular desempenha um papel.

  • O grau de complexidade dos cálculos estatísticos a ser aplicada é um factor.

  • O número de modelos estatísticos para ser aplicado ao seu conjunto de dados desempenha um papel significativo.

Hadoop oferece uma maneira de sair deste dilema, fornecendo uma plataforma para realizar cálculos de processamento massivamente paralelo em dados no Hadoop.

Ao fazê-lo, é capaz de virar os dados analíticos em fluxo, em vez de mover os dados do seu repositório para o servidor analítico, Hadoop oferece analytics diretamente para os dados. Mais especificamente, HDFS permite que você armazene suas montanhas de dados e, em seguida, trazer a computação (na forma de tarefas MapReduce) para os nós escravos.

O desafio comum representada pelo movimento dos sistemas tradicionais multi-processamento simétrico estatísticos (SMP) para a arquitetura Hadoop é a localização dos dados. Em plataformas SMP tradicionais, processadores múltiplos compartilhar o acesso a um único recurso de memória principal.

Em Hadoop, HDFS replica partições de dados em vários nós e máquinas. Além disso, algoritmos estatísticos que foram projetados para processar dados na memória devem agora adaptar-se a conjuntos de dados que abrangem vários nós / prateleiras e não poderia esperar para caber em um único bloco de memória.


Publicações relacionadas