Correndo modelos estatísticos em MapReduce do Hadoop

Convertendo modelos estatísticos para executar em paralelo é uma tarefa desafiadora. No paradigma tradicional para programação paralela, de acesso à memória é regulada através do uso de tópicos - sub-processos criados pelo sistema operacional para distribuir uma única memória compartilhada por vários processadores.

Fatores como condições de corrida entre threads concorrentes - quando duas ou mais threads tentar alterar dados compartilhados ao mesmo tempo - podem influenciar o desempenho do seu algoritmo, bem como afetar a precisão dos resultados estatísticos seus resultados do programa - especialmente para longo executar análises de grandes conjuntos de amostras.

Uma abordagem pragmática para este problema é assumir que não muitos estatísticos vai saber os prós e contras de MapReduce (e vice-versa), nem se pode esperar que eles vão estar ciente de todas as armadilhas que a programação paralela implica. Contribuíram para o projeto Hadoop tem (e continuar a desenvolver) ferramentas estatísticas com estas realidades em mente.

O resultado: Hadoop oferece muitas soluções para implementar os algoritmos necessários para realizar a modelagem e análise estatística, sem sobrecarregar o estatístico com considerações de programação paralela nuances.