R em hadoop ea linguagem r

Video: Intro ao Programa R - Parte I (Visão Geral)

A disciplina de aprendizado de máquina tem um catálogo rico e extenso de técnicas. Mahout traz uma gama de ferramentas estatísticas e algoritmos para a mesa, mas só captura uma fração dessas técnicas e algoritmos, como a tarefa de converter esses modelos para um quadro MapReduce é um desafio.

Com o tempo, Mahout é certeza de continuar a expandir a sua caixa de ferramentas de estatística, mas até então todos os cientistas e estatísticos aí de dados precisa estar ciente de software de modelagem estatística alternativa - que é onde R entra.

A linguagem R é um ambiente de linguagem e desenvolvimento estatístico de código aberto poderoso e popular. Ele oferece um ecossistema análises ricas que podem ajudar os cientistas de dados com a exploração de dados, visualização, análise estatística e computação, modelagem, aprendizagem de máquina, e simulação. A linguagem R é comumente usado por estatísticos, mineiros de dados, analistas de dados e (hoje em dia), os cientistas de dados.

Video: R with Hadoop



programadores de linguagem R ter acesso ao De rede abrangente R Archive (CRAN) bibliotecas que, a partir do momento da redação deste texto, contém mais de 3000 pacotes de análise estatística. Esses complementos podem ser puxado para qualquer projeto R, fornecendo ferramentas analíticas ricos para a execução de classificação, regressão, clustering, modelagem linear e algoritmos de aprendizado de máquina mais especializadas.

A linguagem é acessível para quem está familiarizado com simples tipos de estrutura de dados - vetores, escalares, quadros de dados (matrizes) e afins - comumente usados ​​pelos estatísticos, bem como programadores.

Video: Linguagem R: Mapas 2

Fora da caixa, uma das principais armadilhas com o uso da linguagem R é a falta de apoio que oferece para a execução de tarefas simultâneas. ferramentas de linguagem estatísticos como R sobressair em análise rigorosa, mas falta escalabilidade e suporte nativo para computações paralelas.

Estes sistemas são não-distribuíveis e não foram desenvolvidos para ser escalável para o petabyte-mundo moderno de big data. Propostas para superar estas limitações devem alargar o âmbito de R além do carregamento na memória e ambientes de execução único computador, mantendo o talento de R para algoritmos estatísticos facilmente destacáveis.


Publicações relacionadas