R em hadoop ea linguagem r
Video: Intro ao Programa R - Parte I (Visão Geral)
Conteúdo
A disciplina de aprendizado de máquina tem um catálogo rico e extenso de técnicas. Mahout traz uma gama de ferramentas estatísticas e algoritmos para a mesa, mas só captura uma fração dessas técnicas e algoritmos, como a tarefa de converter esses modelos para um quadro MapReduce é um desafio.
Com o tempo, Mahout é certeza de continuar a expandir a sua caixa de ferramentas de estatística, mas até então todos os cientistas e estatísticos aí de dados precisa estar ciente de software de modelagem estatística alternativa - que é onde R entra.
A linguagem R é um ambiente de linguagem e desenvolvimento estatístico de código aberto poderoso e popular. Ele oferece um ecossistema análises ricas que podem ajudar os cientistas de dados com a exploração de dados, visualização, análise estatística e computação, modelagem, aprendizagem de máquina, e simulação. A linguagem R é comumente usado por estatísticos, mineiros de dados, analistas de dados e (hoje em dia), os cientistas de dados.
Video: R with Hadoop
programadores de linguagem R ter acesso ao De rede abrangente R Archive (CRAN) bibliotecas que, a partir do momento da redação deste texto, contém mais de 3000 pacotes de análise estatística. Esses complementos podem ser puxado para qualquer projeto R, fornecendo ferramentas analíticas ricos para a execução de classificação, regressão, clustering, modelagem linear e algoritmos de aprendizado de máquina mais especializadas.
A linguagem é acessível para quem está familiarizado com simples tipos de estrutura de dados - vetores, escalares, quadros de dados (matrizes) e afins - comumente usados pelos estatísticos, bem como programadores.
Video: Linguagem R: Mapas 2
Fora da caixa, uma das principais armadilhas com o uso da linguagem R é a falta de apoio que oferece para a execução de tarefas simultâneas. ferramentas de linguagem estatísticos como R sobressair em análise rigorosa, mas falta escalabilidade e suporte nativo para computações paralelas.
Estes sistemas são não-distribuíveis e não foram desenvolvidos para ser escalável para o petabyte-mundo moderno de big data. Propostas para superar estas limitações devem alargar o âmbito de R além do carregamento na memória e ambientes de execução único computador, mantendo o talento de R para algoritmos estatísticos facilmente destacáveis.