Escolher os melhores linguagens de programação para a ciência de dados
Codificação é uma das habilidades primárias na caixa de ferramentas de um cientista de dados. Algumas aplicações incrivelmente poderosos fizeram com sucesso acabar com a necessidade de codificar em alguns contextos a ciência de dados, mas você nunca vai ser capaz de usar esses aplicativos para análise personalizada e visualização. Para tarefas avançadas, você vai ter que codificar as coisas para si mesmo, usando a linguagem de programação Python ou a linguagem de programação R.
Conteúdo
Video: QUAL A MELHOR LINGUAGEM DE PROGRAMAÇÃO?
Usando Python para a ciência de dados
Python é uma linguagem de programação fácil de aprender, legível que você pode usar para munging avançada de dados, análise e visualização. Você pode instalá-lo e configurá-lo incrivelmente fácil, e você pode mais facilmente aprender Python do que a linguagem de programação R. Python é executado em Mac, Windows e UNIX.
IPython oferece uma interface de codificação muito amigável para as pessoas que não gostam de codificação a partir da linha de comando. Se você baixar e instalar o Anaconda Python distribuição, você começa o seu ambiente IPython / Jupyter, bem como NumPy, SciPy, matplotlib, Pandas, e scikit-learn bibliotecas (entre outros) que é provável que você precisa em seus processos de tomada de senso de dados.
O pacote base NumPy é o facilitador básico para computação científica em Python. Ele fornece recipientes estruturas / matriz que podem ser utilizadas para fazer cálculos com ambos os vectores e matrizes (como em R). SciPy e Pandas são as bibliotecas Python que são mais comumente utilizados para computação científica e técnica.
Video: Curso de programação para iniciantes: #4 Qual linguagem de programação escolher?
Eles oferecem toneladas de algoritmos matemáticos que simplesmente não estão disponíveis em outras bibliotecas Python. funcionalidades populares incluem álgebra linear, matemática matriz, funcionalidades matriz esparsa, estatísticas e munging dados. Matplotlib é estréia biblioteca de visualização de dados do Python.
Por último, a biblioteca scikit-learn é útil para a aprendizagem de máquina, pré-processamento de dados e avaliação do modelo.
Usando R para a ciência de dados
R é uma outra linguagem de programação popular que é usado para computação estatística e científica. Escrever análise e visualização de rotinas em R é conhecido como R scripting. R foi desenvolvido especificamente para computação estatística e, consequentemente, tem uma oferta mais abundante de pacotes de computação estatística de código aberto do que as ofertas do Python.
Video: As 10 Linguagens mais populares do mercado - CeV Responde #054
Além disso, as capacidades de visualização de dados do R são um pouco mais sofisticado do que Python, e geralmente mais fácil de gerar. Dito isto, como uma linguagem, Python é um bocado justo mais fácil para iniciantes para aprender.
R tem uma comunidade de usuários muito grande e extremamente ativo. Os desenvolvedores estão chegando com (e partilhar) novos pacotes todo o tempo - para mencionar apenas alguns, o previsão
pacote, o ggplot2
pacote, eo statnet / IGRAPH
pacotes.
Se você quer fazer análise preditiva e previsão em R, o pacote de previsão é um bom lugar para começar. Este pacote oferece a ARMA, AR, e os métodos de suavização exponencial.
Para visualização de dados, você pode usar o ggplot2
pacote, que tem todos os tipos de gráficos de dados padrão, além de muito mais.
Por último, pacotes de análise de rede da P são muito especial também. Por exemplo, você pode usar IGRAPH
e StatNet
para análise de redes sociais, mapeamento genético, planejamento de tráfego, e até mesmo a modelagem hidráulica.