Olhando para os conceitos básicos de estatística, aprendizado de máquina e métodos matemáticos na ciência de dados

Se as estatísticas tem sido descrito como a ciência de derivar insights de dados, então o que é a diferença entre um estatístico e um cientista de dados? Boa pergunta! Enquanto muitas tarefas em ciência de dados requer um pouco de conhecimento estatístico como, o escopo e amplitude da base de conhecimento e habilidade de um cientista de dados é diferente dos de um estatístico. As distinções fundamentais são descritos abaixo.

  • Assunto perícia da matéria: Uma das características principais de cientistas de dados é que eles oferecem um grau sofisticado de experiência na área a que se aplicam os métodos analíticos. cientistas de dados precisam isso para que eles são capazes de realmente compreender as implicações e aplicações dos conhecimentos de dados que eles geram. Um cientista de dados deve ter o suficiente experiência sobre o assunto para ser capaz de identificar o significado de suas descobertas e independentemente decidir como proceder na análise.

    Video: Medicina e Estatística - Aprendizado com Dados

    Em contraste, os estatísticos geralmente têm um incrivelmente profundo conhecimento das estatísticas, mas muito pouca experiência nas matérias a que se aplicam métodos estatísticos. Na maioria das vezes, os estatísticos são obrigados a consultar com especialistas no assunto externos para realmente obter um aperto firme sobre o significado de suas descobertas, e para ser capaz de decidir a melhor maneira de avançar em uma análise.

  • Matemáticas e de aprendizado de máquina abordagens: Os estatísticos dependem principalmente de métodos e processos estatísticos ao derivar informações de dados. Em contraste, os cientistas de dados são necessários para puxar a partir de uma grande variedade de técnicas para derivar introspecções de dados. Estes incluem métodos estatísticos, mas também incluem abordagens que não são baseadas em estatísticas - como os encontrados em matemática, agrupamento, classificação e abordagens de aprendizado de máquina não estatísticos.

Vendo a importância da estatística know-how

Você não precisa ir para fora e obter um diploma em estatísticas para a prática de ciência de dados, mas você deve pelo menos se familiarizar com alguns dos métodos mais fundamentais que são usados ​​na análise estatística dos dados. Esses incluem:

Video: Análise Estatística de Dados

  • Regressão linear: Regressão linear é útil para modelar as relações entre uma variável dependente e uma ou várias variáveis ​​independentes. O objectivo da regressão linear é para descobrir (e quantificar a força de) correlações significativas entre as variáveis ​​dependentes e independentes.

  • análise de séries temporais: análise de séries temporais envolve a análise de um conjunto de dados sobre valores de atributos ao longo do tempo, a fim de prever futuras instâncias da medida com base nos últimos dados observacionais.

  • simulações de Monte Carlo: O método de Monte Carlo é uma técnica de simulação você pode usar para testar hipóteses, para gerar estimativas de parâmetros, para prever resultados de cenários, e para validar modelos. O método é poderoso porque ele pode ser usado para simular muito rapidamente em qualquer lugar de 1 a 10.000 (ou mais) amostras de simulação para todos os processos que você está tentando avaliar.



  • Estatísticas de dados espaciais: Uma propriedade fundamental e importante de dados espaciais é que não é aleatória. É espacialmente dependente e autocorrelacionados. Ao modelar dados espaciais, evitar métodos estatísticos que assumem seus dados é aleatória. Kriging e Krige dois métodos estatísticos que podem ser usados ​​para modelar dados espaciais. Estes métodos permitem-lhe produzir superfícies preditivos para áreas de estudo inteiras com base em conjuntos de pontos conhecidos no espaço geográfico.

    Video: ENSINO - Aprendizado de Máquina e Mineração de dados - Unidade 6 Parte 1

Trabalhando com clustering, classificação e métodos de aprendizado de máquina

aprendizagem de máquina é a aplicação de algoritmos computacionais para aprender (ou deduzir padrões in) conjuntos de dados brutos. Clustering é um tipo particular de aprendizagem de máquina -sem supervisão aprendizagem de máquina, para ser mais preciso, o que significa que os algoritmos devem aprender a partir de dados não marcados, e, como tal, devem utilizar métodos de inferência para descobrir correlações.

Classificação, por outro lado, é chamado de aprendizado de máquina supervisionado, o que significa que os algoritmos de aprender a partir de dados rotulados. As descrições a seguir apresentamos algumas das agrupamento e classificação abordagens mais básicas:

  • k-significa agrupamento: Você geralmente implantar k-meios algoritmos para subdividir os pontos de dados de um conjunto de dados em clusters com base em valores médios mais próximos. Para determinar a divisão ideal de seus pontos de dados em clusters, de tal forma que a distância entre os pontos em cada cluster é minimizado, você pode usar k-means clustering.

  • Mais próximos algoritmos vizinhos: O propósito de uma análise do vizinho mais próximo é o de procurar e localizar ou um ponto mais próximo no espaço ou um valor numérico mais próximo, dependendo do atributo que você usar para a base de comparação.

  • estimativa de densidade de Kernel: Uma forma alternativa para identificar grupos em seus dados é usar uma função de alisamento densidade. estimativa de densidade de Kernel (KDE) funciona através da colocação de um núcleo uma função de ponderação, que é útil para a quantificação da densidade - em cada ponto de dados no conjunto de dados, e depois somando os grãos para gerar uma estimativa de densidade de grãos de toda a região.

Mantendo métodos matemáticos na mistura

Lotes fica dito sobre o valor das estatísticas na prática da ciência dados, mas aplicados métodos matemáticos são raramente mencionados. Para ser franco, a matemática é a base de todas as análises quantitativas. A sua importância não deve ser subestimado. Os dois seguintes métodos matemáticos são particularmente úteis na ciência de dados.

  • Multi-critério tomada de decisão (MCDM): MCDM é abordagem de modelagem decisão amathematical que você pode usar quando você tem vários critérios ou alternativas que você deve avaliar simultaneamente quando tomar uma decisão.

  • cadeias de Markov: Uma cadeia de Markov é um método matemático que as cadeias em conjunto uma série de variáveis ​​geradas aleatoriamente que representam o estado actual, a fim de modelar como alterações nas variáveis ​​de estado presentes afectar estados futuros.


Publicações relacionadas