Algoritmos de agrupamento usados ​​na ciência de dados

Você usa algoritmos de agrupamento para subdividir seus conjuntos de dados em clusters de pontos de dados que são mais similares para um atributo predefinido. Se você tem um conjunto de dados que descreve vários atributos sobre um recurso particular e deseja agrupar seus pontos de dados de acordo com suas semelhanças atributo, em seguida, usar algoritmos de agrupamento.

Um gráfico de dispersão simples de País de Renda e conjuntos de dados Educação produz o gráfico que você vê aqui.

No agrupamento não supervisionado, você começa com esses dados e, em seguida, avançar para dividi-lo em subgrupos. Estes subconjuntos são chamados aglomerados e são compostas de pontos de dados que são mais semelhantes entre si. Parece que há pelo menos dois clusters, provavelmente de três - um na parte inferior com baixa renda e escolaridade, e então os países de ensino superior parecem que pode ser dividido entre baixa e alta renda.

A figura seguinte mostra o resultado de eyeballing - fazer uma estimativa visual do - aglomerados neste conjunto de dados.

Embora você possa gerar estimativas visuais de clustering, você pode conseguir resultados muito mais precisos quando se lida com conjuntos de dados muito maiores, usando algoritmos para gerar clusters para você. estimativa visual é um método bruto que é útil apenas em conjuntos de dados menores de complexidade mínima. Algoritmos produzir exata, resultados reproduzíveis, e você pode usar algoritmos para gerar agrupamento de múltiplas dimensões de dados dentro de seu conjunto de dados.



algoritmos de agrupamento são um tipo de abordagem na aprendizagem de máquina sem supervisão - outras abordagens incluem métodos e métodos para a redução da dimensão de Markov. algoritmos de agrupamento são apropriadas em situações onde as características seguintes são verdadeiras:

  • Você sabe e compreende o conjunto de dados que você está analisando.

  • Antes de executar o algoritmo de agrupamento, você não tem uma idéia exata sobre a natureza dos subconjuntos (clusters). Muitas vezes, você nem vai saber quantos subconjuntos existem no conjunto de dados antes de executar o algoritmo.

  • Os subconjuntos (clusters) são determinados por apenas o conjunto de dados que você está analisando.

  • Seu objetivo é determinar um modelo que descreve os subconjuntos em um único conjunto de dados e só este conjunto de dados.

Video: Videoaulas ITnerantes: Algoritmos e Estruturas de Dados - Mód 1 - Alexandre Lênin

Se você adicionar mais dados, você deve executar novamente a análise a partir do zero para obter completos e precisos resultados do modelo.


Publicações relacionadas