A importância de agrupamento e classificação na ciência de dados

O objetivo do agrupamento e classificação algoritmos é fazer sentido e extrair valor a partir de grandes conjuntos de dados estruturados e não estruturados. Se você está trabalhando com grandes volumes de dados não estruturados, ela só faz sentido tentar particionar os dados em algum tipo de agrupamentos lógicos antes de tentar analisá-lo.

Clustering e classificação permite que você tome um olhar abrangente de seus dados em massa, em seguida, formar algumas estruturas lógicas com base no que você encontra lá antes de ir mais fundo na análise de porcas e parafusos.

Na sua forma mais simples, aglomerados são conjuntos de pontos de dados que compartilham atributos semelhantes, e algoritmos de agrupamento são os métodos que grupo pontos em diferentes grupos com base em suas semelhanças esses dados. Você verá algoritmos de agrupamento utilizadas para a classificação da doença na ciência médica, mas você também vai vê-los usado para a classificação do cliente na pesquisa de marketing e para a avaliação de risco à saúde ambiental em engenharia ambiental.

Video: Entrevista sobre Ciência de Dados com Ricardo Cappra

Existem diferentes métodos de agrupamento, dependendo de como você deseja que o seu conjunto de dados a ser dividido. Os dois tipos principais de algoritmos de agrupamento são

hierárquica: Algoritmos criar conjuntos separados de grupos aninhados, cada um em seu próprio nível hierárquico.
particional: Algoritmos criar apenas um único conjunto de clusters.

Você pode usar algoritmos de agrupamento hierárquico somente se você já sabe a distância de separação entre os pontos de dados em seu conjunto de dados. O algoritmo k-vizinhos mais próximo que está descrito neste capítulo pertence à classe hierárquica dos algoritmos de agrupamento.

Você pode ter ouvido de classificação e pensou que a classificação é a mesma coisa que clustering. Muitas pessoas fazem, mas este não é o caso. Na classificação, antes de começar, você já sabe o número de classes em que os dados devem ser agrupados e você já sabe que classe você quer cada ponto de dados a ser atribuído. Na classificação, os dados no conjunto de dados a ser aprendido com é rotulado.

Quando você usa algoritmos de agrupamento, por outro lado, você não tem nenhum conceito pré-definido por quantos conjuntos são apropriados para os seus dados, e você contar com os algoritmos de agrupamento para classificar e agrupar os dados na forma mais adequada. Com técnicas de agrupamento, você está aprendendo a partir de dados sem rótulo.

Para melhor ilustrar a natureza da classificação, no entanto, dar uma olhada em Twitter e seu sistema de hash-tagging. Digamos que você só pegou sua bebida preferida em todo o mundo: um latte caramelo gelado da Starbucks. Você está tão feliz de ter a sua bebida que você decidir tweet sobre ele com uma foto ea frase “Este é o melhor latte SEMPRE! #StarbucksRocks.”Bem, é claro, você incluir‘#StarbucksRocks’em seu tweet para que o tweet vai para a corrente #StarbucksRocks e é classificada juntamente com todos os outros tweets que foram rotulados como #StarbucksRocks. O uso da etiqueta hashtag em seu tweet disse Twitter como classificar seus dados em um grupo reconhecível e acessível, ou grupo.