Noções básicas de agrupamentos de dados em análise preditiva

UMA dataset

(Ou coleta de dados) é um conjunto de itens em análise preditiva. Por exemplo, um conjunto de documentos é um conjunto de dados onde os itens de dados são documentos. Um conjunto de indicadores sociais informações usuários da rede (nome, idade, lista de amigos, fotos e assim por diante) é um conjunto de dados onde os itens de dados são perfis de usuários da rede social.

agrupamento de dados é a tarefa de dividir um conjunto de dados em subconjuntos de itens semelhantes. Os itens também podem ser referidos como exemplos, observação, entidades ou objetos de dados. Na maioria dos casos, um conjunto de dados é representada no formato de tabela - uma matriz de dados. Um matriz de dados é uma tabela de números, documentos ou expressões, representada em linhas e colunas como se segue:

  • Cada linha corresponde a um determinado item no conjunto de dados.

    As linhas são por vezes referido como itens, objetos, instâncias ou observações.

  • Cada coluna representa uma característica particular de um item.

    As colunas são referidos como características ou atributos.

Video: Banco de Dados - Aula 10 - SQL - SELECTs com Agrupamentos

Aplicando agrupamento de dados para um conjunto de dados gera grupos de itens de dados semelhantes. Estes grupos são chamados aglomerados - coleções de itens de dados semelhantes.

Semelhante itens têm um relacionamento forte e mensurável entre eles - legumes frescos, por exemplo, são mais semelhantes entre si do que para alimentos congelados - e técnicas de agrupamento usar esse relacionamento para agrupar os itens.

A força de uma relação entre duas ou mais artigos podem ser quantificados como um medida de similaridade: Uma função matemática calcula a correlação entre dois itens de dados. Os resultados desse cálculo, chamados Os valores de similaridade, essencialmente comparar um item de dados específico para todos os outros itens no conjunto de dados. Esses outros itens vai ser mais semelhantes ou menos semelhante em relação a esse item específico.

semelhanças computadorizada desempenhar um papel importante na atribuição de itens para grupos (aglomerados). Cada grupo tem um item que melhor representa ele- este item é referido como uma representante aglomerado.

Considere um conjunto de dados que consiste de vários tipos de frutas em uma cesta. O cesto tem frutos de diferentes tipos, tais como maçãs, bananas, limões e peras. Neste caso, as frutas são os itens de dados. O processo de agrupamento de dados extrai grupos de frutos semelhantes para fora deste conjunto de dados (cesta de frutas diferentes).

Video: #002 - Tipos de Estatística: Descritiva e Inferencial

O primeiro passo de um processo de agrupamento de dados é traduzir este conjunto de dados em uma matriz de dados: Uma maneira de modelar esse conjunto de dados é ter as linhas representam os itens no conjunto de dados (frutas) - e as colunas representam características, ou características, que descrevem os itens.

Por exemplo, um recurso de fruta pode ser o tipo de frutas (como uma banana ou maçã), peso, cor ou preço. Neste exemplo conjunto de dados, os itens têm três características: tipo de fruto, cor e peso.



Na maioria dos casos, a aplicação de uma técnica de agrupamento de dados para o conjunto de dados de frutas como descrito acima permite que você

Recuperar grupos (clusters) de itens semelhantes. Você pode dizer que o seu fruto é de número N de grupos. Depois disso, se você pegar uma fruta aleatório, você será capaz de fazer uma declaração sobre esse item como sendo parte de um dos grupos N.

Video: A-11 PROJETO ELÉTRICO RESIDENCIAL: AULA 04

  • Recuperar os representantes de cada grupo de fragmentação. Neste exemplo, um representante conjunto seria escolher um tipo de fruto da cesta e colocá-lo de lado. As características desta fruta são tais que esse fruto melhor representa o cluster ao qual pertence.

  • Quando estiver pronto clustering, o conjunto de dados é organizado e dividido em agrupamentos naturais.

    agrupamento de dados revela estrutura nos dados através da extracção de agrupamentos naturais a partir de um conjunto de dados. Portanto descobrindo grupos é um passo essencial para a formulação de ideias e hipóteses sobre a estrutura dos seus dados e derivar conhecimentos para melhor compreendê-lo.

    agrupamento de dados também pode ser uma forma de modelar os dados: Representa um corpo maior de dados por aglomerados ou representantes de fragmentação.

    Além disso, sua análise pode procurar simplesmente para particionar os dados em grupos de itens semelhantes - como quando segmentação de mercado partições de dados para o mercado-alvo em grupos tais como

    • Os consumidores que compartilham os mesmos interesses (como cozinha mediterrânica)

    • Os consumidores que têm necessidades comuns (por exemplo, pessoas com alergias alimentares específicos)

    Identificar grupos de clientes semelhantes podem ajudá-lo a desenvolver uma estratégia de marketing que atende às necessidades de grupos específicos.

    Além disso, o agrupamento de dados também pode ajudar a identificar, aprender, ou prever a natureza dos novos itens de dados - especialmente como novos dados pode estar relacionada com fazer previsões. Por exemplo, em reconhecimento de padrões, analisando padrões nos dados (tais como padrões de compra em determinadas regiões ou grupos de idade) pode ajudar a desenvolver a análise preditiva - neste caso, prever a natureza de itens de dados futuros que podem caber bem com padrões estabelecidos.

    O exemplo a cesta de frutas usa agrupamento de dados para distinguir entre diferentes itens de dados. Suponha que sua empresa monta cestas de frutas personalizadas, e uma nova, fruto desconhecido é introduzido no mercado. Você quer aprender ou prever que agrupar o novo item irá pertencer, se você adicioná-lo à cesta de frutas.

    Porque você já aplicou agrupamento de dados para o conjunto de dados de frutas, você tem quatro grupos - o que torna mais fácil de prever que cluster (tipo específico de frutas) é apropriado para o novo item. Tudo que você tem a fazer é comparar o fruto desconhecido aos representantes dos outros quatro grupos e identificar quais cluster é a melhor correspondência.

    Embora este processo pode parecer óbvio para uma pessoa que trabalha com um pequeno conjunto de dados, não é tão óbvio em uma escala maior - quando você tem que agrupar milhões de itens sem examinar cada um. A complexidade torna-se exponencial quando o conjunto de dados é grande, diverso, e relativamente incoerente - que é por isso que existem algoritmos de agrupamento: Computadores fazer esse tipo de trabalho melhor.


    Publicações relacionadas