Como converter dados brutos em uma matriz de análise preditiva

Antes que você possa extrair grupos de itens de dados semelhantes a partir de seu conjunto de dados para o seu projecto de análise preditiva, pode ser necessário para representar seus dados em um formato tabular conhecido como matriz de dados

. Este é um passo de pré-processamento que vem antes agrupamento de dados.

Como criar uma matriz de análise preditiva de termos em documentos

Suponha que o conjunto de dados que você está prestes a analisar está contida em um conjunto de documentos do Microsoft Word. A primeira coisa que você precisa fazer é converter o conjunto de documentos em uma matriz de dados. Várias ferramentas open-source comercial e pode lidar com essa tarefa, produzindo uma matriz, em que cada linha corresponde a um documento no conjunto de dados. Exemplos destas ferramentas incluem RapidMiner e pacotes text-mining R.

UMA documento é, em essência, um conjunto de palavras. UMA prazo é um conjunto de uma ou várias palavras.

Cada termo que um documento contém é mencionado uma vez ou várias vezes no mesmo documento. O número de vezes que um termo é mencionado em um documento pode ser representado por frequência do termo (TF), um valor numérico.

Nós construímos a matriz de termos no documento da seguinte forma:

  • Os termos que aparecem em todos os documentos estão listados em toda a linha superior.

  • títulos de documentos estão listados na coluna mais à esquerda

  • Os números que aparecem no interior das células da matriz correspondem à frequência de cada prazo.

Video: O poder transformador do uso de dados



Por exemplo, documento A é representada como um conjunto de números (5,16,0,19,0,0.) Em que 5 corresponde ao número de vezes que o termo análise preditiva Repete-se, 16 corresponde ao número de vezes Ciência da Computação é repetido, e assim por diante. Esta é a maneira mais simples para converter um conjunto de documentos em uma matriz.

Análise preditivaCiência da ComputaçãoAprendendoClustering2013Antropologia
documento A51601900
documento B862300
C documento052339
documento D1913467
documento E216160213
documento F130191642

Noções básicas de seleção prazo de análise preditiva

Um desafio em documentos de texto de agrupamento é determinar como selecionar as melhores condições para representar todos os documentos na coleção. Quão importante um termo está em uma coleção de documentos pode ser calculada de diferentes maneiras.

Se, por exemplo, você contar o número de vezes que um termo é repetido em um documento e comparar esse total com a forma como muitas vezes se repete em toda a coleção, você tem um senso de importância relativa do prazo para outros termos.

Baseando a importância relativa de um termo em sua freqüência em uma coleção é muitas vezes conhecido como ponderação. O peso você atribui pode ser baseada em dois princípios:

  • Termos que aparecem várias vezes em um documento são favorecidos em detrimento de termos que aparecem somente uma vez.

  • Termos que são usados ​​em relativamente poucos documentos são favorecidos em detrimento de termos que são mencionados em todos os documentos.

Se (por exemplo) o termo século é mencionado em todos os documentos em seu conjunto de dados, então você não pode considerar atribuindo-peso suficiente para ter uma coluna própria na matriz.

Video: Estratégia de Parceria entre IBM e Esri - World of Watson Las Vegas 2016

Da mesma forma, se você está lidando com um conjunto de dados de usuários de uma rede social online, você pode facilmente converter esse conjunto de dados em uma matriz. IDs de usuário ou nomes ocupará o rows- as colunas irá listar características que melhor descrevem esses usuários.


Publicações relacionadas