Aproveitando a decomposição em valores singulares para análise preditiva

Você pode alavancar decomposição em valores singulares de análise preditiva. decomposição do valor singular (SVD) representa um conjunto de dados, eliminando as partes menos importantes e gerando uma aproximação precisa do conjunto de dados originais. A este respeito, SVD e PCA são métodos de redução de dados.

SVD terá uma matriz como uma entrada e decompor-se-o em um produto de três matrizes simples.

Um m por n matriz M pode ser representada como um produto de três outras matrizes como se segue:

H = U * S * V T

Onde L é uma matriz m por r, V é um n por matriz r, e S é um r r por matriz-, onde r é a posição da matriz M. A * representa a multiplicação de matrizes. T indica a transposição da matriz.

Video: Valores singulares



Em uma matriz de dados, onde menos conceitos podem descrever os dados, ou pode relacionar-se as colunas da matriz de dados para as suas filas, em seguida, SVD é uma ferramenta muito útil para extrair estes conceitos. Por exemplo, uma força conjunto de dados contém avaliações dos livros, onde as opiniões são as linhas e livros das colunas. Os livros podem ser agrupadas por tipo ou de domínio, tais como literatura e ficção, história, biografias, crianças ou livros adolescentes. Esses serão os conceitos que SVD podem ajudar extrato.

Estes conceitos devem ser significativas e conclusiva. Se se mantiver a apenas alguns conceitos ou dimensões para descrever um conjunto de dados maior, a nossa aproximação não será tão preciso. Isto é principalmente por isso que é importante para eliminar apenas conceitos que são menos importantes e não é relevante para o conjunto de dados em geral.

Video: Valores singulares 3

indexação semântica latente é uma técnica de processamento de mineração de dados e linguagem natural que é usado na recuperação de documentos e palavra similaridade. indexação semântica latente emprega SVD aos documentos do grupo para os conceitos que poderia consistir em diferentes palavras encontradas nesses documentos. O universo de palavras podem ser muito grandes, e as várias palavras podem ser agrupados em um conceito. SVD ajuda a reduzir a correlação barulhento entre essas palavras e os seus documentos, e dá-lhe uma representação desse universo usando muito menos dimensões do que o conjunto de dados originais.

É mais fácil ver que os documentos a discutir temas semelhantes pode usar palavras diferentes para descrever esses mesmos temas. Um documento descrevendo leões no Zimbabwe e outro documento que descreve elefantes no Quênia devem ser agrupadas. Então você confiar em conceitos (vida selvagem em África, neste caso), não palavras, para agrupar esses documentos. A relação entre os documentos e suas palavras é estabelecida com esses conceitos ou tópicos.

SVD e PCA têm sido utilizados na classificação e clustering. Gerando esses conceitos é apenas uma forma de classificação e agrupamento dos dados. Ambos também têm sido utilizados para filtragem colaborativa.


Publicações relacionadas