Aplicando análise de componentes principais para análise preditiva

Análise de componentes principais (PCA) é uma técnica valiosa que é amplamente utilizado na análise e dados preditivos ciência. Estuda um conjunto de dados para aprender as variáveis ​​mais relevantes responsáveis ​​pela maior variação nesse conjunto de dados. PCA é principalmente usado como uma técnica de redução de dados.

Embora a construção de modelos de previsão, pode ser necessário reduzir o número de recursos que descrevem o conjunto de dados. É muito útil para reduzir essa alta dimensionalidade dos dados por meio de técnicas de aproximação, em que PCA destaca. Os dados aproximada resume todas as variações importantes dos dados originais.

Por exemplo, o conjunto de recursos de dados sobre stocks podem incluir os preços das ações, altas diárias e baixos, os volumes de negociação, médias móveis de 200 dias, índices de preço-salário, força relativa a outros mercados, taxas de juros e força das moedas.

Encontrar as variáveis ​​preditivas mais importantes é o cerne da construção de um modelo preditivo. A forma como muitos têm feito isso é usando uma abordagem de força bruta. A idéia é começar com o maior número de variáveis ​​relevantes, como você pode, em seguida, usar uma abordagem funil para eliminar características que não têm qualquer impacto, ou nenhum valor preditivo.

A inteligência e insight é trazido a este método, envolvendo partes interessadas no negócio, porque eles têm alguns palpites sobre quais variáveis ​​terão o maior impacto na análise. A experiência dos cientistas de dados envolvidos no projeto também é importante para saber quais variáveis ​​para trabalhar e quais algoritmos para usar um tipo de dados específico ou um problema específico do domínio.

Video: Reconhecimento de Padrões - USP - (PCA) Análise de Componentes Principais - 00de11

Para ajudar com o processo, os cientistas de dados empregam muitas ferramentas de análise preditiva que tornam mais fácil e mais rápido para executar várias permutações e análises sobre um conjunto de dados, a fim de medir o impacto de cada variável sobre esse conjunto de dados.

Sabendo que há uma grande quantidade de dados para trabalhar, você pode empregar PCA para obter ajuda.

Video: PCA - Análise por componentes principais - Quimiometria

Reduzindo o número de variáveis ​​que você olha é motivo suficiente para empregar PCA. Além disso, usando PCA você está protegendo-se automaticamente a partir overfitting o modelo.



Certamente, você poderia encontrar correlação entre dados meteorológicos num determinado país e o desempenho de seu mercado de ações. Ou com a cor de sapatos de uma pessoa e a rota que ela ou ele leva para o escritório, e o desempenho de sua carteira para esse dia. No entanto, incluindo as variáveis ​​em um modelo preditivo é mais do que apenas overfitting, é enganosa e leva a previsões falsas.

APC usa uma abordagem matematicamente válida para determinar o subconjunto do conjunto de dados que inclui o Features- mais importante na construção de seu modelo em que conjunto de dados menor, você terá um modelo que tem valor preditivo para o maior conjunto de dados em geral, você está trabalhando. Em suma, PCA deve ajudá-lo a fazer sentido de suas variáveis, identificando o subconjunto de variáveis ​​responsáveis ​​pela maior parte da variação com o seu conjunto de dados originais. Ele ajuda você a redundância local. Ele ajuda você a descobrir que duas (ou mais variáveis) estão dizendo a mesma coisa.

Além disso, a análise de componentes principais leva o seu conjunto de dados multidimensional e produz um novo conjunto de dados cujas variáveis ​​são representativos da linearidade das variáveis ​​no conjunto de dados original. Além disso, o conjunto de dados emitido individualmente tem variáveis ​​un-correlacionados, e sua variância é ordenada por seus componentes principais, onde o primeiro é o maior, e assim por diante. A este respeito, PCA também pode ser considerado como uma técnica para a construção de recursos.

Enquanto empregando PCA ou outras técnicas semelhantes que ajudam a reduzir a dimensionalidade do conjunto de dados que você está lidando com, você tem que sempre ter cuidado para não afetar o desempenho do modelo negativamente. Reduzir o tamanho dos dados não deve vir à custa de impactar negativamente o desempenho (a precisão do modelo preditivo). Caminhar com segurança e gerir o seu conjunto de dados com cuidado.

O aumento da complexidade de um modelo não se traduz em maior qualidade no resultado.

Video: Seleção e Redução de Atributos com PCA e FLDA

Para preservar o desempenho do modelo, pode ser necessário avaliar cuidadosamente a eficácia de cada variável, medindo a sua utilidade na elaboração do modelo final.

Sabendo que o PCA pode ser especialmente útil quando as variáveis ​​são altamente correlacionadas dentro de um determinado conjunto de dados, em seguida, ter um conjunto de dados com variáveis ​​preditivas não-correlacionados só pode complicar a tarefa de reduzir a dimensionalidade dos dados multivariados. Muitas outras técnicas podem ser usadas aqui, além do PCA, tais como seleção de recursos para a frente e eliminação recurso para trás.

PCA não é uma varinha mágica que vai resolver todos os problemas com dados multi-dimensionais. Seu sucesso é altamente dependente dos dados que você está trabalhando. A variância estatística não podem alinhar às variáveis ​​com os valores mais preditivos, mesmo que ele é seguro para trabalhar com essas aproximações.


Publicações relacionadas