Como gerar dados derivados e reduzir a sua dimensionalidade para análise preditiva
Nesta fase de exploração de análise preditiva, você vai ganhar conhecimento íntimo de seus dados - que por sua vez vai ajudar você a escolher as variáveis relevantes para analisar. Esse entendimento também irá ajudá-lo a avaliar os resultados de seu modelo. Mas primeiro você tem de identificar e limpar os dados para análise.
Como gerar dados derivados
atributos derivados são inteiramente novos registros construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros de identificação de livros que são best-sellers em feiras do livro. Os dados brutos podem não capturar esses registros - mas para fins de modelagem, os registros derivados pode ser importante. Preço-per-ganhos proporção e 200 dias média móvel são dois exemplos de dados derivados que são muito utilizadas em aplicações financeiras.
atributos derivados podem ser obtidos a partir de cálculo simples, como deduzir a idade a partir da data de nascimento. atributos derivados também pode ser calculado por resumir informação de vários registros.
Por exemplo, a conversão de uma tabela de clientes e seus livros comprados em uma tabela pode permitir-lhe controlar o número de livros vendidos através de um sistema de recomendação, através de marketing alvejado, e numa feira de livros - e identificar o grupo demográfico de clientes que compraram esses livros .
Gerar tais atributos adicionais trazer poder preditivo adicional para a análise. Na verdade, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar atributos mais derivados do que os atributos em seu estado bruto. Se alguns atributos derivados provar especialmente preditiva e seu poder é provado ser relevante, então faz sentido para automatizar o processo que os gera.
registros derivados são novos registros que trazem novas informações e fornecer novas formas de apresentação data- crua que pode ser de enorme valor para modelagem preditiva.
Como reduzir a dimensionalidade dos dados
Os dados utilizados em modelos preditivos é normalmente reunidos a partir de múltiplas fontes. Sua análise pode desenhar a partir de dados espalhados por vários formatos de dados, arquivos e bancos de dados ou várias tabelas dentro do mesmo banco de dados. Reunindo os dados juntos e combinando-o em um formato integrado para os modeladores de dados para usar é essencial.
Se os dados contém qualquer conteúdo hierárquico, ele pode precisar de ser achatado. Alguns dados tem algumas características hierárquicas tais como relações pai-filho, ou um registro que é composta de outros registros. Por exemplo, um produto como um carro pode ter vários dados achatamento makers-, neste caso, significa a inclusão de cada fabricante como um recurso adicional do registro que você está analisando.
Achatamento de dados é essencial quando se fundiu a partir de vários registros relacionados para formar uma imagem melhor.
Por exemplo, analisando os eventos adversos para várias drogas feitas por várias empresas podem exigir que os dados sejam achatados no nível de substâncias. Ao fazer isso, você acaba de retirar a um-para-muitos relacionamentos (Neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que se repetem informações sobre o produto e máquina em cada entrada.
Achatamento reduz o dimensionalidade dos dados, o qual é representado pelo número de características de uma ficha ou uma observação tem.
Por exemplo, um cliente pode ter as seguintes características: nome, idade, endereço, itens comprados. Quando você começar a sua análise, você pode encontrar-se avaliando registros com muitos recursos, das quais apenas algumas são importantes para a análise. Portanto, você deve eliminar todos, mas muito poucos recursos que têm o poder mais preditivo para seu projeto específico.
Reduzir a dimensionalidade dos dados pode ser alcançado por colocar todos os dados em uma única tabela que utiliza várias colunas para representar os atributos de interesse. No início da análise, é claro, a análise tem de avaliar um grande número de colunas - mas esse número pode ser reduzida como a análise progride.
Este processo pode ser auxiliado por reconstituir os campos - por exemplo, ao agrupar os dados em categorias que têm características semelhantes.
O conjunto de dados resultante - o conjunto de dados limpos - é normalmente colocado em um banco de dados separado para os analistas de usar. Durante o processo de modelagem, esses dados devem ser facilmente acessado, gerenciado e mantido até à data.