Como decidir se quer manter os outliers em análise preditiva
Video: Estatística Descritiva - Outliers, boxplot e padronização
Conteúdo
Decidir para incluir valores discrepantes na análise - ou excluí-los - terá implicações para o seu modelo de análise preditiva. Manter os outliers como parte dos dados na sua análise pode levar a um modelo que não é o caso - ou aos valores atípicos ou para o resto dos dados.
Se você decidir manter um outlier, você precisa escolher técnicas e métodos estatísticos que se destacam em lidar com valores atípicos sem influenciar a análise. Uma dessas técnicas é a utilização de funções matemáticas tais como algoritmos naturais e raiz quadrada para reduzir a diferença entre os valores extremos e o resto dos dados.
Estas funções, no entanto, só funcionam para dados numéricos que é maior do que zero - e podem surgir outras questões. Por exemplo, transformando os dados podem exigir interpretações da relação entre as variáveis nos dados recém-transformadas que diferem da interpretação que regula estas variáveis nos dados originais.
Video: Lecture 16 - Radial Basis Functions
A mera presença de outliers em seus dados pode fornecer insights sobre o seu negócio que pode ser muito útil na geração de um modelo robusto. Outliers podem chamar a atenção para um caso de negócio válido que ilustra um pouco significativo evento incomum.
Procurando por valores atípicos, identificando-os, e avaliar o seu impacto deve ser parte de análise de dados e pré-processamento. especialistas no domínio do negócio pode fornecer informações e ajudar a decidir o que fazer com casos incomuns em sua análise. Embora o senso comum às vezes é tudo que você precisa para lidar com valores extremos, muitas vezes é útil para pedir a alguém que conhece as cordas.
Se você estiver em um negócio que beneficia de eventos raros - digamos, um observatório astronômico com uma bolsa para estudar asteróides-cruzar-órbita da Terra - você está mais interessado nos valores discrepantes do que na maior parte dos dados.
Outliers pode ser uma grande fonte de informação. Desviando a norma poderia ser um sinal de atividade suspeita, notícias de última hora, ou um evento oportunista ou catastrófico. Pode ser necessário desenvolver modelos que ajudam a identificar outliers e jumentos os riscos que eles significam.
Video: All the Slender Ladies: Body Diversity in Video Games
É prudente para realizar duas análises: uma que inclui os outliers, e outro que os omite. Em seguida, examinar as diferenças, tentar compreender as implicações de cada método, e avaliar como adotar um método sobre o outro iria influenciar seus objetivos de negócio.