Faltando valores em seus dados

Um dos problemas de dados mais frequentes e messiest para lidar com falta de dados. Os arquivos podem ser incompleta porque os registros foram descartados ou um dispositivo de armazenamento preenchido. Ou determinados campos de dados pode não conter dados para alguns registros. O primeiro desses problemas pode ser diagnosticada por simplesmente verificar a contagem de registro para arquivos. O segundo problema é mais difícil de lidar.

Para colocá-lo em termos simples, quando você encontrar um campo que contém valores em falta, você tem duas escolhas:

  • Ignore isto.

  • Furar algo no campo.

Video: Teorema de Pitágoras - calculando valor de cateto.MP4

Ignorar o problema

Em alguns casos, você pode simplesmente encontrar um único campo com um grande número de valores em falta. Se assim for, a melhor coisa a fazer é simplesmente ignorar o campo. Não incluí-lo em sua análise.

Outra maneira de ignorar o problema é ignorar o registro. Simplesmente excluir o registro contendo os dados em falta. Isso pode fazer sentido se houver apenas alguns registros desonestos. Mas se houver vários campos de dados que contêm um número significativo de valores em falta, esta abordagem pode encolher contar seu registro a um nível inaceitável.

Outra coisa a olhar para fora antes simplesmente excluir registros qualquer sinal de um padrão. Por exemplo, suponha que você está analisando um conjunto de dados relativos a saldos de cartão de crédito em todo o país. Você pode muito bem encontrar um monte de registros mostrando $ 0,00 saldos (talvez cerca de metade dos registros). Esta não é em si uma indicação de dados em falta. No entanto, se todos os registros de, digamos, Califórnia estão mostrando $ 0,00 saldos, que indica um potencial problema de valores em falta. E não é aquele que iria ser utilmente resolvido por excluir todos os registros do maior estado do país. Neste caso, é provavelmente uma questão de sistemas e indica que um novo arquivo deve ser criado.

Video: Me Salva! GP11 - Triângulo retângulo 30-60 e 45 graus, método ninja!



Em geral, a exclusão de registros é uma tarefa fácil, mas não é o ideal, solução para os problemas de valor em falta. Se o problema é relativamente pequeno e não há um padrão discernível às omissões, então ele pode ser bom para descartar os registros de ofensa e seguir em frente. Mas frequentemente uma abordagem mais intelectual é justificada.

Preenchendo os dados ausentes

Preenchendo os dados faltando equivale a fazer um palpite sobre o que teria sido nesse campo. Há boas e más maneiras de fazer isso. Uma simples (mas ruim) abordagem é substituir os valores em falta com a média dos que não ausentes. Em campos não numéricos, você pode ser tentado para preencher os registros que faltam com o valor mais comum nos outros registros (o modo).

Video: Recuperando valores multiplos com campo select multiple

Estas abordagens são, infelizmente, ainda freqüentemente usado em algumas aplicações de negócios. Mas eles estão amplamente considerada por estatísticos como más idéias. Por um lado, toda a ponto de fazer análise estatística é encontrar dados que diferencia um resultado de outro. Ao substituir todos os registros que faltam com o mesmo valor, você não tem diferenciado nada.

A abordagem mais intelectual é tentar encontrar uma maneira de prever de forma significativa o valor deve ser preenchido em cada registro que está faltando um valor. Trata-se de olhar para os registros completos e tentando encontrar pistas sobre o que o valor em falta pode ser.

Suponha que você está analisando um arquivo demográfica para prever compradores prováveis ​​de um de seus produtos. Nesse arquivo que você tem, entre outras áreas, a informação sobre o estado civil, número de filhos e número de automóveis. Por alguma razão, o número de campo autos está faltando em um terço dos registros.

Ao analisar os outros dois campos - estado civil e número de filhos - você pode descobrir alguns padrões. Único pessoas tendem a ter um carro. As pessoas casadas sem filhos tendem a ter dois carros. As pessoas casadas com mais de um filho pode ser mais propensos a ter três carros. Desta forma, você pode adivinhar os valores ausentes de uma forma que realmente diferencia os registros. Mais informações sobre esta abordagem para vir.

Video: #27 - Curso de Macros e Excel VBA - Alterar dados na planilha

Não é um termo geral nas estatísticas e processamento de dados que se refere a dados questionáveis. O termo barulhento é usada para descrever os dados que não é fiável, corromper, ou de outra forma menos do que intocada. Falta de dados é apenas um exemplo disso. Uma descrição detalhada das técnicas de limpeza de dados ruidosos, em geral, está além do escopo deste livro. Na verdade, esta é uma área ativa de pesquisa em teoria estatística. O fato de que todo o ruído não é tão fácil de detectar valores como em falta torna problemático para lidar com eles.


Publicações relacionadas