8 Melhores práticas na preparação de dados

pacotes de software estatísticos são extremamente poderosos nos dias de hoje, mas eles não podem superar os dados de má qualidade. A seguir está uma lista de coisas que você precisa fazer antes de ir para fora a construção de modelos estatísticos.

Verifique os formatos de dados

Sua análise começa sempre com um arquivo de dados brutos. arquivos de dados brutos vêm em muitas formas e tamanhos diferentes. dados de mainframe é diferente de dados do PC, os dados planilha é formatado de forma diferente do que os dados da web, e assim por diante. E na idade de big data, você certamente irá ser confrontado com dados de uma variedade de fontes. Seu primeiro passo na análise de seus dados é ter certeza que você pode ler os arquivos que você está dado.

Você precisa realmente olhar para o que cada campo contém. Por exemplo, não é sábio confiar que só porque um campo está listada como um campo de caractere, ele realmente contém dados de caracteres.

Verifique os tipos de dados

Todos os dados cai em uma das quatro categorias que afetam o tipo de estatísticas você pode apropriadamente aplicar-lhe:

  • dados nominal é essencialmente apenas um nome ou um identificador.

  • dados ordinal coloca registros em ordem do menor para o maior.

  • dados de intervalo de valores onde representa as diferenças entre eles são comparáveis.

  • dados proporção é como dados de intervalo, exceto que ele também permite um valor de 0.

    Video: VTV - Site Clinic - Melhores Práticas

É importante entender quais categorias seus dados cai antes de alimentá-lo para o software estatístico. Caso contrário, corre o risco de acabar com o jargão perfeitamente razoável para o futuro.

Gráfico seus dados

Conseguir um senso de como os dados são distribuídos é importante. Você pode executar procedimentos estatísticos até que você esteja azul na cara, mas nenhum deles vai lhe dar o máximo de conhecimento sobre o que os seus dados se parece como um gráfico simples.

Verificar a exactidão dos dados

Uma vez que você está confortável que os dados são formatados da maneira que você quiser, você ainda precisa ter certeza de que é preciso e que faz sentido. Este passo requer que você tenha algum conhecimento da área de assunto que está a trabalhar.

Não há realmente uma abordagem de corte e seco para verificar a precisão dos dados. A idéia básica é formular algumas propriedades que você acha que os dados devem expor e testar os dados para ver se essas propriedades segurar. São os preços das ações sempre positivo? Será que todos os códigos de produto corresponder à lista de localidades válidas? Essencialmente, você está tentando descobrir se os dados realmente é o que você foi dito que é.

identificar valores atípicos

Outliers são pontos de dados que estão fora de sintonia com o resto dos dados. Eles são ou valores muito grandes ou muito pequenos em comparação com o resto do conjunto de dados.

Outliers são problemáticas porque podem comprometer seriamente estatísticas e procedimentos estatísticos. Um único outlier pode ter um enorme impacto sobre o valor da média. Porque a média é suposto representar o centro de dados, em certo sentido, este outlier torna o inútil média.



Quando confrontados com valores atípicos, a estratégia mais comum é para excluí-los. Em alguns casos, porém, você pode querer levá-los em conta. Nesses casos, geralmente é desejável fazer a sua análise duas vezes - uma vez com valores atípicos incluído e uma vez com os valores atípicos excluídos. Isso permite que você avaliar qual método dá resultados mais úteis.

Lidar com valores em falta

Os valores em falta são um dos problemas de dados mais comuns (e irritante) você vai encontrar. Seu primeiro impulso pode ser a cair registros com valores faltando em sua análise. O problema com isto é que os valores em falta muitas vezes não são apenas aleatórias falhas de dados pequenos.

Video: Melhores Práticas de Recrutamento | Planilhas, Gmail, Drive, Formulários | Apps Show Brasil

Verifique suas suposições sobre como os dados são distribuídos

Muitos procedimentos estatísticos dependem da hipótese de que os dados são distribuídos de uma determinada maneira. Se essa suposição deixa de ser o caso, a precisão de suas previsões sofre.

A hipótese mais comum para as técnicas de modelação descritos neste livro é que os dados são normalmente distribuídos.

Ou não. Nos casos em que os dados não são distribuídos como você precisa que ele seja, nem tudo está necessariamente perdido. Há uma variedade de formas de transformar os dados para obter a distribuição na forma que você precisar dele.

Uma das melhores maneiras de verificar a precisão de um modelo estatístico é realmente testá-lo contra os dados uma vez que é construído. Uma maneira de fazer isso é dividir aleatoriamente o conjunto de dados em dois arquivos. Você pode chamar estes ficheiros de análise e de teste, respectivamente.

Você precisa dividir os dados aleatoriamente para ser eficaz. Você não pode simplesmente dividir o conjunto de dados na metade superior e metade inferior, por exemplo. Quase todos os arquivos de dados são classificadas de alguma forma - por data, se nada mais. Isto introduz padrões sistemáticos que lhe dão diferentes partes do arquivo diferentes propriedades estatísticas. Quando você dividir o arquivo aleatoriamente, você dá a cada registro de uma chance igual de ser em qualquer arquivo. Figurativamente, você está lançando uma moeda para cada registro para decidir qual arquivo ele vai para. Aleatoriedade dá ambos os arquivos as mesmas propriedades estatísticos como os dados originais.

Uma vez que você dividir o conjunto de dados, anular o arquivo de teste. Em seguida, avance para construir o seu modelo preditivo utilizando o ficheiro de análise. Uma vez que o modelo é construído, aplicá-lo para o arquivo de teste e ver como ele faz.

Testando modelos desta forma ajuda a proteger contra um fenômeno conhecido como excesso de montagem. Essencialmente, é possível para procedimentos estatísticos para memorizar o arquivo de dados, em vez de descobrir relações significativas entre as variáveis. Se ocorrer montagem over-, o modelo irá testar muito mal contra o arquivo de teste.

Fazer backup e documentar tudo que você faz

Como o software estatístico está começando a ser tão simples de usar, é um pedaço de bolo para começar a gerar relatórios e gráficos, para não mencionar os arquivos de dados. Você pode executar procedimentos literalmente com o toque de um botão. Você pode gerar várias dezenas de gráficos com base em diferentes transformações de dados em questão de poucos minutos. Isso faz com que seja muito fácil perder o controle do que você tem feito, e por quê.

É importante certificar-se de que você mantenha um registro escrito do que você está fazendo. Os gráficos devem ser rotulados com o nome (e versão) dos dados que foi usado para criá-los. Os procedimentos estatísticos que você construir precisam ser salvos e documentado.

Também é importante fazer backup de seus arquivos de dados. No curso de sua análise, você provavelmente irá criar várias versões de seus dados que refletem várias correções e transformação de variáveis. Você deve salvar os procedimentos que criaram estas versões. Eles também devem ser documentados de forma que descreve o que Transformações você fez e por quê.

Documentação não é de ninguém tarefa favorita, mas falo por experiência própria quando nós encorajamos fortemente que você não confiar em sua memória quando se trata de seus projetos de análise.

Ao trabalhar com as etapas descritas acima, você maximizar a confiabilidade de seus modelos estatísticos. Em muitos casos, o trabalho de preparação é realmente mais demorada do que a construção do modelo real. Mas é necessário. E você vai agradecer a si mesmo no final para trabalhar com ele metodicamente.


Publicações relacionadas