Como preparar dados para análise preditiva

Video: InSight – Transformando seus dados em ação

Conteúdo

Video: insight – transformando seus dados em ação
Como obter o conjunto de dados de amostra
Como etiquetar seus dados
Video: 4-6# excel: análise de dados

Quando você está aprendendo uma nova linguagem de programação, é costume para escrever o programa “Olá mundo”. Para aprendizado de máquina e análise preditiva, criando um modelo para classificar o conjunto de dados Iris é sua “Olá mundo” programa equivalente. Este é um exemplo bastante simples, mas é muito eficaz para ensinar os princípios de aprendizado de máquina e análise preditiva.

Como obter o conjunto de dados de amostra

Para criar o nosso modelo preditivo, você precisa baixar a amostra Iris conjunto de dados. Este conjunto de dados está disponível gratuitamente a partir de muitas fontes, especialmente em instituições acadêmicas que têm departamentos de aprendizado de máquina. Felizmente, o pessoal da foram bom o suficiente para incluir alguns conjuntos de dados de amostra e funções de carregamento de dados junto com seu pacote. Para efeitos destes exemplos, você só precisa executar um par de linhas simples de código para carregar os dados.

Como etiquetar seus dados

Aqui está uma observação e suas características de cada classe do conjunto de dados Iris Flower.

sepal Comprimento	sepal Largura	Comprimento pétala	pétala Largura	Classe Alvo / etiqueta
5.1	3,5	1,4	0,2	Setosa (0)
7	3.2	4.7	1,4	Versicolor (1)
6,3	3,3	6	2,5	Virginica (2)

O conjunto de dados Iris Flower é um conjunto de dados multivariada real das três classes da flor Iris (Iris setosa, Iris virginica, e Iris versicolor) Introduzido por Ronald Fisher em seu artigo de 1936, “o uso de múltiplas medições em taxonômica problemas.” Este conjunto de dados é mais conhecido por sua ampla utilização na academia para aprender e estatísticas máquina.

O conjunto de dados consiste em 150 casos no total, com 50 casos a partir de cada uma das 3 classes da flor da íris. A amostra tem 4 características (também comumente chamados atributos), Que são o comprimento e largura dos sépalas e pétalas.

A parte interessante deste conjunto de dados é que as três classes são um pouco linearmente separáveis. o setosa classe pode ser separada das outras duas classes de desenho de uma linha recta no gráfico entre eles. o virginica e versicolor classes não podem ser perfeitamente separados usando uma linha reta - embora seja perto. Isto faz com que um conjunto de dados candidato perfeito para fazer análise de classificação, mas não tão bom para o agrupamento análise.

Os dados de amostra já foi marcado. A coluna da direita (etiqueta) acima mostra os nomes de cada classe da flor da íris. O nome da classe é chamado de rótulo ou um alvo- é geralmente atribuído a uma variável chamada y. É basicamente o resultado ou o resultado do que está sendo previsto.

Em estatística e modelagem, é muitas vezes referido como o variável dependente. Depende das entradas que correspondem a Sépala comprimento e largura e a pétala comprimento e largura.

Você também pode querer saber o que é diferente sobre o scikit preprocessed Iris conjunto de dados, em comparação com a base de dados original. Para descobrir isso, você precisa para obter o arquivo de dados original. Você pode fazer uma pesquisa no Google por dataset iris e baixá-lo ou vê-lo a partir de qualquer uma das instituições acadêmicas.

O resultado, que geralmente aparece em primeiro lugar é a Universidade da Califórnia Irvine do (UCI) repositório de aprendizado de máquina de conjuntos de dados. O conjunto de dados Iris em seu estado original a partir do repositório máquina-learning UCI pode ser encontrado na website UCI.

Se você baixá-lo, você deve ser capaz de vê-lo com qualquer editor de texto. Ao visualizar os dados no arquivo, você notará que há cinco colunas em cada linha. As primeiras quatro colunas são as medições (referidas como o características) Ea última coluna é o rótulo. A etiqueta difere entre o original e scikit versões do conjunto de dados Iris.

Outra diferença é a primeira linha do arquivo de dados. Ele inclui uma linha de cabeçalho usado pela scikit função de carregamento de dados. Não tem nenhum efeito sobre os próprios algoritmos.

Normalizar recursos para números em vez de mantê-los como texto torna mais fácil para os algoritmos de processo - e é muito mais eficiente para a memória. Isto é especialmente evidente se você correr muito grandes conjuntos de dados com muitas características - que é frequentemente o caso em cenários reais.

Aqui está dados da amostra de ambos os arquivos. Todas as colunas de dados são os mesmos, exceto para Col5. Observe que scikit tem nomes de classe com Labels- numérica do arquivo original tem rótulos de texto.

Video: 4-6# Excel: Análise de Dados

Fonte	col1	col2	col3	Col4	Col5
scikit	5.1	3,5	1,4	0,2	0
original	5.1	3,5	1,4	0,2	Iris-setosa
scikit	7	3.2	4.7	1,4	1
original	7	3.2	4.7	1,4	Iris-versicolor
scikit	6,3	3,3	6	2,5	2
original	6,3	3,3	6	2,5	Iris-virginica