Como preparar os dados em um modelo de análise preditiva de classificação r
Video: Motorola Defy+ MB526 - Análise do Aparelho [Review Brasil]
Conteúdo
Para executar uma análise preditiva, você tem que obter os dados em um formulário que o algoritmo pode usar para construir um modelo. Para fazer isso, você tem que levar algum tempo para entender os dados e para saber sua estrutura. Digite a função de descobrir a estrutura dos dados. Aqui está o que parece:
gt; str (sementes) `data.frame`: 210 obs. de 8 variáveis: $ V1: num 15,3 14,9 14,3 13,8 16,1 ... $ V2: num 14,8 14,6 14,1 13,9 15 ... $ V3: num 0,871 0,881 0,905 0,895 0,903 ... $ V4: num 5,76 5,55 5,29 5,32 5,66. .. $ V5: Nm 3,31 3,33 3,34 3,38 3,56 ... $ V6: Nm 2,22 1,02 2,7 2,26 1,35 ... $ V7: Nm 5,22 4,96 4,83 4,8 5,17 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ...
De olhar para a estrutura, você pode dizer que os dados precisam um passo de pré-processamento e um passo de conveniência:
Video: Goals of EDA - Data Analysis with R
Renomear os nomes das colunas. Isto não é estritamente necessário, mas para os fins deste exemplo, é mais conveniente usar nomes de coluna você pode entender e lembrar.
Altere o atributo com valores categóricos a um fator. A etiqueta tem três categorias possíveis.
Para renomear as colunas, digite o seguinte código:
gt; COLNAMES (sementes) lt; -
c ("área","perímetro","compacidade","comprimento", "largura","assimetria","length2","seedType")
Video: Curso de Estatística Análise multivariada de dados para o processo de tomada de decisões Modelagem 2
Em seguida, altere o atributo que tem valores categóricos a um fator. O código a seguir altera o tipo de dados a um fator:
gt; sementes $ seedType lt; - Fator (sementes $ seedType)
Este comando termina a preparação dos dados para o processo de modelação. O que se segue é uma vista da estrutura após o processo de preparação de dados:
gt; str (ervas daninhas) `data.frame`: 210 obs. de 8 variáveis: $ da área: Num 14,9 14,3 13,8 15,3 16,1 perímetro ... $: Num 14,8 14,6 14,1 13,9 15 ... $ compacidade: num 0,881 0,905 0,895 0,871 0,903 ... $ length: num 5,76 5,55 5,29 5,32 5,66. .. $ largura: Nm 3,31 3,33 3,34 3,38 3,56 ... $ assimetria: Nm 2,22 1,02 2,7 2,26 1,35 ... $ length2: Nm 5,22 4,96 4,83 4,8 5,17 ... $ seedType: Fator w / 3 níveis "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...