Organização de dados para mineração
mineração de dados tem requisitos muito rigorosos para a organização de dados. Eles não são exóticos, complexo ou difícil requisitos para atender, mas eles são rigorosos. A figura mostra um exemplo de dados vistos como uma tabela em software de exploração de dados.
Cada linha representa uma parcela de imóveis. Informações sobre as parcelas de imóveis é organizado em colunas. A primeira coluna contém o número de identificação fiscal (TAXKEY), a segunda coluna contém o valor de avaliação do solo a partir de uma avaliação prévia (P_A_LAND), e assim por diante.
Cada entrada em qualquer uma linha pertence a uma parcela específica de terreno. Cada entrada em qualquer uma coluna é o mesmo tipo de informação. Não há linhas ou colunas são deixadas em branco por razões de estilo e legibilidade. Estes dados poderão ser devidamente organizado para investigar diferenças entre as parcelas de imóveis.
Se, em vez de imóveis, você investigar pessoas, cada pessoa seria representado por uma linha nos dados, e todos os detalhes sobre as pessoas seriam organizados em colunas. Se você investigar radiografia de tórax, cada radiografia de tórax seria representado por uma linha nos dados, e todos os detalhes sobre as radiografias do tórax seria organizado em colunas.
Video: Mineração de Regras de Associação com o Weka - Parte 1
Na terminologia de análise de dados, as coisas que você está estudando - as coisas nas linhas - são chamados casos ou registros. E os detalhes sobre eles, que estão nas colunas, são chamados variáveis. Você também vai ouvir as colunas chamadas Campos, especialmente no contexto dos bancos de dados.
Então, mineração de dados requer dados organizados com uma única linha para cada caso e uma única coluna para cada variável. Muitas fontes de dados já estão organizados desta forma. Os estatísticos organizar os dados desta forma pelo hábito. profissionais de banco de dados não pode usar essa abordagem para muito do seu trabalho, mas eles geralmente vai entender o que você quer se você chamá-lo um mesa plana.
Você vai encontrar variações sutis na estrutura de dados. Alguns tipos de software utilizar informação descritiva em um cabeçalho antes dos dados, tais como certos formatos especiais associados com as aplicações de mineração de dados laranja e Weka. Alguns procedimentos analíticos complexos têm requisitos adicionais ou ligeiramente variadas (estes são bastante invulgar). Mas o núcleo dos dados tem ainda os casos em linhas e variáveis em colunas.