Peneirar os dados que você precisa
Quando você está de mineração de dados, às vezes você tem mais dados do que você precisa para um determinado projeto. Veja como aparar a apenas o que você precisa.
Conteúdo
Estreitando os campos
Quando você tem muitas variáveis em um conjunto de dados, ele pode ser difícil de encontrar ou ver os que lhe interessam. E se os seus conjuntos de dados são grandes, e você não precisa de todas as variáveis, mantendo os extras absorve recursos desnecessariamente. Então, às vezes você precisa manter algumas variáveis e soltar outros. A figura mostra um exemplo em KNIME, onde a ferramenta certa é chamado Filtro Coluna.
Um exemplo de configuração para esta ferramenta é mostrado na figura a seguir.
Para estreitar os campos, procure uma ferramenta de seleção de variáveis em sua data-mining aplicação- estes são encontrados com outras ferramentas para manipulação de dados. Tal como acontece com outras ferramentas de mineração de dados, os nomes variam de produto para produto. Procure variações sobre as palavras coluna, variável, ou campo, e seleção ou filtragem.
Seleção de casos relevantes
Casos com dados incompletos podem ser filtrados antes de construir o modelo. Removendo caixas incompletas é um exemplo comum de selecção de dados, ou filtragem.
Mas como você deve selecionar apenas os casos relevantes para cada segmento que lhe interessa? Você usaria uma ferramenta de seleção de dados.
A figura seguinte mostra uma ferramenta de selecção de dados noutra aplicação de extracção de dados.
A figura a seguir mostra como você pode configurar essa ferramenta para um outro tipo de seleção, um com base no valor de uma variável.
É comum usar esse tipo de seleção de dados, e alguns aplicativos fornecem todos os tipos de funções incorporadas para ajudar a definir exatamente os casos que você deseja. Este tem alguns excepcional Features- ele exibe estatísticas de resumo para a variável e lhe diz exatamente quantos casos atender aos critérios de seleção.
Video: VLOG - O QUE FAZER EM UMA PENEIRA DE FUTEBOL
A maioria das aplicações de mineração de dados tem ferramentas para seleccionar apenas os casos que você precisa. Olhe nos menus (ou procure) para selecionar ou filtro.
Amostragem
A noção popular nos dias de hoje é que mais dados são melhores dados. Esta não é uma ideia nova. aplicações de mineração de dados sempre foram desenvolvidos para trabalhar com grandes quantidades de dados. Mesmo a “mineração de dados” nome sugere grandes quantidades. Mas, muitas vezes, trabalhando com uma amostra de seus dados vai lhe dar a informação que é tão útil, facilitar o seu trabalho, e conservar seu tempo e recursos.
Video: TIRANDO AS PELÍCULAS DAS GEMAS
A amostragem desempenha um papel importante na mineração de dados. Se os dados são relação que significa que o modelo usado um número igual de casos em cada um dos grupos a serem comparadas (em que exemplo, os grupos eram propriedades que mudou de mãos e propriedades que não), apesar de um grupo teve muitos casos mais do que o outra nos dados originais.
Mais tarde, os dados foram divididos, separado em um subconjunto a ser usado para a formação de um modelo e outro para o teste. Usando apenas uma amostra de dados em um paralelo coordenadas de plotagem pode torná-lo mais fácil de ver e interpretar. (Scatterplots com milhares de pontos pode ser incrivelmente difícil de ler!) Talvez o mais importante de tudo, a amostragem apenas reduz a quantidade de dados, então as coisas correr mais rápido.