Construir sobre scatterplots básicos
mineiros de dados, muitas vezes tirar proveito dos recursos especiais para embalar mais informações em gráficos simples. Etiquetas, sobreposições e seleção interativa são características de aplicações de mineração de dados, características especiais que permitem que você seja mais produtivo.
Conteúdo
Quilometragem diminui à medida que aumenta a potência, como visto na figura a seguir.
Quilometragem aumenta com o tempo, como você pode ver, uma dispersão de quilometragem em relação ao ano modelo. Seria útil para obter essas duas idéias em um gráfico.
Video: Scatter Plots
data-mining abordagens comuns para a integração de mais de duas variáveis em um gráfico incluem
Marcadores: Os rótulos são valores de uma string ou variável categórica que foram sobrepostos no gráfico de dispersão. A figura a seguir mostra um gráfico de dispersão rotulado com o ano do modelo do carro.
Conjuntos de dados com muitos pontos ou etiquetas longos pode fazer essas paradas ilegível, embora! A solução é para usar apenas uma amostra dos dados. Configuração para este tipo de amostragem é mostrado na figura a seguir.
sobreposições: Com sobreposições, valores de uma variável categórica definir a forma ou a cor dos pontos. A figura a seguir mostra a configuração para um gráfico de dispersão para sobrepor ano modelo na dispersão quilometragem-versus-cavalos de potência.
A dispersão sobreposição exportado aparece na imagem a seguir. Pode ser mais fácil de ler sobreposições de cores que a forma ponto sobreposições. A configuração é geralmente muito mais o mesmo.
Outro aspecto a ter em mente com scatterplots: Você pode ter vários pontos de queda no mesmo local! Se assim for, você pode não ser capaz de dizer um ponto para um caso de um ponto para 100 casos. O remédio é para verificar se há uma opção para fazer várias instâncias visível. Olhe para o tamanho do ponto ou jitter (pontos move ligeiramente fora de seus verdadeiros locais para fazer todas elas visíveis) opções.
scatterplots interativos são grandes poupadores de tempo para os mineiros de dados.
Digamos que você vê um grupo interessante de casos em um gráfico, e você quer continuar a investigar apenas os casos. Se você está olhando para apenas um ou dois pontos, que você pode obter a informação que você quer pairando, mas isso não é satisfatório quando você está interessado em mais do que um par de pontos.
ferramentas de seleção de dados em gráficos de dispersão interativos dar-lhe mais poder para selecionar dados. A figura seguinte mostra a mesma configuração gráfico, mas com um grupo de pontos seleccionados clicando e arrastando o rato em torno deles. Este não é apenas uma característica visual.
Você pode exportar os pontos selecionados como um novo conjunto de dados. Isto é muito útil e rápido!
Se os pontos que você precisa não se encaixam muito bem em uma seleção retangular, você tem outras opções. Veja a área de Zoom / Select. Você pode ver um botão com um retângulo de seleção retangular e outro com um formato arredondado para seleção de forma livre.
Video: Scatter Plot - Correlation
Aqui está um exemplo de seleção de forma livre usando dados sobre o teor de nicotina dos cigarros vendidos em diferentes partes do mundo. Este gráfico de dispersão mostra nicotina por cigarro, para amostras das seis regiões das Nações Unidas. (Este é um uso não-tradicional de um gráfico de dispersão, porque a região não é uma Variável contínua é categórica. Mineiros de dados muitas vezes usam ferramentas tradicionais de formas não tradicionais.)
Os pontos dentro de uma região não cair em uma linha vertical perfeita. Pequenas mudanças (jitter) à esquerda e à direita são feitas por apenas legibilidade e aparência. Alguns cigarros têm níveis excepcionalmente elevados de nicotina, e que pretende seleccionar os casos.
Um menu drop-down oferece opções de seleção. Polígono de seleção permite que você marque uma área de forma livre na dispersão.
Video: Scatter Plot for Multiple Regression
Para marcar, clique no gráfico para fazer um ponto de partida, e depois clique novo e de novo em torno do grupo de pontos que você quer até que você tenha feito a forma que você precisa.
Um direito; clique indica que você tiver concluído o selecção- isso é visível a partir do destaque no gráfico.