Mineração de dados para big data
mineração de dados envolve explorar e analisar grandes quantidades de dados para encontrar padrões de big data. As técnicas saiu dos campos de estatísticas e de inteligência artificial (AI), com um pouco de gerenciamento de banco de dados jogados na mistura.
Geralmente, o objectivo da extracção de dados é ou classificação ou previsão. Na classificação, a idéia é classificar os dados em grupos. Por exemplo, um comerciante pode estar interessado nas características daqueles que responderam contra quem não respondeu a uma promoção.
Estas são duas classes. Na previsão, a idéia é prever o valor de uma variável contínua. Por exemplo, um comerciante pode estar interessado em prever quem vai responder a uma promoção.
algoritmos típicos usados na extracção de dados incluem o seguinte:
árvores de classificação: Uma técnica de extracção de dados popular que é utilizado para classificar uma variável categórica dependente com base em medições de uma ou mais variáveis de previsão. O resultado é uma árvore com nós e ligações entre os nós que podem ser lidos para formar regras se-então.
regressão logística: A técnica estatística que é uma variante de regressão padrão, mas estende o conceito de lidar com a classificação. Ela produz uma fórmula que prevê a probabilidade da ocorrência como uma função das variáveis independentes.
Redes neurais: Um algoritmo de software que é modelado após a arquitetura paralela de cérebros de animais. A rede consiste em nós de entrada, as camadas escondidas, e nós de saída. Cada unidade é atribuído um peso. Os dados são apresentados ao nó de entrada, e por um sistema de tentativa e erro, o algoritmo ajusta os pesos até que ele atenda a determinados critérios de parada. Algumas pessoas têm comparado este a uma abordagem caixa-preta.
técnicas de agrupamento como K-vizinhos mais próximos: Uma técnica que identifica grupos de registos semelhantes. O mais próximo K técnica vizinho calcula as distâncias entre o registro e os pontos nos dados históricos (treinamento). Em seguida, atribui esse registro para a classe de seu vizinho mais próximo em um conjunto de dados.
Aqui está um exemplo árvore de classificação. Considere a situação em que uma empresa de telefonia quer determinar quais os clientes residenciais são susceptíveis de desconectar seu serviço.
A companhia telefônica tem informações que consiste nos seguintes atributos: quanto tempo a pessoa teve o serviço, o quanto ele gasta com o serviço, se o serviço tem sido problemática, se ele tem o melhor plano de chamadas que ele precisa, onde mora, como idade dele, se ele tem outros serviços agrupados, informações sobre a concorrência relativas a outros planos de operadoras, e se ele ainda tem o serviço.
Claro, você pode encontrar muitos mais atributos do que isso. O último atributo é o resultado Variável é isso que o software será usado para classificar os clientes em um dos dois grupos - talvez chamados stayers e riscos de voos.
O conjunto de dados é dividido em dados de treinamento e um conjunto de dados de teste. Os dados de treinamento consiste de observações (chamados atributos) e uma variável de resultado (binário no caso de um modelo de classificação) - neste caso, os stayers ou os riscos de voos.
O algoritmo é executado sobre os dados de treinamento e vem com uma árvore que pode ser lido como uma série de regras. Por exemplo, se os clientes têm sido com a empresa por mais de dez anos e eles são mais de 55 anos de idade, eles tendem a permanecer como clientes leais.
Estas regras são, em seguida, passar por cima os dados de teste definidos para determinar o quão bom este modelo está em “dados novos.” Medidas de precisão são fornecidos para o modelo. Por exemplo, uma técnica popular é a matriz de confusão. Esta matriz é uma tabela que fornece informações sobre quantos casos foram classificados corretamente contra incorretamente.
Se o modelo parece ser bom, ele pode ser implantado em outros dados, uma vez que está disponível (ou seja, usá-lo para prever novos casos de risco de fuga). Com base no modelo, a empresa pode decidir, por exemplo, para enviar ofertas especiais para os clientes a quem ele acha que são riscos de voos.