Algoritmos de classificação utilizados na ciência de dados
Com algoritmos de classificação, você tomar um conjunto de dados existente e usar o que você sabe sobre ele para gerar um modelo preditivo para uso na classificação de pontos de dados futuros. Se seu objetivo é usar o seu conjunto de dados e seus subconjuntos conhecidos para construir um modelo para prever a categorização de pontos de dados futuros, você vai querer usar algoritmos de classificação.
Video: Hitler Reprovado em Estrutura de Dados
Ao implementar classificação supervisionada, você já deve saber subconjuntos dos seus dados - estes subconjuntos são chamados categorias. Classificação ajuda a ver o quão bem os seus dados se encaixa em categorias pré-definidas do conjunto de dados para que você possa, então, construir um modelo preditivo para uso na classificação de pontos de dados futuros.
A figura ilustra como ele olha para classificar renda e educação conjuntos de dados do Banco Mundial de acordo com a categoria Continente.
Você pode ver que, em alguns casos, os subconjuntos que você pode identificar com uma técnica de agrupamento correspondem à categoria continentes, mas em outros casos, eles não. Por exemplo, olhe para aquele país asiático no meio dos pontos de dados africanos. Isso é Butão. Você pode usar os dados neste conjunto de dados para construir um modelo que poderia prever uma categoria continente para os pontos de dados de entrada.
Mas se você introduziu um ponto de dados para um novo país, que mostrou estatísticas semelhantes aos do Butão, em seguida, o novo país poderia ser categorizada como sendo parte de qualquer continente asiático ou o continente Africano, dependendo de como você define o seu modelo.
Agora imagine uma situação em que seus dados originais não inclui Butão, e você usar o modelo para prever continente do Butão como um novo ponto de dados. Neste cenário, o modelo seria injustamente prever que o Butão é parte do continente Africano.
Este é um exemplo de modelo overfitting - situações em que um modelo é tão firmemente ajuste ao seu conjunto de dados subjacente, bem como o ruído ou erro aleatório inerente a este conjunto de dados, que o modelo executa mal como preditor de novos pontos de dados.
Para evitar overfitting seus modelos, divida seus dados em um conjunto de treinamento e um conjunto de teste. Uma proporção típica é de atribuir 80 por cento dos dados para o conjunto de treino e os 20 por cento restantes no conjunto de teste. Construa o seu modelo com o conjunto de treinamento, e depois usar o teste criado para avaliar o modelo, fingindo que os pontos de dados set-teste são desconhecidas. Você pode avaliar a precisão de seu modelo, comparando as categorias atribuídas a estes pontos de dados set-teste pelo modelo para os verdadeiros categorias.
Modelo overgeneralization também pode ser um problema. overgeneralization é o oposto de overfitting: Isso acontece quando um cientista de dados tenta evitar erros de classificação devido à overfitting, fazendo um modelo extremamente geral. Os modelos que são demasiado gerais acabam atribuindo a cada categoria um baixo grau de confiança.
Para ilustrar modelo de generalização, considere novamente a conjuntos de dados Educação Banco Rendimento Mundial e. Se o modelo utilizado a presença de Butão para lançar dúvidas sobre cada novo ponto de dados em sua vizinhança próxima, então você acaba com um modelo insosso que trata todos os pontos próximos como Africano, mas com uma probabilidade baixa. Este modelo seria um performer preditivo pobre.
Video: Aula sobre o QuickSort
Uma boa metáfora para overfitting e generalização pode ser ilustrado através da frase bem conhecida: “Se ele anda como um pato e fala como um pato, então é um pato.” Overfitting iria transformar essa frase em: “É um pato se, e somente se, ele anda e grasna exatamente da maneira que eu pessoalmente tenho observado um pato a andar e charlatão. Desde que eu nunca tinha observado a forma como um pato manchado australiano anda e grasna, um pato manchado australiano não deve ser realmente um pato em tudo “.
Em contraste, overgeneralization diria: “Se ele se move em torno de duas pernas e emite qualquer som estridente, nasal, é um pato. Portanto, Fran Fine, personagem de Fran Drescher nos anos 90 comédia americana The Nanny deve ser um pato.”
aprendizado de máquina supervisionado - o termo extravagante para a classificação - é apropriado em situações em que as características seguintes são verdadeiras:
Você sabe e compreende o conjunto de dados que você está analisando.
Os subconjuntos (categorias) de seu conjunto de dados são definidos antes do tempo e não são determinados pelos dados.
Você quer construir um modelo que correlaciona os dados dentro de suas categorias pré-definidas para que o modelo pode ajudar a prever a categorização de pontos de dados futuros.
Ao realizar a classificação, manter os seguintes pontos em mente:
previsões do modelo são tão bons como os dados subjacentes do modelo. No exemplo os dados do Banco Mundial, que poderia ser o caso que, se outros fatores como expectativa de vida, ou o uso de energia per capita foram adicionados ao modelo, a sua força preditiva pode aumentar.
previsões do modelo são apenas tão boa como a categorização do conjunto de dados subjacente. Por exemplo, o que você faz com países como a Rússia que se estendem por dois continentes? Você distingue Norte da África da África Subsaariana? Você fixo América do Norte com a Europa porque eles tendem a compartilhar atributos semelhantes? Você considera a América Central para ser parte da América do Norte ou América do Sul?
Há um perigo constante de overfitting e generalização. Um meio termo deve ser encontrado entre os dois.