Noções básicas de filtros de análise preditiva com base em conteúdo

Baseada em conteúdo

sistemas de análise de recomendação preditivos principalmente corresponder características (palavras-chave tag) entre itens semelhantes e perfil do usuário para fazer recomendações. Quando um usuário compra um item que tem marcado recursos, itens com características que correspondem aos do item original será recomendada. Quanto mais recursos corresponder, maior a probabilidade do usuário vai gostar da recomendação. Este grau de probabilidade é chamado precisão.

Noções básicas de tags para descrever itens

Em geral, a empresa fazendo a venda (ou o fabricante) normalmente etiquetas seus artigos com palavras-chave. No site da Amazon, no entanto, é bastante típico para nunca mais ver as tags para todos os itens comprados ou vistos - e nem mesmo de ser convidado para marcar um item. Os clientes podem rever os itens que você comprou, mas isso não é o mesmo que tagging.

itens de marcação pode representar um desafio de escala para uma loja como a Amazon que tem tantos itens. Além disso, alguns atributos podem ser subjetivo e pode ser marcado incorretamente, dependendo de quem o identifica. Uma solução que resolve a questão de escala é permitir que os clientes ou o público em geral para marcar os itens.

Para manter as etiquetas controlável e precisa, um conjunto aceitável de etiquetas podem ser fornecidas pelo site. Somente quando um número apropriado de usuários concordam (ou seja, usar a mesma tag para descrever um item), será o acordado tag ser usado para descrever o item.

Baseada no usuário tagging, no entanto, transforma-se outros problemas para um sistema de filtragem baseada em conteúdo (e filtragem colaborativa):

  • Credibilidade: Nem todos os clientes dizer a verdade (especialmente on-line), e os usuários que têm apenas uma pequena história classificação pode distorcer os dados. Além disso, alguns fornecedores podem dar (ou encorajar outros a dar) avaliações positivas para os seus próprios produtos, dando avaliações negativas aos produtos dos seus concorrentes.

  • dispersão: Nem todos os itens serão classificados ou terão classificações suficientes para produzir dados úteis.

  • Inconsistência: Nem todos os usuários usar as mesmas palavras-chave para marcar um item, mesmo que o significado pode ser o mesmo. Além disso, alguns atributos podem ser subjetiva. Por exemplo, um espectador de um filme pode considerá-lo curto, enquanto outro diz que é muito longo.

Atributos precisam de definições claras. Um atributo com muito poucos limites é difícil evaluate- impor muitas regras em um atributo pode estar perguntando aos usuários fazer muito trabalho, que vai desencorajá-los de marcar itens.

Marcando a maioria dos itens em um catálogo de produtos pode ajudar a resolver o problema de arranque a frio que assola filtragem colaborativa. Por um tempo, no entanto, a precisão das recomendações do sistema será baixo até que ele cria ou obtém um perfil de usuário.



Aqui está uma matriz de amostra de clientes e seus itens comprados, mostra um exemplo de filtragem baseada em conteúdo.

UnidFeature 1recurso 2recurso 3característica 4característica 5
Item 1XX
ponto 2XX
item 3XXX
item 4XXX
ponto 5XXX

Aqui, se um usuário gostos Característica 2 - e que está registrado em seu perfil - o sistema irá recomendar todos os itens que têm Recurso 2 neles: Item 1, Item 2, e Item 4.

Esta abordagem funciona mesmo se o usuário nunca tenha comprado ou revisto um item. O sistema só vai olhar no banco de dados do produto para qualquer item que tenha sido marcados com recurso 2. Se (por exemplo) um usuário que está à procura de filmes com Audrey Hepburn - e que a preferência aparece no perfil do usuário - o sistema irá recomendar a todos os filmes que apresentam Audrey Hepburn para este usuário.

Neste exemplo, no entanto, rapidamente expõe uma limitação da técnica de filtragem baseada em conteúdo: O usuário provavelmente já sabe sobre todos os filmes que Audrey Hepburn foi em, ou pode facilmente descobrir - por isso, do ponto de vista daquele usuário, o sistema não recomendado nada de novo ou de valor.

Como melhorar a precisão com feedback constante

Uma forma de melhorar a precisão das recomendações do sistema é perguntar clientes para feedback sempre que possível. Recolher feedback dos clientes pode ser feito de muitas maneiras diferentes, através de múltiplos canais. Algumas empresas de pedir ao cliente para classificar um item ou serviço após a compra. Outros sistemas fornecem links de mídia de estilo social, para que os clientes podem “gostar” ou “não gostam” de um produto. constante interacção entre

Como medir a eficácia das recomendações do sistema

O sucesso das recomendações de um sistema depende de quão bem ele atende a dois critérios: precisão (Pense nisso como um conjunto de combinações perfeitas - geralmente um pequeno conjunto) e recordação (Pense nisso como um conjunto de possíveis correspondências - geralmente um conjunto maior). Aqui está um olhar mais atento:

  • Precisão mede o grau de precisão a recomendação do sistema era. A precisão é difícil de medir, porque pode ser subjetiva e difícil de quantificar. Por exemplo, quando um usuário visita pela primeira vez o site da Amazon, pode Amazon saber com certeza se as suas recomendações estão no alvo?

    Algumas recomendações podem conectar-se com os interesses do cliente, mas o cliente ainda não pode comprar. A maior confiança de que uma recomendação é preciso vem de evidência clara: o cliente compra o item. Alternativamente, o sistema pode explicitamente pedir ao usuário para avaliar suas recomendações.

  • recordação mede o conjunto de possíveis boas recomendações seu sistema vem com. Pense em recordação como um inventário de possíveis recomendações, mas nem todos eles são recomendações perfeitas. Geralmente há uma relação inversa com precisão e recall. Ou seja, como recordação sobe, precisão vai para baixo, e vice-versa.

O sistema ideal seria ter alta precisão e alta recall. Mas, realisticamente, o melhor resultado é um equilíbrio delicado entre os dois. Enfatizando precisão ou recordar realmente depende do problema que você está tentando resolver.


Publicações relacionadas