Como pesquisar seus dados de análise preditiva

Para utilizar seus dados de análise preditiva que você precisa saber como encontrar a informação que está a ser localizado. Existem dois principais conceitos de pesquisar seus dados em preparação para usá-lo em análise preditiva:

  • Preparando-se para ir além da pesquisa básica palavra-chave

  • Fazendo seus dados semanticamente pesquisável

    Video: Plano de execução no SQL Server | Coluna Computada | Live Query Statistics

Como usar a pesquisa baseada em palavras-chave em análise preditiva

Imagine se você foram incumbidos com a procura de grandes quantidades de dados. Uma maneira de abordar o problema é a emissão de uma consulta de pesquisa que consiste (obviamente) de palavras. A ferramenta de busca procura por palavras correspondentes no banco de dados, data warehouse, ou vai vasculhar qualquer texto em que seus dados reside.

Suponha que você está emitindo a seguinte consulta de pesquisa: o Presidente dos Estados Unidos visita a África. Os resultados da pesquisa consistirá de texto que contém exatamente um ou uma combinação das palavras Presidente, Estados Unidos, visitas, África. Você pode obter a informação exata que você está procurando, mas nem sempre.

Como sobre os documentos que não contenham qualquer uma das palavras mencionadas anteriormente, mas uma combinação dos seguintes: A viagem de Obama ao Quênia.

Nenhuma das palavras que inicialmente procurou estão lá - mas os resultados da pesquisa são semanticamente (Significativamente) útil. Como você pode preparar seus dados para ser semanticamente recuperáveis? Como você pode ir além da busca tradicional palavra-chave? Suas respostas são podem ser encontrados se você continuar lendo.

Como utilizar pesquisas de base semântica em análise preditiva

Uma ilustração de como semântica baseada em pesquisa funciona é um projeto que Anasse Bari liderado pelo Grupo do Banco Mundial, uma organização internacional cuja missão principal é combater a pobreza em todo o mundo.

O projeto teve como objetivo investigar busca empresa de grande escala existente e análise do mercado e construir um protótipo para um quadro de ponta que iria organizar os dados do Banco Mundial - a maioria das quais era uma coleção não estruturada de documentos, publicações, relatórios do projeto, cuecas, e estudos de caso.

Este conhecimento valioso maciça é um recurso utilizado em direção a principal missão de reduzir a pobreza no mundo do Banco. Mas o fato de que é desestruturada torna difícil acesso, capturar, compartilhar, entender, pesquisa, dados de minas e visualizar.



O Banco Mundial é uma imensa organização, com muitas divisões em todo o mundo. Uma das principais divisões estava se esforçando para ter um quadro e estava pronto para alocar recursos para ajudar a equipe de Bari foi a Rede de Desenvolvimento Humano dentro do Banco Mundial.

O vice-presidente da Rede de Desenvolvimento Humano delineado um problema que surgiu de ambigüidade: Sua divisão usou vários termos e conceitos que tinham o mesmo significado geral, mas diferentes nuances.

Por exemplo, termos tais como climatologia, mudanças climáticas, redução do ozônio gás, e as emissões de gases de efeito eram todos semanticamente relacionados, mas não idênticos no significado. Ele queria uma capacidade de busca inteligente o suficiente para extrair documentos que continham conceitos relacionados quando alguém procurou qualquer um destes termos.

O ‘quadro protótipo para que a capacidade que a equipe Bari selecionado foi o Unstructured Arquitetura de Informação de Gestão (UIMA), uma solução baseada em software. Originalmente concebido pela IBM Research, UIMA está disponível em software IBM, como o IBM Content Analytics, uma das ferramentas que movidos IBM Watson, o famoso computador que ganhou o jogo Jeopardy.

A equipe de Bari juntou forças com uma equipa muito talentosa da Administração IBM Content and Enterprise Search, e mais tarde com uma equipe da IBM Watson, para colaborar neste projeto.

A Gestão de informações não estruturadas (UIM) solução é um sistema de software que analisa grandes volumes de informações não estruturadas (texto, áudio, vídeo, imagens, e assim por diante) para descobrir, organizar e entregar conhecimento relevante para o cliente ou o usuário final da aplicação.

o ontologia de um domínio é uma série de conceitos e termos relacionados, em particular a um domínio. Uma solução baseada em UIMA usa ontologias para fornecer marcação semântica, que permite independente busca enriquecida de formato de dados (texto, voz, apresentação do PowerPoint, e-mail, vídeo, e assim por diante). UIMA acrescenta outra camada para os dados capturados, e, em seguida, adiciona metadados para identificar dados que podem ser estruturados e semanticamente pesquisados.

pesquisa semântica baseia-se no significado contextual de termos de pesquisa como eles aparecem no espaço de dados pesquisável que UIMA constrói. A busca semântica é mais preciso do que a busca sempre baseada em palavras, porque uma consulta do usuário retorna resultados da pesquisa de não apenas os documentos que contêm os termos de pesquisa, mas também de documentos que são semanticamente relevantes para a consulta.

Se você está procurando biodiversidade na África, uma típica busca (baseada em palavras) irá retornar os documentos que têm as palavras exatas biodiversidade e África. A pesquisa semântica baseada em UIMA retornará não só os documentos que têm essas duas palavras, mas também tudo o que é semanticamente relevante para a “biodiversidade em África” documentos que contêm tais combinações de palavras como “recursos vegetais na África”, “recursos animais em Marrocos “, ou‘recursos genéticos no Zimbábue.’

Através de marcação semântica e uso de ontologias, a informação torna-se semanticamente recuperáveis, independente da linguagem ou o meio em que a informação foi criado (Word, PowerPoint, e-mail, vídeo, e assim por diante). Esta solução proporciona um único cubo, onde os dados podem ser capturados, organizada, trocado, e rendeu semanticamente recuperáveis.

Video: Dica Consultar Jurisprudência STJ

Dicionários de sinônimos e termos relacionados são open-source (disponível gratuitamente) - ou você pode desenvolver seus próprios dicionários específicos para o seu domínio ou seus dados. Você pode construir uma planilha com a raiz da palavra e seus correspondentes palavras relacionadas, sinônimos e termos mais amplos. A planilha pode ser carregado em uma ferramenta de busca, como o IBM Content Analytics (ICA) para alimentar a análise de pesquisa da empresa e de conteúdo.


Publicações relacionadas