Técnicas de análise e extração de big data
Em geral, soluções de análise de texto para big data usar uma combinação de técnicas estatísticas e processamento de linguagem natural (NLP) para extrair informações de dados não estruturados. PNL é um campo amplo e complexo que tem desenvolvido ao longo dos últimos 20 anos.
Conteúdo
- Video: gts 27: solução de detecção de intrusão usando técnicas de big data para a análise de logs..
- Video: técnicas de biologia molecular: extração de dna e pcr
- Compreender as informações extraídas de big data
- Taxonomias de dados grandes
- Video: a evolução da análise de dados | workshop de big data | #7 | fiap x
A meta principal da PNL é derivar o significado do texto. Processamento de Língua Natural geralmente faz uso de conceitos lingüísticos, tais como estruturas e partes do discurso gramaticais. Muitas vezes, a idéia por trás deste tipo de análise é determinar quem fez o quê a quem, quando, onde, como e porquê.
NLP realiza análise sobre o texto em diferentes níveis:
Video: GTS 27: Solução de detecção de intrusão usando técnicas de Big Data para a análise de logs..
análise léxica / morfológica examina as características de uma palavra individual - incluindo prefixos, sufixos, raízes e partes do discurso (substantivo, verbo, adjetivo, e assim por diante) - informações que contribuam para a compreensão de que a palavra significa no contexto do texto fornecido. análise lexical depende de um dicionário, enciclopédia, ou qualquer lista de palavras que fornece informações sobre essas palavras.
análise sintática usa estrutura gramatical para dissecar o texto e pôr palavras individuais em contexto. Aqui estão ampliando seu olhar a partir de uma única palavra à frase ou sentença completa. Este passo pode diagrama a relação entre as palavras (a gramática) ou olhar para as sequências de palavras que formam frases correctas ou para sequências de números que representam as datas ou valores monetários.
análise semântica determina os possíveis significados de uma frase. Isso pode incluir o exame a ordem das palavras e estrutura de sentença e disambiguating palavras relacionando a sintaxe encontrada nas frases, sentenças e parágrafos.
análise ao nível do discurso tenta determinar o significado do texto para além do nível frase.
Video: Técnicas de Biologia Molecular: Extração de DNA e PCR
Compreender as informações extraídas de big data
Certas técnicas, combinadas com outras técnicas estatísticas ou linguísticas para automatizar a marcação e marcação de documentos de texto, pode extrair os seguintes tipos de informações:
Termos: Outro nome para palavras-chave.
Entidades: Muitas vezes chamado entidades nomeadas, estes são exemplos específicos das captações. Os exemplos são nomes de pessoas, nomes de empresas, localizações geográficas, informações de contato, datas, horários, moedas, títulos e posições, e assim por diante. Por exemplo, software de texto analítico pode extrair a entidade Jane Doe como uma pessoa referida no texto que está sendo analisado. A entidade 3 de março de 2007 pode ser extraído como uma data, e assim por diante.
fatos: Também chamado relações, fatos indicam a quem / o que / onde as relações entre duas entidades. John Smith é o CEO da empresa Y e Aspirina reduz a febre são exemplos de fatos.
Eventos: Enquanto alguns especialistas usam os termos facto, relação, e evento alternadamente, outros distinguir entre eventos e fatos, afirmando que os eventos geralmente contêm uma dimensão de tempo e muitas vezes causam fatos para mudar. Exemplos incluem uma mudança na gestão dentro de uma empresa ou o status de um processo de vendas.
Conceitos: Estes são conjuntos de palavras e frases que indicam uma determinada idéia ou tópico com o qual o usuário está em causa. Por exemplo, o conceito cliente insatisfeito pode incluir as palavras irritado, decepcionado, e confuso e as frases serviço de desconexão, não ligou de volta, e desperdício de dinheiro - entre muitos outros. Assim, o conceito cliente insatisfeito pode ser extraído sem as palavras infeliz ou cliente aparecendo no texto.
sentimentos: análise de sentimentos é usado para identificar os pontos de vista ou emoções no texto subjacente. Algumas técnicas de fazer isso por meio da classificação de texto como, por exemplo, subjetivo (opinião) ou objetiva (fato), usando técnicas de aprendizado de máquina ou PNL. análise de sentimentos tornou-se muito popular na “voz do cliente” tipos de aplicações.
taxonomias de dados grandes
Taxonomias são frequentemente cruciais para Text Analytics. UMA taxonomia é um método para organizar informações em relações hierárquicas. É por vezes referido como uma forma de organizar as categorias. Porque uma taxonomia define as relações entre os termos uma empresa usa, isso torna mais fácil de encontrar e, em seguida, analisar o texto.
Video: A evolução da análise de dados | Workshop de Big Data | #7 | FIAP X
Por exemplo, um provedor de serviços de telecomunicações oferece tanto o serviço com e sem fio. Dentro do serviço sem fios, a empresa pode suportar telefones celulares e acesso à Internet. A empresa pode então ter duas ou mais formas de categorizar o serviço de telefone celular, como planos e tipos de telefone. A taxonomia poderia alcançar todo o caminho para as partes de um telefone em si.
Taxonomias também pode usar sinônimos e expressões alternativas, reconhecendo que telefone celular, telefone celular e telefone celular são todos iguais. Estas taxonomias pode ser bastante complexo e pode levar um longo tempo para se desenvolver.