Dados não estruturados em um ambiente de dados grande

Video: Integração de dados é simplificada com o Hadoop

dados não estruturados são dados que não seguem um formato especificado para big data. Se 20 por cento dos dados disponíveis para as empresas é dados estruturados, os outros 80 por cento é desestruturado. dados não estruturados é realmente a maioria dos dados que você vai encontrar. Até recentemente, porém, a tecnologia realmente não apoiar fazendo muito com ela exceto armazená-lo ou analisá-lo manualmente.

Fontes de dados não estruturados grande

dados não estruturados está em toda parte. Na verdade, a maioria dos indivíduos e organizações conduzem suas vidas em torno de dados não estruturados. Assim como com dados estruturados, dados não estruturados é gerado qualquer máquina ou gerado humano.

Aqui estão alguns exemplos de dados não estruturados gerados por máquina:

  • As imagens de satélite: Isto inclui dados meteorológicos ou os dados que o governo captura em seu imaginário vigilância por satélite. Basta pensar sobre o Google Earth, e você começa a foto.

  • Os dados científicos: Isso inclui imagens sísmicas, dados atmosféricos e física de altas energias.

  • Fotografias e vídeo: Isto inclui a segurança, vigilância e vídeo tráfego.

  • Radar ou sonar de dados: Isto inclui veículos, meteorológico e perfis sísmicos oceanográficos.

A lista seguinte mostra alguns exemplos de dados não estruturados gerado-humano:

  • Texto interno para sua empresa: Pense em todo o texto dentro de documentos, registros, os resultados da pesquisa e e-mails. informações da empresa realmente representa uma grande porcentagem das informações de texto no mundo de hoje.

  • Sociais de dados de mídia: Esta informação é gerada a partir das plataformas de mídia social como o YouTube, Facebook, Twitter, LinkedIn e Flickr.

  • Dados móveis: Isto inclui dados, tais como mensagens de texto e informações de localização.



  • conteúdo do site: Isto vem de qualquer site oferecendo conteúdo não estruturado, como YouTube, Flickr, ou Instagram.

Video: Os sistemas cognitivos extraem valor dos dados não estruturados

E a lista continua.

Algumas pessoas acreditam que o termo dados não estruturados é enganador porque cada documento pode conter sua própria estrutura específica ou formatação baseada no software que o criou. No entanto, o que é interno para o documento é verdadeiramente não-estruturados.

De longe, os dados não estruturados é o maior pedaço da equação de dados, e os casos de uso para dados não estruturados estão se expandindo rapidamente. No lado do texto sozinho, análise de texto pode ser usado para analisar texto não estruturado e para extrair dados relevantes e transformar os dados em informação estruturada que pode ser usado de várias maneiras.

Por exemplo, um popular grande caso de uso de dados é análise de mídia sociais para uso com conversas com clientes de alto volume. Além disso, dados não estruturados de notas de call center, e-mails, comentários escritos em uma pesquisa, e outros documentos são analisados ​​para entender o comportamento do cliente. Isto pode ser combinado com a mídia social de dezenas de milhões de fontes para entender a experiência do cliente.

O papel de um CMS no gerenciamento de dados grande

Organizações armazenar alguns dados não estruturados em bancos de dados. No entanto, eles também utilizam sistemas de gerenciamento de conteúdo corporativo (CMSs) que podem gerenciar o ciclo de vida completo do conteúdo. Isso pode incluir o conteúdo da web, o conteúdo do documento, e mídia de outras formas.

De acordo com Associação para a Gestão da Informação e Imagem (AIIM), uma organização sem fins lucrativos que oferece educação, pesquisa e melhores práticas, Enterprise Content Management (ECM) compreende as “estratégias, métodos e ferramentas utilizadas para capturar, gerenciar, armazenar, preservar e distribuir conteúdo e documentos relacionados com a organização processos.”As tecnologias incluídas no ECM incluem gerenciamento de documentos, gerenciamento de registros, de imagem, gerenciamento de workflow, gerenciamento de conteúdo web e colaboração.

Video: Em que consiste e quais as aplicações reais do “Big Data”?

A indústria como um todo tem crescido em torno de conteúdo gestão, e muitos fornecedores de gerenciamento de conteúdo estão reduzindo as suas soluções para lidar com grandes volumes de dados não estruturados. No entanto, as novas tecnologias também estão evoluindo para ajudar a suportar dados não estruturados e análise de dados não estruturados. Alguns destes apoiar tanto dados estruturados e não estruturados. Alguns suporte em tempo real córregos. Estes incluem tecnologias como Hadoop, MapReduce e streaming.

Sistemas que são projetados para armazenar o conteúdo na forma de sistemas de gerenciamento de conteúdo não são mais soluções stand-alone. Ao contrário, eles são susceptíveis de ser parte de uma solução global de gestão de dados. Por exemplo, sua organização pode monitorar feeds do Twitter, que podem então desencadear programaticamente uma pesquisa CMS.

Agora, a pessoa que desencadeou o tweet recebe uma volta resposta que oferece um local onde o indivíduo pode encontrar o produto que ele ou ela pode estar procurando. O maior benefício é quando este tipo de interação pode acontecer em tempo real. Ele também ilustra o valor de alavancar em tempo real desestruturada, estruturada (dados de clientes sobre a pessoa que twittou) e semi-estruturada (o conteúdo real nos CMS) de dados.

A realidade é que você provavelmente vai usar uma abordagem híbrida para resolver seus problemas de big data. Por exemplo, não faz sentido para mover todo o seu conteúdo de notícias, por exemplo, em Hadoop em suas instalações porque é suposto para ajudar a gerenciar dados não estruturados.


Publicações relacionadas