Big data: a necessidade de metadados em fluxos de dados
Video: Dilúvio de dados | Nerdologia 131
Conteúdo
- Video: dilúvio de dados | nerdologia 131
- Big dados e ibm infosphere streams
- Big dados e tempestade do twitter
- Video: a importância dos metadados para crescer no youtube | welington tutoriais
- Video: vd-10 - workshop para ratificação da primeira versão do modelo de dados do barramento de integração
- Big dados e apache s4
- Video: vd-05 - workshop para ratificação da primeira versão do modelo de dados do barramento de integração
A maioria dos grandes profissionais de gerenciamento de dados estão familiarizados com a necessidade de gerir metadados em ambientes de gerenciamento de banco de dados estruturados. Estas fontes de dados são fortemente digitado (por exemplo, os primeiros dez personagens são o primeiro nome) e projetado para operar com metadados. Você pode supor que os metadados é inexistente em dados não estruturados, mas isso não é verdade.
Normalmente você encontrar estrutura em qualquer tipo de dados. Tomemos o exemplo de vídeo. Embora você possa não ser capaz de saber exatamente o conteúdo de um vídeo específico, um monte de estrutura existe no formato de que os dados em vídeo. Se você está olhando para texto não estruturado, você sabe que as palavras são escritas em Inglês e que se você aplicar as ferramentas certas, você pode interpretar o texto.
Devido a isso metadados implícita de dados não estruturados, é possível analisar as informações utilizando eXtensible Markup Language (XML). XML é uma técnica para apresentação de arquivos de texto não estruturados com marcas significativas. A tecnologia subjacente não é novo e foi uma das tecnologias fundamentais para a implementação de orientação a serviços.
Exemplos de produtos para streaming de dados incluem InfoSphere Streams da IBM, tempestade do Twitter e S4 do Yahoo.
Big dados e IBM InfoSphere Streams
InfoSphere Streams fornece uma análise contínua de grandes volumes de dados. Pretende-se realizar análises complexas de tipos de dados heterogêneos, incluindo texto, imagens, áudio, voz, VoIP, vídeo, o tráfego na web, e-mail, dados de GPS, dados de transações financeiras, dados de satélite e sensores. InfoSphere Streams pode suportar todos os tipos de dados. Ele pode executar em tempo real e olhar em frente análise de dados gerados regularmente, usando filtragem digital, análise de padrões / correlação, e decomposição bem como a análise geospacial.
Big dados e Tempestade do Twitter
Video: A importância dos metadados para crescer no Youtube | Welington Tutoriais
Tempestade do Twitter é um mecanismo de análise em tempo real de código aberto desenvolvido por uma empresa chamada BackType que foi adquirido pelo Twitter em 2011 parcialmente porque o Twitter usa tempestade internamente. Ele ainda está disponível como código aberto e foi ganhando força significativa entre as empresas emergentes.
Ele pode ser usado com qualquer linguagem de programação para aplicações tais como análises em tempo real, computação contínua, distribuídos chamadas de procedimento remoto (RPC), e integração. Tempestade é projetado para trabalhar com tecnologias de enfileiramento e banco de dados existentes. As empresas que utilizam tempestade em seus grandes implementações de dados incluem Groupon, RocketFuel, Navisite e Oolgala.
Video: Vd-10 - Workshop para ratificação da primeira versão do modelo de dados do barramento de integração
Big dados e Apache S4
Os quatro S‘S no S4 representam simples Scalable Sistema de Transmissão. Apache S4 foi desenvolvido pelo Yahoo! como um general-purpose, distribuído, plataforma escalável, parcialmente tolerante a falhas, conectável que permite que os programadores a desenvolver facilmente aplicações para o processamento de fluxos contínuos de dados. A plataforma principal é escrito em Java e foi lançado pela Yahoo! em 2010.
Video: Vd-05 - Workshop para ratificação da primeira versão do modelo de dados do barramento de integração
Um ano mais tarde, foi entregue à Apache sob a licença Apache 2.0. Os clientes que enviam e recebem eventos podem ser escritos em qualquer linguagem de programação. S4 é concebido como um sistema altamente distribuído. O rendimento pode ser aumentado linearmente por adição de nós em um cluster. O projeto S4 é mais adequado para aplicações em larga escala para a mineração de dados e aprendizagem de máquina em um ambiente de produção.