Identificar os dados que você precisa para seu big data
Fazer um balanço do tipo de dados que você está lidando com em seu projeto de dados grande. Muitas organizações estão reconhecendo que uma grande quantidade de dados gerados internamente não tem sido utilizado para o seu pleno potencial no passado.
Conteúdo
Ao alavancar novas ferramentas, as organizações estão ganhando uma nova visão a partir de fontes anteriormente inexplorados de dados não estruturados em e-mails, registros de atendimento ao cliente, dados do sensor, e logs de segurança. Além disso, grande interesse existe na procura de uma nova visão baseada na análise de dados que é principalmente externo à organização, tais como mídias sociais, localização celular, tráfego e condições meteorológicas.
A fase exploratória para big data
Nos primeiros estágios de sua análise, você vai querer procurar padrões nos dados. É somente através do exame muito grandes volumes de dados que novas e inesperadas relações e correlações entre os elementos podem se tornar aparente. Esses padrões podem fornecer informações sobre as preferências dos clientes para um novo produto, por exemplo. Você vai precisar de uma plataforma para organizar seus dados grandes para procurar esses padrões.
Hadoop é amplamente usado como um bloco de construção subjacente para capturar e processar dados grandes. Hadoop foi desenvolvido com recursos que aceleram o processamento de dados grandes e torná-lo possível identificar padrões em grandes quantidades de dados em um tempo relativamente curto. Os dois principais componentes do Hadoop - Hadoop Distributed File System (HDFS) e MapReduce - são usados para gerenciar e processar seus dados grandes.
FlumeNG para integração de dados grande
Muitas vezes, é necessário recolher, agregar e mover grandes quantidades de fluxo de dados para procurar padrões ocultos nos dados grandes. ferramentas de integração tradicionais, como ETL não seria rápido o suficiente para mover os grandes fluxos de dados em tempo para entregar resultados para análise, tais como detecção de fraude em tempo real. FlumeNG carrega dados em tempo real por streaming de seus dados em Hadoop.
Tipicamente, canal é usado para recolher grandes quantidades de dados de registo de servidores distribuídos. Ele mantém um registro de todos os nós físicos e lógicos em uma instalação Flume. nós do agente são instalados nos servidores e são responsáveis por gerenciar a forma como um único fluxo de dados transferidos e processados a partir de seu ponto de início até ao seu ponto de destino.
Além disso, os colectores são utilizados para agrupar os fluxos de dados em fluxos maiores, que podem ser escritas para um sistema de arquivo Hadoop ou outro recipiente de armazenamento de dados grande. Flume é projetado para escalabilidade e pode continuamente adicionar mais recursos a um sistema para lidar com grandes quantidades de dados de forma eficiente. saída de Flume pode ser integrado com Hadoop e Hive para análise dos dados.
Flume também tem elementos de transformação para usar sobre os dados e pode transformar sua infraestrutura Hadoop em uma fonte de transmissão de dados não estruturados.
Padrões em big data
Você encontra muitos exemplos de empresas começando a perceber as vantagens competitivas de grandes análise de dados. Para muitas empresas, os fluxos de dados de mídia social estão se tornando cada vez mais um componente integral de uma estratégia de marketing digital. Na fase exploratória, esta tecnologia pode ser usada para procurar rapidamente através de enormes quantidades de dados de streaming e retirar os padrões de tendências que se relacionam com produtos ou clientes específicos.
O estágio de codificação para big data
Video: Сюзан Этлиджер: Как быть с большими данными?
Com centenas de lojas e muitos milhares de clientes, você precisa de um processo repetitivo para fazer o salto de identificação de padrões para implementação de seleção de novos produtos e de marketing mais direcionadas. Depois de encontrar algo interessante em sua análise de dados grande, codificá-lo e torná-lo uma parte de seu processo de negócio.
Para codificar a relação entre suas análises de dados grandes e seus dados operacionais, você precisa integrar os dados.
Video: NoSQL e Bigdata Entrevista com Eduardo Morelli
integração de dados grande e estágio incorporação
Big data é ter um grande impacto em muitos aspectos da gestão de dados, incluindo a integração de dados. Tradicionalmente, a integração de dados centrou-se sobre o movimento de dados através de middleware, incluindo especificações sobre a passagem de mensagens e requisitos para interfaces de programação de aplicativos (APIs). Estes conceitos de integração de dados são mais apropriados para o gerenciamento de dados em repouso em vez de dados em movimento.
A mudança para o novo mundo de dados não estruturados e dados de streaming muda a noção convencional de integração de dados. Se você deseja incorporar a sua análise de streaming de dados em seu processo de negócio, você precisa de tecnologia avançada que é rápido o suficiente para que você possa tomar decisões em tempo real.
Após sua análise de dados grande é completa, você precisa de uma abordagem que lhe permitirá integrar ou incorporar os resultados de sua análise de dados grande em seu processo de negócios e ações de negócios em tempo real.
As empresas têm grandes expectativas para ganhar valor real do negócio da análise de dados grande. Na verdade, muitas empresas gostaria de começar uma análise mais profunda dos dados grandes gerados internamente, tais como dados de log de segurança, que não foi possível devido a limitações tecnológicas.
Tecnologias para o transporte de alta velocidade de dados muito grandes e rápidas são um requisito para integrar em fontes de dados grandes e distribuídos entre grandes dados e dados operacionais. fontes de dados não estruturados, muitas vezes precisam ser movidos rapidamente sobre grandes distâncias geográficas para a partilha e colaboração.
Ligando fontes tradicionais com big data é um processo multiestágios depois que você olhou para todos os dados de streaming de fontes de dados grandes e identificou os padrões relevantes. Depois de diminuir a quantidade de dados que você precisa para gerenciar e analisar, agora você precisa pensar sobre a integração.