Gestão de tecnologias de big data em uma nuvem híbrida
O termo big Data
é frequentemente utilizado no mundo da tecnologia de nuvem híbrida devido à necessidade contínua de processar quantidades crescentes de dados. O fato importante sobre big data é que ele existe no ponto de inflexão das soluções que as organizações têm historicamente postas em prática para gerenciar grandes volumes de dados complexos. tecnologias de dados grandes permitir que as pessoas realmente analisar e utilizar esses dados de forma eficaz.características de Big Data
Big data geralmente tem três características - o volume, variedade e velocidade:
Volume: Big data é grande em volume. Ele refere-se geralmente a, pelo menos, vários terabytes de dados. Muitas implementações de big data está olhando para analisar petabytes de informação.
Nome Valor Byte 100 Gigabyte 109 bytes terabyte 1012 bytes petabyte 1015 bytes Exabyte 1018 bytes Variedade: Big data vem em diferentes formas e tamanhos. Ele inclui estes tipos de dados:
Os dados estruturados é o tipo típico de dados que os analistas estão acostumados a lidar com. Ele inclui receitas e número de vendas - o tipo de dados que você pensa sobre a inclusão em um banco de dados. Os dados estruturados também está sendo produzido em novas formas de produtos, tais como sensores e tags RFID.
dados semi-estruturado tem alguma estrutura para isso, mas não da maneira que você pensa sobre as tabelas em um banco de dados. Ele inclui formatos EDI e XML.
dados não estruturados inclui texto, imagem, áudio e vídeo, incluindo qualquer documento, mensagem de e-mail, tweet, ou blog interno para uma empresa ou na Internet. dados não estruturados é responsável por cerca de 80 por cento de todos os dados.
Velocidade: Esta é a velocidade à qual os dados se move. Pense sobre sensores de captura de dados a cada milissegundo ou os fluxos de dados de saída do equipamento médico. Dados Big muitas vezes vem em você em um córrego, por isso tem uma natureza de tempo real associado a ele.
A nuvem é um lugar ideal para grandes dados por causa de seu armazenamento escalável, capacidade de computação e recursos elásticas. O modelo de nuvem é grande Scale computação distribuída e uma série de estruturas e tecnologias surgiram para apoiar este modelo, incluindo
Apache Hadoop: Uma plataforma de computação distribuída de código aberto escrito em Java. É uma biblioteca de software que permite processamento distribuído através de clusters de computadores. É realmente um sistema de arquivos distribuídos. Ele cria um pool de computador, cada um com um sistema de arquivos Hadoop. Hadoop foi projetado para lidar com grandes quantidades de dados complexos. Os dados podem ser estruturados, não estruturados ou semi-estruturada. Hadoop pode ser executado através de uma série de servidores que não compartilham memória ou disco. Vejo Hadoop Para maiores informações.
Video: big data
MapReduce: A estrutura de software introduzido pela Google para suporte à computação distribuída em grandes conjuntos de dados. É no coração do que Hadoop está fazendo com grandes dados e análise de dados grandes. Ele foi projetado para tirar proveito dos recursos de nuvem. Esta computação é feito através de vários computadores, chamados aglomerados, e cada grupo é referido como um nó. MapReduce pode lidar com dados estruturados e não estruturados. Os utilizadores especificar uma função mapa que processa um par chave / valor para gerar um conjunto de pares intermédios e uma função de redução que se funde estes pares.
bases de dados de dados grandes
Um apelo importante do Hadoop é que ele pode lidar com diferentes tipos de dados. sistemas de gerenciamento de banco de dados paralelos têm sido no mercado há décadas. Eles podem apoiar a execução paralela, porque a maioria das mesas estão divididos sobre os nós em um cluster, e eles podem traduzir comandos SQL em um plano que é dividido entre os nós do cluster. No entanto, eles lidam com dados estruturados porque é difícil de encaixar, dados de forma livre não estruturados para as colunas e linhas em um modelo relacional.
Hadoop começou um movimento em que foi chamado NoSQL, o que significa não só SQL. O termo refere-se a um conjunto de tecnologias que é diferente dos sistemas de base de dados relacionais. Uma diferença importante é que eles não usam SQL. Eles também são projetados para sistema de arquivos distribuídos.
não NoSQL não significa que as pessoas não devem estar usando SQL. Ao contrário, a idéia é que, dependendo de qual é seu problema, bancos de dados relacionais e bancos de dados NoSQL podem coexistir em uma organização. Existem inúmeros exemplos desses tipos de bancos de dados, incluindo o seguinte:
Apache Cassandra: Um sistema de gerenciamento de dados de código aberto distribuído originalmente desenvolvido pelo Facebook. Ele não tem requisitos rigorosos estrutura, para que ele possa lidar com todos os diferentes tipos de dados. Especialistas afirmam que é excelente em alto volume, processamento de transações em tempo real. Outros bancos de dados de código aberto incluem MongoDB, Apache CouchDB, e HBase.
Amazon DB simples: Amazon compara esse banco de dados para uma planilha em que tem colunas e linhas com atributos e itens armazenados em cada um. Ao contrário de uma folha de cálculo, no entanto, cada célula pode ter vários valores, e que cada elemento pode ter o seu próprio conjunto de atributos associado. Amazon seguida indexa automaticamente os dados. Recentemente, a Amazon anunciou Amazon Dynamo DB como uma maneira de trazer grandes NoSQL de dados para a nuvem.
Google BigTable: Este híbrido é uma espécie de como uma grande mesa. Como as tabelas podem ser grandes, eles estão divididos nos limites de linha em tabelas, que podem ser centenas de megabytes ou mais. MapReduce é muitas vezes usado para gerar e modificar os dados armazenados no BigTable.