Soluções de dados grandes alternativas

Olhando passado Hadoop, você pode ver soluções de dados grandes alternativas no horizonte. Estas soluções tornam possível trabalhar com dados grandes em tempo real ou a utilização de tecnologias de banco de dados alternativas para lidar com e processá-lo. Aqui, você é apresentado aos quadros processamento em tempo real, então as plataformas de processamento paralelo (MPP) e, finalmente, os bancos de dados NoSQL que lhe permitem trabalhar com grandes dados fora do ambiente Hadoop.

Você deve estar ciente de algo referido como o cumprimento ACID, abreviação de UMAtomicity, COERÊNCIA, Eusolation, e Dcumprimento urability. cumprimento ACID é um padrão pelo qual as operações de banco de dados precisos e confiáveis ​​são garantidos.

Em soluções de big data, a maioria dos sistemas de banco de dados não são ACID, mas isso não significa necessariamente representar um grande problema. Isso porque a maioria dos sistemas de dados grandes usar Sistemas de Apoio à Decisão (SAD) que os dados processo em lote antes que os dados sejam lidos. DSS são sistemas de informação que são usados ​​para organizacional de suporte à decisão. DSS não transacionais demonstrar há requisitos de conformidade verdadeira ACID.

estruturas de processamento em tempo real

Às vezes você pode precisar consultar fluxos de dados grandes em tempo real. . . e você simplesmente não pode fazer esse tipo de coisa usando Hadoop. Nesses casos, use uma estrutura de processamento em tempo real em seu lugar. UMA estrutura de processamento em tempo real é - como o próprio nome indica - uma estrutura que é capaz de processar dados em tempo real (ou quase em tempo real) como que os fluxos de dados e flui para o sistema. Essencialmente, estruturas de processamento em tempo real são a antítese das estruturas de processamento em lote que você vê implantado em Hadoop.

Video: Dica diversas Formulários com objetos e validação de dados

estruturas de processamento em tempo real podem ser classificados em duas categorias a seguir:

  • Estruturas que diminuem a sobrecarga de tarefas MapReduce para aumentar a eficiência de tempo global do sistema: Soluções nesta categoria incluem Apache Storm e Apache faísca para processamento de fluxo-tempo quase real.

  • Frameworks que implantar métodos de consulta inovadores para facilitar a consulta em tempo real de big data: Algumas soluções nesta categoria incluem Dremel do Google, Apache Broca, Tubarão por Apache Hive e Impala de Cloudera.

Em tempo real, as estruturas de processamento de fluxo são bastante úteis em uma variedade de indústrias - de ações e do mercado financeiro analisa a e-commerce otimizações e de detecção de fraude em tempo real a logística de ordem otimizados. Independentemente da indústria em que você trabalha, se o seu negócio é impactado por fluxos de dados em tempo real que são gerados por seres humanos, máquinas, ou sensores, em seguida, um quadro de processamento em tempo real seria útil para você na otimização e geração de valor para o seu organização.

Massively processamento paralelo (MPP) plataformas



Maciçamente processamento paralelo (MPP) plataformas podem ser utilizados em vez de MapReduce como uma abordagem alternativa para o processamento de dados distribuída. Se seu objetivo é implantar processamento paralelo em um data warehouse tradicional, em seguida, um MPP pode ser a solução perfeita.

Para entender como MPP compara a uma estrutura de processamento de MapReduce paralela padrão, considere o seguinte. MPP executa tarefas de computação paralela em hardware caro, costume, enquanto MapReduce executa-los em servidores de commodities baratas. Consequentemente, a capacidade de processamento MPP são custar restritiva. Dito isto, o MPP é mais rápido e mais fácil de usar do que postos de trabalho MapReduce padrão. Isso porque MPP pode ser consultado usando Structured Query Language (SQL), mas os trabalhos de MapReduce nativas são controlados pela linguagem mais complicada de programação Java.

Bem conhecido fornecedores MPP e produtos incluem o old-school plataforma Teradata, além de soluções mais recentes, como EMC2‘S Greenplum DCA, Vertica da HP, da IBM Netezza, e Exadata da Oracle.

Apresentando bancos de dados NoSQL

Tradicional sistemas de gerenciamento de banco de dados relacionais (RDBMS) não estão equipados para lidar com grandes demandas de dados. Isso porque os bancos de dados relacionais tradicionais são projetados para lidar com conjuntos de dados única relacionais que são construídos de dados que são armazenados em linhas e colunas limpas e, portanto, são capazes de ser consultado via Structured Query Language (SQL).

Video: Soluções e Estratégias para Proteção de Dados

sistemas RDBM não são capazes de lidar com dados não estruturados e semi-estruturada. Além disso, sistemas RDBM simplesmente não têm as capacidades de processamento e manuseio que são necessários para atender aos requisitos de grandes volumes de dados e de velocidade.

Este é o lugar onde NoSQL entra. Bancos de dados NoSQL, como MongoDB, são, sistemas de banco de dados distribuídos não-relacionais que foram projetados para enfrentar o desafio de dados grande. bancos de dados NoSQL sair passado a arquitectura tradicional de banco de dados relacional e oferecer uma solução muito mais escalável e eficiente.

sistemas NoSQL facilitar a consulta de dados não-SQL de dados não-relacionais ou livre de esquema, semi-estruturados e não estruturados. Desta forma, bancos de dados NoSQL são capazes de lidar com as fontes de dados estruturados, semi-estruturados e não estruturados que são comuns em sistemas de dados grandes.

NoSQL oferece quatro categorias de bancos de dados não relacionais - bases de dados de gráficos, bancos de dados de documentos, valores-chave lojas e lojas de família coluna. Desde noSQL oferece funcionalidade nativa para cada um destes tipos distintos de estruturas de dados, ele oferece funcionalidade de armazenamento e recuperação muito eficiente para a maioria dos tipos de dados de não-relacionais. Esta capacidade de adaptação e eficiência faz NoSQL uma escolha cada vez mais popular para o tratamento de dados grandes e para superar os desafios de processamento que vêm junto com ele.

Há um pouco de um debate sobre o significado do nome NoSQL. Alguns argumentam que NoSQL significa Não só SQL, enquanto outros argumentam que a sigla representa bancos de dados não-SQL. O argumento é bastante complexo e não há cut-and-dry resposta real. Para manter as coisas simples, basta pensar NoSQL como uma classe de sistemas de gerenciamento de banco de dados não-relacionais que não se inserem no espectro de sistemas RDBM que são consultados usando SQL.


Publicações relacionadas