Provedores de nuvem de dados grandes
Os provedores de nuvem vêm em todas as formas e tamanhos e oferecem diversos produtos para big data. Alguns são nomes da casa, enquanto outros estão surgindo recentemente. Alguns dos provedores de nuvem que oferecem serviços de IaaS que podem ser usadas para dados grandes incluem Amazon.com, AT&T, GoGrid, Joyent, Rackspace, IBM e Verizon / Terremark.
Conteúdo
Elastic Compute Cloud Pública da Amazon para big data
Atualmente, um dos prestadores de serviços mais alto perfil IaaS é Amazon Web Services com o Elastic Compute Cloud (Amazon EC2). Amazon não começou com uma visão para construir um grande negócio de serviços de infra-estrutura.
Em vez disso, a empresa construiu uma infra-estrutura maciça para apoiar o seu próprio negócio de varejo e descobriu que seus recursos foram subutilizadas. Em vez de permitir esse ativo para sentar-se ocioso, ele decidiu aproveitar este recurso, enquanto a adição à linha de fundo. serviço EC2 da Amazon foi lançado em 2006 e continua a evoluir.
Amazon EC2 oferece escalabilidade sob o controle do usuário, com o usuário pagando por recursos por hora. O uso do termo elástico na nomeação do EC2 da Amazon é significativo. Aqui, elasticidade refere-se à capacidade que os usuários do EC2 têm para aumentar ou diminuir os recursos de infra-estrutura atribuídas a satisfazer as suas necessidades.
Amazon também oferece outros serviços de dados grandes para os clientes da sua carteira de Amazon Web Services. Estes incluem o seguinte:
Amazon Elastic MapReduce: Alvo para o processamento de grandes volumes de dados. Elastic MapReduce utiliza um framework Hadoop hospedado em execução no EC2 e Amazon Simple Storage Service (Amazon S3). Os usuários podem agora executar HBase.
Amazon DynamoDB: Um serviço de banco de dados totalmente gerenciado não só SQL (NoSQL). DynamoDB é um tolerante a falhas e altamente disponível serviço de armazenamento de dados que oferece auto-provisionamento, escalabilidade transparente e administração simples. Ele é implementado em SSDs (discos de estado sólido) para maior confiabilidade e alto desempenho.
Amazon Simple Storage Service (S3): Um serviço de escala web projetado para armazenar qualquer quantidade de dados. A força do seu centro de design é o desempenho e escalabilidade, por isso não é tão característica laden como outros armazenamentos de dados. Os dados são armazenados em “baldes” e você pode selecionar uma ou mais regiões globais de armazenamento físico para atender às necessidades de latência ou regulamentares.
Amazon Computação de Alto Desempenho: Sintonizado para tarefas especializadas, este serviço fornece clusters de computação de alto desempenho sintonizado baixa latência. Na maioria das vezes usada por cientistas e acadêmicos, HPC está entrando no mainstream por causa da oferta de Amazon e outros prestadores de HPC. clusters de HPC Amazon são construído propositadamente para cargas de trabalho específicas e pode ser reconfigurado facilmente para novas tarefas.
Amazon RedShift: Disponível no modo de visualização limitada, RedShift é um serviço de armazenamento de dados em escala petabyte construído sobre uma arquitetura MPP escalável. Dirigido pelo Amazon, oferece uma alternativa segura e confiável para armazéns de dados in-house e é compatível com várias ferramentas de inteligência de negócios populares.
serviços de grande de dados do Google
Google, o gigante das buscas na Internet, também oferece uma série de serviços em nuvem direcionados para big data. Estes incluem o seguinte:
Video: Dicas de Informática IMP - Armazenamento em Nuvem - Prof. Deodato
Google Compute Engine: A capacidade baseada em nuvem para computação máquina virtual, Google Compute Engine oferece um ambiente de computação flexível seguro de centros de dados eficientes em termos energéticos. O Google também oferece soluções de gerenciamento de carga de trabalho de vários parceiros de tecnologia que têm otimizado seus produtos para o Google Compute Engine.
Google Big Inquérito: Permite executar consultas SQL-like em alta velocidade contra grandes conjuntos de dados de, potencialmente, bilhões de linhas. Embora seja bom para consulta de dados, os dados não podem ser modificados depois que está nele. Considere Google Big consulta uma espécie de sistema Online Analytical Processing (OLAP) para dados grandes. É bom para relatórios ad hoc ou análise exploratória.
Google Prediction API: A, ferramenta de aprendizagem máquina baseada em nuvem para grandes quantidades de dados, Previsão é capaz de identificar padrões em dados e, em seguida, lembrando-los. Pode saber mais sobre um padrão cada vez que é usado. Os padrões podem ser analisados para uma variedade de fins, incluindo a detecção de fraudes, análise de churn, e sentimento do cliente.
Microsoft Azure para big data
Com base em abstrações Windows e SQL, Microsoft productized um conjunto de ferramentas de desenvolvimento, suporte de máquina virtual, gerenciamento e serviços de mídia e serviços de dispositivos móveis em uma oferta PaaS. Para clientes com profundo conhecimento em .Net, SQLServer e Windows, a adoção do PaaS baseado em Azure é simples.
Video: CloudCast07 - Amazon RDS - O Serviço de Banco de Dados Relacional na Nuvem
Para atender aos requisitos emergentes para integrar dados grandes em soluções do Windows Azure, a Microsoft também adicionou Windows Azure HDInsight. Construído sobre Hortonworks Plataforma de Dados (HDP), que de acordo com a Microsoft, oferece 100 por cento de compatibilidade com o Apache Hadoop, HDInsight suporta conexão com outras ferramentas de inteligência de negócios (BI) Microsoft Excel e. Além Azure HDInsight também pode ser implantado no Windows Server.
OpenStack para big data
Iniciada pela Rackspace e NASA, Pilha aberta está a implementar uma plataforma de nuvem aberta destinada a qualquer nuvens públicas ou privadas. Enquanto a organização está bem gerido pela Rackspace, passou-se a uma fundação OpenStack separado. Embora as empresas podem alavancar OpenStack para criar implementações proprietárias, a designação OpenStack exige a conformidade com uma implementação padrão de serviços.
O objetivo da OpenStack é fornecer uma especificação nuvem massivamente escalados, multitenant que pode rodar em qualquer hardware. OpenStack está construindo um grande ecossistema de parceiros interessados em adoptar a sua plataforma de nuvem, incluindo Dell, HP, Intel, Cisco, Red Hat e IBM, juntamente com pelo menos 100 outras pessoas que estão usando o OpenStack como base para as suas ofertas de nuvem.
Em essência, OpenStack é uma iniciativa IaaS código aberto construído sobre Ubuntu, um sistema operacional baseado na distribuição Debian Linux. Ele também pode ser executado em versão de Red Hat do Linux.
OpenStack oferece uma gama de serviços, incluindo computação, armazenamento de objetos, catálogo e repositório, dashboards, identidade e networking. Em termos de dados grandes, Rackspace e Hortonworks (fornecedora de uma plataforma de gestão de dados de código aberto baseado em Apache Hadoop) anunciou que Rackspace vai lançar um serviço Hadoop OpenStack pública baseada em nuvem, que serão validados e suportados por Hortonworks e permitirá aos clientes para criar rapidamente um ambiente de dados grande.