Noções básicas de computação distribuída para big data

Se a sua empresa está considerando um projeto de dados grande, é importante que você entenda alguns conceitos básicos de computação distribuída em primeiro lugar. Não há um único modelo de computação distribuída, porque os recursos de computação podem ser distribuídos de muitas maneiras.

Video: [Webcast] Redes de Armazenamento de Dados com Big Data

Por exemplo, você pode distribuir um conjunto de programas no mesmo servidor físico e usar serviços de mensagens que lhes permitam comunicar e transmitir informações. Também é possível ter muitos sistemas diferentes ou servidores, cada um com sua própria memória, que podem trabalhar juntos para resolver um problema.

computing Por distribuído é necessário para big data

Nem todos os problemas requerem computação distribuída. Se uma grande restrição de tempo não existe, processamento complexo pode feito através de um serviço especializado remotamente. Quando as empresas precisavam fazer análise de dados complexos, seria mover dados para um serviço externo ou entidade onde os lotes de recursos peças estavam disponíveis para processamento.

Não era que as empresas queriam esperar para obter os resultados que eles necessário- simplesmente não era economicamente viável para comprar recursos de computação suficiente para lidar com esses requisitos emergentes. Em muitas situações, as organizações iria capturar somente seleções de dados em vez de tentar capturar todos os dados por causa dos custos. Analistas queria todos os dados, mas teve de se contentar com instantâneos, na esperança de capturar os dados certos no momento certo.

Principais avanços de hardware e software revolucionou a indústria de gestão de dados. Em primeiro lugar, a inovação ea demanda aumentou o poder e diminuiu o preço do hardware. Novo software se que entendeu como tirar proveito deste hardware, automatizando processos como balanceamento de carga e otimização através de um enorme aglomerado de nós.

Video: 2ª aula - Parte 2: Conceitos Iniciais - Processamento de dados

O software incluído regras internas que entender que certas cargas de trabalho necessário um certo nível de desempenho. O software tratados todos os nós como se fossem simplesmente uma grande piscina de computação, armazenamento e recursos de rede, e moveu processos para outro nó sem interrupção se um nó falhou, usando a tecnologia de virtualização.

As mudanças na economia da computação e de dados grande

Fast-forward e muita coisa mudou. Ao longo dos últimos anos, o custo para adquirir recursos de computação e armazenamento diminuiu drasticamente. Ajudado pela virtualização, servidores de commodities que podem ser agrupados e lâminas que podem ser ligados em rede em um rack mudou a economia da computação. Esta mudança coincidiu com a inovação em soluções de automação de software que melhoraram dramaticamente a capacidade de gestão destes sistemas.



A capacidade de computação distribuída de alavanca e técnicas de processamento paralelo transformado dramaticamente a paisagem e reduzir dramaticamente a latência. Há casos especiais, tais como a alta frequência de negociação (HFT), em que baixa latência só pode ser alcançado por servidores fisicamente localizar em um único local.

O problema com a latência para big data

Um dos problemas perenes com gerenciamento de dados - especialmente grandes quantidades de dados - tem sido o impacto da latência. Latência é o atraso dentro de um sistema baseado em atrasos na execução de uma tarefa. A latência é um problema em todos os aspectos da computação, incluindo comunicação, gerenciamento de dados, o desempenho do sistema e muito mais.

Se você já usou um telefone sem fio, você tem experimentado latência em primeira mão. É o atraso nas transmissões entre você e seu interlocutor. Às vezes, a latência tem pouco impacto na satisfação do cliente, tais como se as empresas precisam analisar os resultados nos bastidores para planejar um lançamento de novos produtos. Isso provavelmente não requer resposta imediata ou de acesso.

No entanto, o mais perto que a resposta é um cliente no momento da decisão, mais que as questões de latência.

computação distribuída e técnicas de processamento paralelo pode fazer uma diferença significativa na latência experimentada pelos clientes, fornecedores e parceiros. Muitas aplicações de dados grandes são dependentes de baixa latência por causa dos requisitos de dados grandes para a velocidade eo volume e variedade dos dados.

Pode não ser possível construir um aplicativo de dados grande em um ambiente de alta latência se alto desempenho é necessário. A necessidade de verificar os dados em tempo quase real também pode ser afetado pela latência. Quando você está lidando com dados em tempo real, um alto nível de latência significa a diferença entre o sucesso eo fracasso.

demanda de dados Big encontra soluções

O crescimento da Internet como uma plataforma para tudo, desde o comércio à medicina transformou a demanda por uma nova geração de gerenciamento de dados. No final de 1990, do motor e da Internet empresas como Google, Yahoo !, e Amazon.com foram capazes de expandir seus modelos de negócios, alavancando hardware barato para computação e armazenamento.

Em seguida, essas empresas precisavam de uma nova geração de tecnologias de software que lhes permitam rentabilizar as enormes quantidades de dados que estavam capturando de clientes. Estas empresas não poderia esperar por resultados do processamento analítico. Eles precisavam a capacidade de processar e analisar esses dados em tempo quase real.


Publicações relacionadas