Questões de desempenho na gestão de arquitetura big data
Sua arquitetura de dados grande também precisa realizar em conjunto com a infra-estrutura de suporte da sua organização. Por exemplo, você pode estar interessado em executar modelos para determinar se ele é seguro para prospecção de petróleo em uma área offshore de dado em tempo real de dados de temperatura, salinidade, ressuspensão dos sedimentos, e uma série de outros biológicos, químicos e físicos de a coluna de água.
Conteúdo
Pode levar dias para executar este modelo usando uma configuração de servidor tradicional. No entanto, usando um modelo de computação distribuída, o que levou dias pode agora tomar minutos.
O desempenho também pode determinar o tipo de banco de dados você usaria. Por exemplo, em algumas situações, você pode querer entender como dois elementos de dados muito distintas estão relacionados. Qual é a relação entre zumbido em uma rede social e do crescimento das vendas? Esta não é a consulta típica você poderia pedir de um banco de dados estruturado, relacional.
Um banco de dados de gráficos pode ser uma escolha melhor, como ele é projetado especificamente para separar os “nós” ou entidades de suas “propriedades” ou as informações que definem essa entidade, e a “borda” ou relação entre nós e propriedades. Usando o banco de dados certo também irá melhorar o desempenho. Normalmente, o banco de dados do gráfico serão utilizados em aplicações científicas e técnicas.
Outras abordagens importantes de banco de dados operacionais incluem bancos de dados colunar que armazenam informações de forma eficiente em colunas em vez de linhas. Essa abordagem leva a um desempenho mais rápido, porque de entrada / saída é extremamente rápido. Quando o armazenamento de dados geográficos é parte da equação, um banco de dados espacial é otimizado para armazenar e consultar dados com base em como os objetos estão relacionados no espaço.
Organizar serviços de dados grandes e ferramentas
Nem todos os dados que as organizações utilizam está operacional. Uma quantidade crescente de dados vem de uma variedade de fontes que não são tão organizados ou simples, incluindo os dados que vem de máquinas ou sensores, e enormes fontes de dados públicas e privadas. No passado, a maioria das empresas não foram capazes de capturar ou armazenar esta vasta quantidade de dados. Era simplesmente muito caro ou muito grandes.
Mesmo que as empresas foram capazes de capturar os dados, eles não têm as ferramentas para fazer nada sobre isso. algumas ferramentas muito poderia fazer sentido destes grandes quantidades de dados. As ferramentas que existiam eram complexas de usar e não produzir resultados em um prazo razoável.
No final, aqueles que realmente queria ir para o enorme esforço de analisar esses dados eram forçados a trabalhar com instantâneos de dados. Isto tem o efeito indesejável de perder eventos importantes, porque eles não estavam em um instantâneo particular.
MapReduce, Hadoop e Big Table for big data
Com a evolução da tecnologia de computação, é agora possível administrar imensos volumes de dados. Os preços dos sistemas caíram, e como resultado, novas técnicas de computação distribuída são mainstream. O verdadeiro avanço aconteceu como empresas como Yahoo !, Google e Facebook chegou à conclusão de que eles precisavam de ajuda para monetizar as enormes quantidades de dados que eles estavam criando.
Estas empresas emergentes precisavam encontrar novas tecnologias que lhes permitam armazenar, acessar e analisar enormes quantidades de dados em tempo quase real, para que pudessem rentabilizar os benefícios de possuir esta quantidade de dados sobre os participantes em suas redes.
Video: Organização e Arquitetura de Computadores - Módulo I
Suas soluções resultantes estão transformando o mercado de gerenciamento de dados. Em particular, o MapReduce inovações, Hadoop e Big Table provou ser as faíscas que levaram a uma nova geração de gerenciamento de dados. Estas tecnologias resolver um dos problemas mais fundamentais - a capacidade de processar grandes quantidades de dados de forma eficiente, de forma rentável e em tempo hábil.
MapReduce
MapReduce foi projetado pelo Google como uma maneira de forma eficiente a execução de um conjunto de funções de encontro a uma grande quantidade de dados em lote. O “mapa” componente distribui o problema de programação ou tarefas através de um grande número de sistemas e lida com a colocação das tarefas. Ele também equilibra a carga e gerencia a recuperação de falhas. Outra função chamada “reduzir” agrega todos os elementos de volta juntos para fornecer um resultado.
Mesa grande
Big Table foi desenvolvido pela Google para ser um sistema de armazenamento distribuído destinado a gerenciar dados estruturados altamente escaláveis. Os dados são organizados em tabelas com linhas e colunas. Ao contrário de um modelo de banco de dados relacional tradicional, Big Table é um, distribuídos, mapa ordenada multidimensional persistente escassa. Destina-se a armazenar grandes volumes de dados em servidores de commodities.
Video: Avaliação de Eficácia de Treinamentos
Hadoop
Hadoop é um framework de software Apache de gestão derivada de MapReduce e Big Table. Hadoop permite que aplicações baseadas em MapReduce para rodar em grandes aglomerados de hardware commodity. O projeto é a base para a arquitetura de computação apoiando negócio do Yahoo!. Hadoop é projetado para paralelizar processamento de dados entre os nós de computação para acelerar cálculos e esconder a latência.
Dois principais componentes do Hadoop existir: um sistema de arquivos distribuídos massivamente escalável, que pode suportar petabytes de dados e um mecanismo MapReduce massivamente escalável, que calcula os resultados em lote.