Desempenho e dados de grande
Video: Pisa: quase metade dos estudantes tem desempenho menor que o adequado
Conteúdo
Basta ter um computador mais rápido não é suficiente para assegurar o nível adequado de desempenho para lidar com dados grandes. Você precisa ser capaz de distribuir componentes do seu serviço de dados grande em toda uma série de nós. Em computação distribuída, uma nó é um elemento contido dentro de um conjunto de sistemas ou dentro de uma cremalheira.
Um nó geralmente inclui CPU, memória e algum tipo de disco. No entanto, um nó também pode ser uma CPU lâmina e memória que dependem de armazenamento nas proximidades dentro de um rack.
Video: Desempenho das Exportações gaúchas - (1° trimestre de 2017) - TomásTorezani
Dentro de um ambiente de dados grande, esses nós são tipicamente agrupados em conjunto para proporcionar escala. Por exemplo, você pode começar com uma análise de dados grande e continuar a adicionar mais fontes de dados. Para acomodar o crescimento, uma organização simplesmente adiciona mais nós em um cluster de modo que possa dimensionar para acomodar necessidades de crescimento.
No entanto, não é suficiente para simplesmente expandir o número de nós no cluster. Pelo contrário, é importante ser capaz de enviar parte da análise de dados grande para diferentes ambientes físicos. Onde você enviar essas tarefas e como você gerenciá-los faz a diferença entre sucesso e fracasso.
Em algumas situações complexas, você pode querer executar muitos algoritmos diferentes em paralelo, mesmo dentro do mesmo cluster, para atingir a velocidade de análise necessário. Por que você executar diferentes algoritmos de dados grandes em paralelo dentro do mesmo rack? Quanto mais próximas as distribuições de funções são, mais rápido eles podem executar.
Embora seja possível distribuir análise de dados grande em redes para tirar proveito da capacidade disponível, você deve fazer este tipo de distribuição com base em requisitos de desempenho. Em algumas situações, a velocidade de processamento tem um assento traseiro. No entanto, em outras situações, obtendo resultados rápidos é a exigência. Nesta situação, você quer ter certeza de que as funções de rede estão em estreita proximidade um do outro.
Em geral, o ambiente de dados grande tem de ser otimizado para o tipo de tarefa analítica. Portanto, a escalabilidade é o eixo central de fazer operar grandes dados com êxito. Embora seja teoricamente possível operar um ambiente de dados grande em um único ambiente grande, não é prático.
Para entender as necessidades de escalabilidade em big data, só tem de olhar para escalabilidade em nuvem e compreender os requisitos e a abordagem. Como computação em nuvem, Big Data exige a inclusão de redes rápidas e clusters de baixo custo de hardware que podem ser combinados em racks para aumentar o desempenho. Esses aglomerados são suportados pela automação software que possibilita a ampliação dinâmica e balanceamento de carga.
O design e implementações de MapReduce são excelentes exemplos de como a computação distribuída pode fazer grandes dados operacionalmente visível e acessível. Em essência, as empresas estão em um dos pontos de viragem únicos em computação onde os conceitos de tecnologia se unem no momento certo para resolver os problemas certos. Combinando computação distribuída, sistemas de hardware melhoradas e soluções práticas como MapReduce e Hadoop está mudando o gerenciamento de dados de maneira profunda.