As limitações da amostragem em hadoop

Video: Cálculo do tamanho da amostra: IC para proporção

análise estatística está longe de ser um novo garoto sobre o bloco, e é notícia certamente idade que depende de processamento de grandes quantidades de dados para ganhar uma nova visão. No entanto, a quantidade de dados que são tradicionalmente processadas por estes sistemas foi na faixa entre 10 e 100 (ou centenas de) gigabytes - e não o terabytes ou petabytes faixas visto hoje, em outras palavras.

E que muitas vezes necessário um caro de multi-processamento simétrico (SMP) máquina com tanta memória quanto possível para armazenar os dados que está sendo analisado. Isso porque muitos dos algoritmos utilizados pelas abordagens analíticas foram bastante “computação intensiva” e foram projetados para funcionar na memória - como eles exigem múltiplos, e muitas vezes freqüente, passa através dos dados.



Confrontado com hardware caro e um bastante elevado compromisso em termos de tempo e memória RAM, gente tentou fazer as análises de carga de trabalho um pouco mais razoável, analisando apenas uma amostra dos dados. A idéia era manter as montanhas sobre montanhas de dados escondidos em segurança em armazéns de dados, movendo apenas uma amostra estatisticamente significativa dos dados de seus repositórios para um motor de estatística.

Video: BIOEstatística - TIPOS DE AMOSTRAGEM.wmv

Enquanto amostragem é uma boa idéia na teoria, na prática, esta é muitas vezes uma tática confiável. Encontrar uma amostra estatisticamente significativa pode ser um desafio para conjuntos de dados esparsos e / ou distorcidas, que são bastante comuns. Isto leva a amostragens mal julgados, o que pode introduzir outliers e pontos de dados anômalos, e pode, por sua vez, influenciar os resultados de sua análise.


Publicações relacionadas