Os 4 v da de big data

O consenso geral do dia é que existem atributos específicos que definem os dados grandes. Na maioria dos grandes círculos de dados, estes são chamados os quatro de V: volume, variedade, velocidade e veracidade. (Você pode considerar um V quinto, o valor.)

Volume

A principal característica que torna os dados “grande” é o grande volume. Não faz sentido para se concentrar em unidades de armazenamento mínimos porque a quantidade total de informações está crescendo exponencialmente a cada ano. Em 2010, Thomson Reuters estimou em seu relatório anual que acreditavam que o mundo era “inundado com mais de 800 exabytes de dados e crescente.”

Video: Sia - The Greatest

Por esse mesmo ano, EMC, uma empresa de hardware que faz com que os dispositivos de armazenamento de dados, pensei que era mais perto de 900 exabytes e iria crescer em 50 por cento a cada ano. Ninguém realmente sabe o quanto novos dados está sendo gerado, mas a quantidade de informação a ser recolhida é enorme.

Variedade

A variedade é um dos desenvolvimentos mais interessantes em tecnologia como mais e mais informação é digitalizada. tipos de dados tradicionais (dados estruturados) incluem coisas em um extrato bancário como data, quantidade e tempo. Estas são coisas que se encaixam perfeitamente em um banco de dados relacional.

Os dados estruturados é aumentada por dados não estruturados, que é onde as coisas como feeds do Twitter, arquivos de áudio, imagens de ressonância magnética, páginas web, web logs são colocados - qualquer coisa que possa ser capturado e armazenado, mas não tem um modelo de meta (Um conjunto de regras para enquadrar um conceito ou ideia - que define uma classe de informações e como expressá-lo) que ordenadamente define.

dados não estruturados é um conceito fundamental em big data. A melhor maneira de entender dados não estruturados é comparando-a com dados estruturados. Imagine dados estruturados como os dados que são bem definidas em um conjunto de regras. Por exemplo, o dinheiro será sempre números e ter pelo menos dois nomes pontos- decimais são expressas como texto- e datas seguem um padrão específico.



Com dados não estruturados, por outro lado, não há regras. Uma imagem, uma gravação de voz, um tweet - todos eles podem ser diferentes, mas expressar idéias e pensamentos com base no entendimento humano. Um dos objetivos de big data é usar a tecnologia para levar esses dados não estruturados e fazer o sentido dele.

A definição de big data depende se os dados podem ser ingerido, processado e examinado em um tempo em que atende aos requisitos de um determinado negócio. Para uma empresa ou sistema, big data pode ser 50TB- para outra, pode ser 10PB.

Veracidade

Veracidade refere-se a fiabilidade dos dados. o gerente pode contar com o fato de que os dados são representativos? Todo bom gestor sabe que existem discrepâncias inerentes em todos os dados coletados.

Velocidade

Velocidade representa a frequência de dados de entrada, que tem de ser processada. Pense em quantas mensagens SMS, Facebook atualizações de status, ou furtos de cartão de crédito estão sendo enviados em uma operadora de telecomunicações em particular a cada minuto de cada dia, e você terá uma boa apreciação da velocidade. Um aplicativo de streaming como Amazon Web Services Kinesis é um exemplo de um aplicativo que controla a velocidade de dados.

Video: Ylvis - The Fox (What Does The Fox Say?) [Official music video HD]

Valor

Pode parecer dolorosamente óbvio para alguns, mas um objetivo real é fundamental para este mashup dos quatro V do. Será que os insights que você se reúnem a partir de análise de criar uma nova linha de produtos, uma oportunidade de cross-sell, ou uma medida de redução de custos? Ou será que a sua análise de dados levou à descoberta de um efeito causal fundamental que resulta em uma cura para uma doença?

O objectivo final de qualquer projeto de dados grande deve ser o de gerar algum tipo de valor para a empresa fazer toda a análise. Caso contrário, você está apenas realizando alguma tarefa tecnológica pela tecnologia.


Publicações relacionadas