Como garantir a validade, veracidade, e volatilidade dos big data
Alto volume, alta variedade e alta velocidade são as características essenciais de dados grandes. Mas outras características de big data são igualmente importantes, especialmente quando você aplicar dados grandes para os processos operacionais. Este segundo conjunto de características em “V” que são fundamentais para a operacionalização grande de dados inclui
Conteúdo
Validade: Os dados são corretas e precisas para o uso pretendido?
Video: How to Argue - Philosophical Reasoning: Crash Course Philosophy #2
Veracidade: Os resultados são significativos para o espaço dado problema?
Volatilidade: Quanto tempo você precisa para armazenar esses dados?
validade dos dados Big
Você quer resultados precisos. Mas nos estágios iniciais de análise de petabytes de dados, é provável que você não vai se preocupar sobre como válida cada elemento de dados é. Esse fluxo inicial de big data pode realmente ser muito sujo. Nos estágios iniciais, é mais importante para ver se existem relações entre os elementos dentro desta fonte de dados maciça do que para garantir que todos os elementos são válidos.
No entanto, após uma organização determina que partes do que a análise inicial dos dados são importantes, este subconjunto de big data precisa ser validado porque vai agora ser aplicada a uma condição operacional. Quando os dados se move a partir exploratória para acionável, os dados devem ser validados. A validade de fontes de dados grandes e posterior análise deve ser precisa, se você estiver a usar os resultados para a tomada de decisão.
dados de entrada válido, seguido por um processamento correcto dos dados devem produzir resultados precisos. Com dados grandes, você deve ser extremamente vigilantes quanto à validade. Por exemplo, na área da saúde, você pode ter dados de um ensaio clínico que poderia estar relacionado com os sintomas da doença de um paciente. Mas um médico tratando essa pessoa não pode simplesmente tomar os resultados de ensaios clínicos como sem validá-los.
Imagine que o satélite meteorológico indica que uma tempestade está começando em uma parte do mundo. Como é que tempestade afetar indivíduos? Com cerca de meio bilhão de usuários, é possível analisar Twitter córregos para determinar o impacto de uma tempestade sobre as populações locais. Portanto, usando o Twitter em combinação com dados de um satélite meteorológico poderia ajudar os pesquisadores a entender a veracidade de uma previsão do tempo.
volatilidade de dados grande
Se você tiver dados válidos e pode provar a veracidade dos resultados, quanto tempo os dados precisam “ao vivo” para satisfazer suas necessidades? Em um cenário de dados padrão, você pode manter os dados por décadas, porque você tem, ao longo do tempo, construiu uma compreensão de que os dados são importantes para o que você faz com ele. Você estabeleceu regras para a moeda e disponibilidade de dados que mapeiam para os seus processos de trabalho.
Por exemplo, algumas organizações só pode manter o ano mais recente de seus dados de clientes e transações em seus sistemas de negócios. Isso irá garantir a recuperação rápida dessas informações quando necessário. Se eles precisam de olhar para um ano antes, a equipe de TI pode precisar para restaurar dados de armazenamento offline para honrar o pedido. Com big data, este problema é ampliado.
Se o armazenamento é limitado, olhar para as grandes fontes de dados para determinar o que você precisa para reunir e quanto tempo você precisa para mantê-lo. Com algumas fontes de dados grandes, você só precisa de reunir dados para uma análise rápida.
Você poderia, então, armazenar as informações localmente para posterior processamento. Se você não tem armazenamento suficiente para todos esses dados, você pode processar os dados “on the fly” e manter apenas pedaços de informação relevantes localmente. Quanto tempo você manter os dados grandes disponíveis depende de alguns fatores:
A quantidade de dados é mantido na fonte?
Você precisa processar os dados repetidamente?
Você precisa processar os dados, reunir dados adicionais, e fazer mais processamento?
Você tem regras ou regulamentos que exigem armazenamento de dados?
Os seus clientes dependem de seus dados para o seu trabalho?
Será que os dados ainda têm valor ou é não é mais relevante?
Devido ao volume, variedade e velocidade de dados grandes, você precisa entender a volatilidade. Para algumas fontes, os dados serão sempre lá- para outros, este não é o caso. Entender o que os dados está lá fora e por quanto tempo pode ajudá-lo a definir requisitos de retenção e políticas de big data.
Como consumidor, grandes dados vai ajudar a definir um perfil melhor para como e quando você comprar bens e serviços. Como um paciente, grandes dados vai ajudar a definir uma abordagem mais personalizada aos tratamentos e manutenção da saúde. Como profissional, big data irá ajudá-lo a identificar as melhores formas de projetar e fornecer seus produtos e serviços.
Isso só vai acontecer quando grande dados são integrados aos processos operacionais das empresas e organizações.