Workflows de dados grandes
Para entender grandes fluxos de trabalho de dados, você tem que entender o que um processo é e como ele se relaciona com o fluxo de trabalho em ambientes de dados intensivos. Processos tendem a ser concebido como alto nível, estruturas end-to-end úteis para a tomada de decisão e normalizando como as coisas são feitas em uma empresa ou organização.
Conteúdo
Video: Estrutura de Dados aula 01
Em contraste, os fluxos de trabalho são orientados para a tarefa e muitas vezes exigem dados mais específicos do que os processos. Processos são compostos por um ou mais fluxos de trabalho relevantes para o objectivo global do processo.
De muitas maneiras, grandes fluxos de trabalho de dados são semelhantes aos fluxos de trabalho padrão. De fato, em qualquer fluxo de trabalho, os dados é necessário nas várias fases para realizar as tarefas. Considere o fluxo de trabalho em uma situação de saúde.
Video: Criando Workflow no SharePoint Parte 1
Um fluxo de trabalho fundamental é o processo de “retirada de sangue.” Desenho de sangue é uma tarefa necessária necessário para concluir o processo de diagnóstico geral. Se algo acontecer e sangue não foi elaborada ou os dados a partir desse exame de sangue foi perdido, será um impacto direto sobre a veracidade ou a veracidade da actividade global.
O que acontece quando você introduzir um fluxo de trabalho que depende de uma fonte de dados grande? Embora você possa ser capaz de usar fluxos de trabalho existentes, não se pode presumir que um processo ou fluxo de trabalho irá funcionar corretamente por apenas substituindo uma fonte de dados grande para uma fonte padrão. Isso pode não funcionar porque os métodos de processamento de dados padrão não têm as abordagens de processamento ou desempenho para lidar com a complexidade dos grandes dados.
Video: Sharepoint 2010 - Manipulando dados [MSDNBR]
O exemplo de saúde centra-se na necessidade de proceder a uma análise após o sangue é retirado do paciente. No fluxo de trabalho de dados padrão, o sangue é digitado e, em seguida, certos testes químicos são realizadas com base nas necessidades do profissional de saúde.
É pouco provável que este fluxo de trabalho compreende o teste requerida para a identificação de biomarcadores específicos ou mutações genéticas. Se você forneceu fontes de dados grandes para biomarcadores e mutações, o fluxo de trabalho seria um fracasso. Não é grande de dados conscientes e terá de ser modificado ou reescrito para suportar dados grandes.
A melhor prática para a compreensão de fluxos de trabalho e o efeito de big data é fazer o seguinte:
Identificar as fontes de dados grandes que você precisa usar.
Mapa dos grandes tipos de dados para seus tipos de dados de fluxo de trabalho.
Certifique-se que você tem a velocidade de processamento e armazenamento de acesso para apoiar o seu fluxo de trabalho.
Selecione o armazenamento de dados mais adequados para os tipos de dados.
Modificar o fluxo de trabalho existente para acomodar os dados grandes ou criar novo fluxo de trabalho de dados grande.
Depois de ter suas grandes fluxos de trabalho de dados, será necessário ajustar estes de modo que não vai sobrecarregar ou contaminar sua análise. Por exemplo, muitas fontes de dados grandes não incluem definições de dados bem definidos e metadados sobre os elementos dessas fontes. Às vezes, essas fontes de dados não foram limpos. Você precisa ter certeza de que você tem o nível adequado de conhecimento sobre as fontes que você vai usar.