Análise de dados big e o data warehouse

Você vai encontrar o valor em trazer os recursos do data warehouse e do ambiente de dados grande juntos. Você precisa criar um ambiente híbrido em que grandes dados podem trabalhar lado a lado com o armazém de dados.

Video: IBM Big Data Sandbox: Exploração e análise de dados

Primeiro, é importante reconhecer que o data warehouse como ele é projetado hoje não vai mudar no curto prazo.

Portanto, é mais pragmática de usar o data warehouse para o que ele foi projetado para fazer - fornecer uma versão bem-controlados da verdade sobre um tópico que a empresa quer analisar. O armazém pode incluir informações sobre a linha de um determinado produto da empresa, seus clientes, seus fornecedores e os detalhes do valor das transações de um ano.

Video: Big data: explorar a 'verdade' do dado é o desafio da TI

A informação gerida no data warehouse ou data mart departamental foi cuidadosamente construída de modo que os metadados é preciso. Com o crescimento de novas informações com base na Web, é prático e muitas vezes necessário analisar esta enorme quantidade de dados em contexto com dados históricos. Este é o lugar onde o modelo híbrido entra.

Certos aspectos de se casar com o data warehouse com dados grandes pode ser relativamente fácil. Por exemplo, muitas das grandes fontes de dados provenientes de fontes que incluem os seus próprios metadados bem desenhados. sites de comércio eletrônico complexos incluem elementos de dados bem definidos. Portanto, quando a realização de análise entre o armazém e a fonte de dados grande, a organização de gerenciamento de informações está trabalhando com dois conjuntos de dados com modelos de metadados cuidadosamente projetados que têm de ser racionalizado.

Claro que, em algumas situações, as fontes de informação não têm metadados explícita. Antes de um analista pode combinar os dados transacionais históricos com o Big Data menos estruturado, o trabalho tem que ser feito. Normalmente, a análise inicial de petabytes de dados irá revelar padrões interessantes que podem ajudar a prever as mudanças sutis em soluções de negócios ou potenciais para o diagnóstico de um paciente.

A análise inicial pode ser concluída utilizando ferramentas como o MapReduce com a estrutura Hadoop Distributed File System. Neste ponto, você pode começar a entender se é capaz de ajudar a avaliar o problema a ser abordado.



No processo de análise, é tão importante para eliminar os dados desnecessários, pois é para identificar dados relevantes para o contexto de negócios. Quando essa fase estiver concluída, os dados restantes precisa ser transformado de modo que as definições de metadados são precisos. Desta forma, quando os dados grande é combinado com, dados históricos tradicionais do armazém, os resultados serão precisos e significativa.

O eixo central grande integração de dados

Este processo requer uma estratégia de integração de dados bem definido. Enquanto a integração de dados é um elemento crítico da gestão de dados grandes, é igualmente importante ao criar uma análise híbrido com o data warehouse. Na verdade, o processo de extração de dados e transformá-la em um ambiente híbrido é muito semelhante à forma como este processo é executado dentro de um armazém de dados tradicional.

Video: Análise Dimensional e Data Warehouse Aula 1/7 HD

No armazém de dados, os dados são extraídos a partir de sistemas de origem tradicionais, tais como os sistemas CRM ou ERP. É fundamental que os elementos dessas vários sistemas de ser adequada.

Repensar extracção, transformação, e cargas para armazéns de dados

No armazém de dados, muitas vezes você encontrar uma combinação de tabelas relacionais de banco de dados, arquivos simples, e fontes não-relacionais. Um armazém de dados bem construída irá ser arquitectado de modo a que os dados são convertidos para um formato comum, permitindo consultas para ser processado de forma precisa e consistente. Os arquivos extraídos deve ser transformado para coincidir com as regras de negócios e processos da área de assunto que o data warehouse é projetado para analisar.

Em outras palavras, os dados têm que ser extraído das grandes fontes de dados para que essas fontes podem trabalhar com segurança em conjunto e produzir resultados significativos. Além disso, as fontes têm que ser transformado de modo que eles são úteis para analisar a relação entre os dados históricos e os dados mais dinâmica e em tempo real que vem de fontes de dados grandes.

Carregando informações no modelo de dados grande será diferente do que o que seria de esperar em um data warehouse tradicional. Com data warehouses, após dados foi codificada, ela nunca muda. Um armazém de dados típico irá fornecer o negócio com um instantâneo de dados com base na necessidade de analisar uma questão de negócios particular, que requer monitoramento, tais como inventário ou vendas.

Video: Como se Destacar no Mercado de BI & Analytics?

A estrutura de distribuição de dados grandes, muitas vezes, levar organizações a primeiros dados de carga em uma série de nós e, em seguida, realizar a extracção e transformação. Ao criar um híbrido de data warehouse tradicional eo ambiente de dados grande, a natureza distribuída do ambiente de dados grande pode mudar dramaticamente a capacidade das organizações para analisar grandes volumes de dados em contexto com o negócio.


Publicações relacionadas