Extracção de dados, o movimento, e o carregamento de data warehouse de luxo
data warehouse implementações de luxo são grandes - e ficando cada vez maior o tempo todo. Implementações que usam centenas de gigabytes (um gigabyte equivale a 1 bilhão de bytes) e até mesmo terabytes (1 trilhão de bytes) são cada vez mais comuns. Para gerenciar esse volume de dados e acesso do usuário, você precisa de um servidor muito robusto e banco de dados.
Conteúdo
Video: [AWS Webinars] Data warehouse na nuvem da AWS
Prepare-se para o desafio! Com um Lite armazém de dados, normalmente você pode lidar com o movimento da fonte ao armazém de dados de uma maneira tecnologia de baixo simples, - mas com o luxo de data warehouse, que está agora a entrar na zona de dificuldade, onde os projetos de armazenamento de muitos dados satisfazer as suas Waterloo.
É provável que você enfrentar dificuldades neste domínio por várias razões:
Você está lidando com muitas fontes de dados diferentes, alguns dos quais podem conter dados sobrepostos. Por exemplo, as informações dos fornecedores podem vir de dois sistemas de aquisição diferentes, e alguns de seus fornecedores têm entradas em ambos os sistemas.
Video: E-Gov
Você provavelmente vai correr em diferentes conjuntos de identificadores que você tem que convergir (por exemplo, seis caracteres alfanuméricos que são identificados como o SUPPLIER_ID em um dos sistemas e um inteiro exclusivo, conhecido como SUP_NUM no outro).
Se o seu armazém de dados é grande (com mais de cerca de 250 gigabytes), é provável que você experimentar dificuldades em extrair, mover e carregar suas janelas lote. janelas de lote, os prazos em que as atualizações são feitas para o armazém, são complicadas pelo número de fontes de dados que você tem que lidar.
Video: FGCod: Demonstração da Ferramenta
As possibilidades de ter uma extracção confusa, movimento, transformação, e processo de carregamento é exponencialmente relacionados com o número de elementos de dados a serem carregados no armazém de dados.
Se você pudesse atribuir algum fator de dificuldade (um inteiro, por exemplo) para o processo de obtenção de dados para o armazém, as seguintes medidas seria verdadeiro: Você tem n elementos de dados que você deseja incluir no armazém de dados com um fator de dificuldade da x. Se você tem agora 2n elementos de dados, seu fator de dificuldade não é 2X- ao invés, é X quadrado.
Para fazer este fator de dificuldade mais fácil de entender, atribuir alguns números para n e x. Dizer que seu data warehouse tem 100 elementos (N) eo fator de dificuldade (X) é 5. Se você dobrar o número de elementos (n = 200), o fator de dificuldade é de 25 (5 ao quadrado), não 10 (5 x 2).
O processo de lidar com tantas fontes de dados, tudo se dirigiu para um lugar (o seu data warehouse deluxe), tem todos os elementos de muitos cozinheiros na cozinha, ou o que quer que ditado é.
Para fazer a extração, movimento, transformação e processo de carregamento sem problemas, você provavelmente terá que lidar com muitos proprietários de diferentes aplicativos, guardiões oficiais da base de dados, e outras pessoas de uma variedade de diferentes organizações, os quais têm de cooperar como eles está parte de uma orquestra sinfônica profissional.
A realidade, porém, é que eles executam mais como um grupo de alunos do jardim de infância que cada pegar um instrumento musical do bin de brinquedo e é dito: “Agora jogar alguma coisa!” Embora o processo não está necessariamente fadado ao fracasso, esperam um número de iterações até que você pode obter o luxo de data warehouse carregado apenas para a direita.
Um luxo de data warehouse pode ter três camadas (como um Lite armazém de dados), exceto com mais fontes de dados e talvez mais do que um tipo de ferramenta usuário acessando o armazém. Mas a arquitetura para um luxuoso armazém de dados provavelmente se parece mais com o que é mostrado na figura, com muitos pontos de coleta diferentes para dados.
Video: E-commerce (OLAP)
Além de outras “estações de caminho” necessárias para o seu ambiente particular, seu ambiente pode ter os seguintes elementos:
data mart: Recebe subconjuntos de informações a partir do luxo de data warehouse e serve como o ponto de acesso principal para os usuários.
Interim estação de transformação: Uma área em que conjuntos de dados extraídos de algumas das fontes de sofrer algum tipo de processo de transformação, antes de passar para baixo da tubagem para a base de dados do armazém.
estação de garantia de qualidade: Uma área em que grupos de dados submetidos a controlos de garantia de qualidade intensivo antes de deixá-los passar para o data warehouse.