Garantir a qualidade dos dados de entrada externa

Quando você está projetando um armazém de dados e determinar quais os dados externos que você precisa, você acabou de fazer um pedido (semelhante ao encomendar roupa ou uma cesta de frutas de um site on-line). Depois de começar a receber dados através de um riacho, transferência de arquivos, ou algum outro meio, é bom velejar - ou é?

E sobre a qualidade dos dados de entrada? É absolutamente necessário aplicar o mesmo conjunto de procedimentos de garantia de qualidade (QA) para fornecido externamente dados que você faz com os dados provenientes de seus próprios sistemas internos. Só porque você compra a informação no mercado aberto não garante que os dados são impecável.

Aplicar procedimentos de controle de qualidade de cada lote de entrada de dados, seguindo estes passos:

  1. Descobrir se os dados de entrada tem valores de verificação anexados aos arquivos.

    Alguns exemplos de valores de seleção são o número de registros em cada arquivo, o valor total de cada coluna numérica (dólares de vendas totais para todos os registros e total de unidades vendidas para todos os registros, por exemplo), e subconjuntos dos valores da coluna total (montantes totais de unidades de vendas e por estado, por exemplo).

    Se os valores de verificação são fornecidos, eles devem ser armazenados e utilizados como parte dos procedimentos de carga de ponta-a-ponta. Ninguém deve atualizar oficialmente o conteúdo do armazém até que os totais de verificação de acordo com os cálculos que você fez quando você preparou os dados para o carregamento.

  2. Se nenhum valor de verificação são fornecidos, solicitá-los.

    Embora o pedido pode levar alguns ciclos (de algumas semanas ou meses, por exemplo) para preencher, qualquer provedor de dados interessados ​​em fornecer um alto nível de serviço ao cliente leva este tipo de pedido a sério e se esforça para tornar as informações de controle solicitado disponível.

  3. Durante os procedimentos de carregamento, filtrar cada linha.



    Certifique-se de que as seguintes condições forem verdadeiras:

  1. Chaves (identificadores únicos para cada registro) estão corretos em todas as informações. Por exemplo, se cada registro no grupo SalesMasterRecord de dados deve ter exatamente 12 registros relacionados em SalesDetailRecord (um para cada mês), certifique-se que todos os registros de detalhes estão presentes, comparando os valores da chave de registro.

  2. Gamas de valores estão corretos. As vendas de produtos por mês, por exemplo, deve estar dentro de limites razoáveis ​​para esse tipo de produto (aviões são diferentes dos parafusos, por exemplo).

  3. Faltando campos de informação (um provável - quase inevitável - ocorrência com os dados fornecidos externamente) não distorcer o significado dos dados de entrada.

    Por exemplo, embora a ausência de peças suplementares de dados (definidos de acordo com as regras de negócio para a sua indústria ou organização específica) pode não ser muito séria um problema, se metade dos registros de entrada tem um espaço vazio onde UnitsSold, TotalSalesPrice, ou algum outro tipo de informação crítica deveria ser, o valor dos dados é questionável na melhor das hipóteses.

  4. Especialmente nos primeiros estágios de aquisição de dados externos (os primeiros três ou quatro meses, por exemplo), usar suas ferramentas analíticas, como descrito no Capítulo 10, para realizar a análise da qualidade dos dados antes que os usuários usar as mesmas ferramentas para executar análise de negócios.

    Video: ExcelExpert: Mini Aula - Entrada de Dados Segura

    Procurar esquisitices, anomalias, resultados intrigantes, inconsistências aparentes paradoxos, e qualquer outra coisa que só olha estranho. Em seguida, perfurar até as raízes dos dados para verificar se a fonte da estranheza.

    Lembre-se que você provavelmente está lidando com muitos milhões de linhas de dados de entrada: Além de não ser capaz de conferir pessoalmente cada linha, você pode ter dificuldade em configurar a sua filtragem e QA verificando critérios para cada condição possível.

    Video: Pontos por função - Arquivo de interface externa

    Qualquer pessoa que tenha feito nada com dados de origem fornecido externamente se deparou com todos os tipos de inconsistências estranhas e dados em falta na informação recebida. Ao colocar-se no lugar dos usuários e usando as mesmas ferramentas que eles usam, provavelmente você pode descobrir uma coisa ou duas que você pode corrigir, tornando seu data warehouse um muito melhor loja de informações de negócios valiosas.


Publicações relacionadas