Conjuntos de dados que incluem datas

Você muito raramente funciona através de um conjunto de dados que não inclua datas. Comprar datas, datas de nascimento, datas de atualização, datas cotação, ea lista continua. Em quase todos os contextos, algum tipo de data é necessária para obter uma imagem completa da situação que você está tentando analisar.

Video: Modelo Relacional - Aula 03 - Bancos de Dados 2016.1

Lidar com datas podem ser um pouco complicado, em parte devido à variedade de maneiras de armazená-los. Mas também, dependendo do que você está tentando fazer, você pode só precisa parte da data. Aqui estão algumas situações comuns de olhar para fora.

Lidar com formatos datetime

Para começar, a maioria dos sistemas de gerenciamento de banco de dados tem uma maneira extremamente precisa de armazenar datas internamente: Eles usam uma data hora. Este é exatamente o que parece: um mashup da data e hora. Por exemplo, um formato comum se parece com isso:

2014 - 11 - 2414: 25: 44

Video: Matemática - Conjuntos - Parte 1 - 2

Isso significa que 25 minutos e 44 segundos últimos 2:00 em 24 de novembro de 2014.

O detalhe aparentemente excessiva aqui raramente é totalmente utilizado. De longe o usuário mais comum de todos os detalhes é o próprio sistema de gerenciamento de banco de dados. É uma prática comum para os bancos de dados para colocar um carimbo de data e hora em todos os registros para indicar quando o registro foi criado e quando foi a última atualização. Os sistemas de New York Stock Exchange, na verdade, manter o controle de selos de tempo comercial para uma precisão ainda maior.

Para a maioria das aplicações analíticas, no entanto, este é mais detalhe do que você quer.

Se você está analisando o preço de fechamento de um estoque ao longo do tempo, você não vai estar interessado em mais do que apenas o dia ou talvez o mês associado a cada preço de fechamento. Se você está fazendo uma análise demográfica de distribuições de idade, o ano de nascimento pode ser tudo o que é relevante.

Datas de nascimento são um bom exemplo de algo que você pode encontrar com os dados de data e hora. Mesmo que os dados podem ser armazenados em um campo de data e hora, pode ser o caso que apenas uma parte do campo está realmente sendo usado. Datas de nascimento normalmente têm a parte do tempo cumprido em 00:00:00 para cada registro.

Felizmente, ambos os sistemas de banco de dados e software analítico têm built-in funções que lhe permitem extrair apenas a parte da data e hora que é relevante para você. Você pode escolher para extrair apenas a parte data, apenas o mês eo ano, apenas o ano, e assim por diante. E, de fato, esta é muitas vezes feito para você antes de você ver os dados.

Levando em conta a geografia

No admirável mundo novo da economia global, você provavelmente vai encontrar os dados que foram coletados a partir de vários locais diferentes. Qualquer um que já tentou agendar uma chamada de conferência internacional está bem ciente da logística envolvida em lidar com vários fusos horários. Cada vez mais comum hoje em dia são conferência pós-meia-noite chama com a Índia.



Um típico exemplo grandes de dados envolve a gestão da cadeia de abastecimento. Gestão da cadeia de abastecimento é o processo contínuo de tentar gerir matérias-primas, estoques, distribuição e qualquer outro aspecto relevante do negócio de uma empresa. É como Walmart mantém prateleiras abastecido, como UPS se mantém informado dos pacotes, e como Amazon consegue entregar quase qualquer coisa imaginável em quase qualquer lugar.

Nestes exemplos, a análise subjacente à gestão da cadeia de fornecimento tem de levar em conta que os dados são provenientes de diferentes fusos horários. Quando confrontados com situações como esta, os dados de data e hora deve ser tratado com cuidado.

Suponha que um pacote é enviado da Califórnia às 10 horas de quarta-feira e é entregue ao seu destino final em Nova York na quinta-feira às 10:00 Se você está interessado em analisar os prazos de entrega, você precisa levar em conta a mudança de fuso horário. Neste exemplo, o tempo de entrega é, na verdade, 21 horas, e não 24.

Ao lidar com dados de data e hora, coletados em diferentes fusos horários, você não pode simplesmente comparar diferentes pontos de dados com base nos dados brutos. Você precisa primeiro se certificar de que todos os datetimes são representados em um fuso horário comum. O fuso horário que você usa é um pouco arbitrária, desde que todos os pontos de dados estão usando a mesma.

Há um outro geograficamente - ou, para ser mais preciso, culturalmente - fato relacionado que você precisa estar ciente. Nem todos os países representam datas no mesmo caminho. Os EUA é realmente algo único em representar datas como dia / mês / ano. Canadá e grande parte da Europa preferem usar o dia de convenções / mês / ano. Você também pode executar em variações começando com o ano.

Como o software pensa sobre datas

As datas são usados ​​em uma variedade de maneiras em análise de dados. Às vezes, como com a análise do preço das ações, sua principal função é colocar as observações, a fim de primeira para a última. Mas em outros casos, eles são usados ​​para medir intervalos de tempo.

Na engenharia, especialmente em aplicações de controle de qualidade, uma estatística chave é tempo até a falha dizer. Isto é simplesmente a média de vida de uma peça ou produto. Para produtos de longa duração, como peças de automóveis e lâmpadas, esse cálculo requer a comparação de datas.

Em face disso, 15 agosto de 2013 menos 01 janeiro de 2010 não faz muito sentido matematicamente. Todos sabemos o que se entende por isso, mas é preciso pensar um pouco para obter a resposta. Por esta razão, muitos pacotes estatísticos, quando confrontado com datas, imediatamente convertê-los em um número, a fim de facilitar as comparações. Eles fazem isso por pegar algum ponto de partida e calcular o número de dias entre esse ponto de partida ea data em que está sendo convertido.

Por exemplo, um grande fabricante de software estatístico, SAS, utiliza a data de 1 de janeiro de 1960 como ponto de partida. Esta data tem o valor 0. Ele armazena todas as datas como o número de dias é longe deste ponto de partida. Assim, SAS pensa 1º de janeiro de 1961 como 366 (lembre-se de 1960 foi um ano bissexto, e 1 de Janeiro é dia 0, não o dia 1). O ponto de partida é fabricantes de software arbitrárias e diferentes usam diferentes pontos de partida, mas a ideia é a mesma.

Uma conseqüência ímpar desta convenção é que se você olhar para os dados brutos, não só são todos os inteiros datas, mas eles nem sequer tem que ser inteiros positivos. No exemplo SAS, 01 de janeiro de 1959 seria representado como -365.

Em qualquer caso, esta forma de datas manipulação facilita cálculos. Ao converter a data para um número na entrada, o sistema evita ter que saltar através de aros cada vez que um cálculo envolvendo essa data é executada.


Publicações relacionadas