Dados estruturados em um ambiente de dados grande

O termo dados estruturados

geralmente refere-se a dados que tem um comprimento definido e formato para dados de grandes. Exemplos de dados estruturados incluem números, datas e grupos de palavras e números chamados cordas. A maioria dos especialistas concorda que este tipo de dados é responsável por cerca de 20 por cento dos dados que está lá fora. Os dados estruturados são os dados que você provavelmente está acostumado a lidar com. É geralmente armazenados em um banco de dados.

Fontes de dados grande estruturado

Embora isto possa parecer como o negócio como de costume, na realidade, os dados estruturados está assumindo um novo papel no mundo do big data. A evolução da tecnologia proporciona novas fontes de dados estruturados sendo produzido - muitas vezes em tempo real e em grandes volumes. As fontes de dados são divididos em duas categorias:

  • Por computador ou máquina gerado: dados gerados por máquina geralmente refere-se a dados que são criados por uma máquina sem intervenção humana.

  • -Humano gerado: Este é um dado que os seres humanos, em interação com computadores, fornecimento.

Alguns especialistas argumentam que uma terceira categoria que existe é um híbrido entre a máquina e humano. Aqui, porém, estamos preocupados com as duas primeiras categorias.

dados estruturados gerados por máquina pode incluir o seguinte:

  • dados do sensor: Exemplos incluem rádio etiquetas de identificação de freqüência, medidores inteligentes, dispositivos médicos e dados de Sistema de Posicionamento Global. As empresas estão interessadas no presente para gestão da cadeia de fornecimento e controle de estoque.

  • dados de log web: Quando os servidores, aplicações, redes, e assim por diante operar, eles capturam todos os tipos de dados sobre a sua actividade. Isso pode ascender a grandes volumes de dados que podem ser úteis, por exemplo, para tratar dos acordos de nível de serviço ou para prever violações de segurança.

  • Ponto-de-venda de dados: Quando o caixa furtos o código de barras de qualquer produto que você está comprando, todos os dados associados com o produto é gerado.

  • Dados financeiros: Muitos dos sistemas financeiros estão agora programmatic- eles são operados com base em regras pré-definidas que automatizam processos. dados de negociação de ações é um bom exemplo disso. Ele contém dados estruturados, como o símbolo da empresa e valor do dólar. Alguns desses dados é gerada máquina, e alguns é humano gerado.

Os exemplos de dados gerados em humanos estruturadas podem incluir o seguinte:

  • dados de entrada: Este é qualquer peça de dados que uma entrada de força humana para um computador, tais como nome, idade, renda, as respostas da pesquisa não-livre de forma, e assim por diante. Esta informação pode ser útil para entender o comportamento do cliente básico.



  • Clique com o fluxo de dados: Os dados são gerados a cada vez que você clicar em um link em um site. Estes dados podem ser analisados ​​para determinar o comportamento do cliente e padrões de compra.

  • dados relacionados ao jogo: Cada movimento que você faz em um jogo pode ser gravado. Isso pode ser útil na compreensão de como os usuários finais se mover através de um portfólio de jogos.

Quando tomados em conjunto com milhões de outros usuários que apresentam a mesma informação, o tamanho é astronômico. Além disso, grande parte destes dados tem um componente em tempo real para ele que pode ser útil para a compreensão dos padrões que têm o potencial de resultados prevendo.

A linha inferior é que este tipo de informação pode ser poderoso e pode ser utilizado para muitas finalidades.

O papel dos bancos de dados relacionais em big data

persistência de dados refere-se a como uma base de dados retém versões de si quando modificado. O grande avô de armazenamentos de dados persistentes é o sistema de gerenciamento de banco de dados relacional. Em sua infância, a indústria de computação usado que agora são considerados técnicas primitivas para a persistência de dados.

O modelo relacional foi inventado por Edgar Codd, cientista da IBM, na década de 1970 e foi usado pela IBM, Oracle, Microsoft e outros. Ele ainda está em uso largo hoje e desempenha um papel importante na evolução de big data. Entendendo o banco de dados relacional é importante porque outros tipos de bancos de dados são usados ​​com big data.

Em um modelo relacional, os dados são armazenados em uma tabela. Esta base de dados deverá conter uma esquema - isto é, uma representação estrutural do que está no banco de dados. Por exemplo, em um banco de dados relacional, o esquema define as tabelas, os campos nas tabelas, e as relações entre os dois.

Os dados são armazenados em colunas, cada uma para cada atributo específico. Os dados também são armazenados na fila. O primeiro produto tabela armazena informações- a segunda armazena informações demográficas. Cada um tem vários atributos. Cada tabela pode ser actualizado com novos dados, e os dados podem ser apagados, ler e atualizado. Isso é muitas vezes realizado em um modelo relacional usando uma linguagem de consulta estruturada (SQL).

Outro aspecto do modelo relacional usando SQL é que as tabelas podem ser consultadas utilizando uma chave comum. A chave comum nas mesas é CustomerID.

Você pode enviar uma consulta, por exemplo, para determinar o sexo de clientes que compraram um produto específico. Pode parecer algo como isto:

Selecione Cliente, Estado, Gênero, produtos dos "mesa demográfica", "tabela de produtos" onde produto = XXYY

Publicações relacionadas