Modificar produtos de inteligência de negócios para lidar com big data
produtos de inteligência de negócios tradicionais não foram realmente projetado para lidar com grandes volumes de dados, de modo que eles podem exigir algumas modificações. Eles foram projetados para trabalhar com, dados bem compreendidos altamente estruturadas, muitas vezes armazenados em um repositório de dados relacional e exibidos em seu computador desktop ou laptop. Esta análise de inteligência de negócios tradicional é normalmente aplicada para instantâneos de dados, em vez de toda a quantidade de dados disponíveis. O que é diferente com a análise de dados grande?
Conteúdo
dados dados Big
Big data consiste em dados estruturados, semi-estruturados e não estruturados. Muitas vezes você tem um monte dele, e ele pode ser bastante complexo. Quando você pensa sobre analisá-lo, você precisa estar ciente das características potenciais de seus dados:
Video: MBA em Análise de Inteligência de Negócio
Ela pode vir de fontes não confiáveis. análise de dados Big muitas vezes envolve a agregação de dados de várias fontes. Estes podem incluir tanto as fontes de dados internas e externas. Como de confiança são essas fontes externas de informação? Por exemplo, o quão confiável é de dados de mídia social como um tweet? As informações podem ser provenientes de uma fonte não verificada. A integridade dos dados precisa ser considerado na análise.
Video: Inteligencia de negocios
Ele pode estar sujo. dados sujos refere-se a dados imprecisos, incompletos, ou erróneas. Isso pode incluir o erro de ortografia de palavras: um sensor que está quebrado, não devidamente calibrado, ou corrompido de alguma forma- ou até mesmo dados duplicados. cientistas de dados debater sobre onde para limpar os dados - ou perto da fonte ou em tempo real.
Claro, uma escola de pensamento diz que os dados sujos não devem ser limpos em tudo, pois pode conter valores atípicos interessantes. A estratégia de limpeza provavelmente vai depender da fonte e tipo de dados e o objetivo de sua análise. Por exemplo, se você está desenvolvendo um filtro de spam, o objetivo é detectar os maus elementos nos dados, para que você não gostaria de limpá-lo.
A proporção de sinal-para-ruído pode ser baixa. Em outras palavras, o sinal (informação utilizável) pode ser apenas uma pequena percentagem da data- o ruído é o resto. Ser capaz de extrair um sinal minúsculo de dados barulhento é parte do benefício de grandes análise de dados, mas você precisa estar ciente de que o sinal pode ser de fato pequena.
Pode ser em tempo real. Em muitos casos, você estará tentando analisar fluxos de dados em tempo real.
governança de dados Big vai ser uma parte importante da equação analytics. Debaixo de análise de negócios, melhorias precisam ser feitas para soluções de governança para assegurar a veracidade vindo das novas fontes de dados, especialmente no que está sendo combinado com existente dados armazenados em um armazém confiável. soluções de segurança e privacidade de dados também precisa ser melhorada para suportar o gerenciamento / governar grandes dados armazenados dentro de novas tecnologias.
Analíticos grandes algoritmos de dados
Quando você está considerando grandes análise de dados, você precisa estar ciente de que quando você expandir para além do desktop, os algoritmos que você usa com freqüência precisam ser reformulado, a alteração do código interno sem afectar o seu funcionamento externo. A beleza de uma infra-estrutura de dados grande é que você pode executar um modelo que costumava levar horas ou dias em minutos.
Isso permite que você iterar sobre o modelo de centenas de vezes. No entanto, se você estiver executando uma regressão em um bilhão de linhas de dados através de um ambiente distribuído, você precisa considerar as necessidades de recursos relacionados com o volume de dados e sua localização no cluster. Seus algoritmos precisam ser dados conscientes.
Além disso, os vendedores estão começando a oferecer novas análises destinados a ser colocados perto das grandes fontes de dados para analisar os dados no lugar. Esta abordagem de análise de execução mais perto das fontes de dados minimiza a quantidade de dados armazenados por mantendo apenas os dados de alto valor. É também permite analisar os dados mais cedo, o que é fundamental para a tomada de decisão em tempo real.
Claro, o Google Analytics continuará a evoluir. Por exemplo, você pode precisar de recursos de visualização em tempo real para exibir dados em tempo real que está mudando continuamente. Como você praticamente traçar um bilhão de pontos em um gráfico de pontos? Ou, como você trabalhar com os algoritmos de previsão para que eles executar rápido o suficiente e análise profunda o suficiente para utilizar, um conjunto de dados complexos em constante expansão? Esta é uma área de pesquisa ativa.
apoio Big infraestrutura de dados
Basta dizer que, se você está procurando uma plataforma, ele precisa alcançar o seguinte:
Integrar tecnologias: A infra-estrutura precisa integrar novas tecnologias de big data com as tecnologias tradicionais de ser capaz de processar todos os tipos de dados grandes e torná-lo consumível por análises tradicionais.
Armazenar grandes quantidades de dados díspares: Um sistema Hadoop endureceu a empresa pode ser necessário que pode processar / store / gerenciar grandes quantidades de dados em repouso, se está estruturada, semi-estruturados ou não estruturados.
Dados do processo em movimento: A capacidade de computação fluxo pode ser necessário para processar dados em movimento que é continuamente gerados por sensores, dispositivos inteligentes, vídeo, áudio e registros para apoiar a tomada de decisão em tempo real.
Data Warehouse: Você pode precisar de uma solução otimizada para cargas de trabalho analíticas operacionais ou profundas para armazenar e gerir as quantidades crescentes de dados confiáveis.
E, claro, você precisa a capacidade de integrar os dados que você já tem no local, juntamente com os resultados da análise de dados grande.