Como configurar a base de arquitectura para big data
É importante estabelecer uma base arquitetônica forte se você quiser ser bem sucedido com big data. Além de suportar os requisitos funcionais, é importante para suportar o desempenho exigido. Suas necessidades dependerá da natureza da análise que você está apoiando. Você vai precisar a quantidade certa de poder computacional e velocidade.
Conteúdo
- Video: [aws webinars] patrones de arquitectura para big data en aws
- Interfaces e feeds para big data
- Video: introdução ao bigdata e a arquitetura do hadoop 1.x
- Infra-estrutura física de dados grande redundante
- Infra-estrutura de segurança de big data
- Fontes de dados grandes operacionais
- Video: arquitectura lambda para bigdata
Sua arquitetura também tem que ter a quantidade certa de redundância de modo que você está protegido de latência inesperada e tempo de inatividade.
Comece perguntando a si mesmo as seguintes perguntas:
Quantos dados serão a sua organização precisa para gerenciar hoje e no futuro?
Como, muitas vezes, sua organização precisa para gerenciar dados em tempo real ou quase em tempo real?
Quanto risco sua organização pode pagar? É a sua indústria sujeitos a estrita segurança, conformidade e requisitos de governança?
Quão importante é a velocidade com sua necessidade para gerenciar dados?
Video: [AWS Webinars] Patrones de Arquitectura para Big Data en AWS
Como certa ou precisa que os dados precisam ser?
Interfaces e feeds para big data
Para entender como os dados grande funciona no mundo real, é importante começar por compreender a necessidade de interfaces e feeds. Na verdade, o que faz grande big data é o fato de que ele se baseia em pegar grandes quantidades de dados a partir de muitas fontes.
Video: Introdução ao BigData e a arquitetura do Hadoop 1.x
Portanto, as interfaces de programação de aplicativos (APIs) abertas será fundamental para qualquer arquitetura de dados grande. Além disso, tenha em mente que existem interfaces de em todos os níveis e entre todas as camadas da pilha. Sem serviços de integração, big data não pode acontecer.
infra-estrutura física de dados grande redundante
A infra-estrutura física de apoio é fundamental para o funcionamento e escalabilidade de uma arquitetura de dados grande. Na verdade, sem a disponibilidade de infra-estruturas físicas robustas, grandes dados provavelmente não teria surgido como uma tendência tão importante. Para suportar um volume imprevisto ou imprevisível de dados, uma infra-estrutura física para big data tem que ser diferente do que o de dados tradicionais.
A infra-estrutura física é baseada em um modelo de computação distribuída. Isto significa que os dados podem ser armazenados fisicamente em muitos locais diferentes e podem ser ligados entre si através de redes, o uso de um sistema de arquivos distribuídos, e vários grandes ferramentas analíticas de dados e aplicações.
A redundância é importante porque você está lidando com tantos dados de tantas fontes diferentes. Redundância vem em muitas formas. Se a sua empresa criou uma nuvem privada, você vai querer ter redundância incorporada dentro do ambiente privado para que ele possa escalar para suportar mudança cargas de trabalho.
Se a sua empresa pretende conter o crescimento interno de TI, pode usar serviços de nuvem externos para aumentar seus recursos internos. Em alguns casos, esta redundância pode vir na forma de um Software como uma oferta de serviço (SaaS) que permite às empresas fazer a análise de dados sofisticada como um serviço. A abordagem SaaS oferece custos mais baixos, inicialização mais rápida e evolução contínua da tecnologia subjacente.
infra-estrutura de segurança de Big Data
A análise dos dados grande mais importante se torna para as empresas, o mais importante será assegurar que os dados. Por exemplo, se você é uma empresa de saúde, você provavelmente vai querer usar aplicações de dados grandes para determinar mudanças na demografia ou mudanças nas necessidades dos pacientes. Estes dados sobre seus constituintes precisa ser protegido tanto para atender aos requisitos de conformidade e para proteger a privacidade dos pacientes.
Você terá que ter em conta quem tem permissão para ver os dados e em que circunstâncias eles estão autorizados a fazê-lo. Você terá que ser capaz de verificar a identidade dos usuários, bem como proteger a identidade dos pacientes.
fontes de dados grandes operacionais
É importante compreender que você tem que incorporar todas as fontes de dados que lhe dará uma visão completa do seu negócio e ver como os impactos de dados a maneira de operar o seu negócio. Como o mundo muda, é importante compreender que os dados operacionais agora tem de abranger um conjunto mais amplo de fontes de dados, incluindo fontes não estruturadas, como dados de mídia social em todas as suas formas.
Você encontrar novas abordagens emergentes para a gestão de dados do mundo de dados grande, incluindo documentos, gráfico, colunar, e arquiteturas de banco de dados geoespaciais. Coletivamente, estes são referidos como NoSQL, ou não só SQL, bancos de dados. Em essência, você precisa mapear as arquiteturas de dados para os tipos de transações.
Fazer isso ajudará a garantir a certo dados estão disponíveis quando você precisar dele. Você também precisa de arquiteturas de dados que suportam o conteúdo não estruturado complexo. Você precisa incluir ambos os bancos de dados relacionais e bancos de dados não relacionais em sua abordagem para o aproveitamento de dados grandes. Também é necessário incluir fontes de dados não estruturados, tais como sistemas de gerenciamento de conteúdo, de modo que você pode chegar mais perto que de 360 graus vista de negócios.
Todas essas fontes de dados operacionais têm várias características em comum:
Eles representam sistemas de registro que mantêm o controle dos dados críticos necessários em tempo real, a operação do dia-a-dia do negócio.
Eles são continuamente atualizados com base em transações acontecendo dentro de unidades de negócios e da web.
Para essas fontes para fornecer uma representação exata do negócio, eles devem misturar dados estruturados e não estruturados.
Estes sistemas também deve ser capaz de escalar para suportar milhares de usuários em uma base consistente. Estes podem incluir sistemas transacionais e-commerce, sistemas de gestão de relacionamento com clientes, ou aplicações de call center.
Video: Arquitectura lambda para BigData