Arquitetura corporativa para big data

Em perspectiva, a meta para a concepção de uma arquitetura para análise de dados se resume a construção de uma estrutura para a captura, classificação e análise de dados grandes com a finalidade de descobrir resultados acionáveis.

preditivos-analytics-2e-empresa-arquitetura
Pensando na arquitetura que irá transformar os dados grandes em resultados acionáveis.

Não há uma maneira correta para projetar o ambiente arquitectónico para grandes análises de dados. No entanto, a maioria dos projetos precisa atender aos seguintes requisitos para suportar os desafios grandes de dados podem trazer. Estes critérios podem ser distribuído principalmente ao longo de seis camadas e pode ser resumida como se segue:

  • Sua arquitetura deve incluir uma plataforma de dados grande para armazenamento e computação, como Hadoop ou Spark, que é capaz de escalar para fora.
  • Sua arquitetura deve incluir software em grande escala e ferramentas de dados grandes, capazes de analisar, armazenar e recuperar dados grandes. Estes podem consistir em componentes de faísca, ou os componentes de Hadoop ecossistema (tais como Mahout e Apache tempestade). Você também pode querer adotar uma ferramenta de grande escala grandes de dados que será usado por cientistas de dados em seu negócio. Estes incluem Radoop de RapidMiner, IBM Watson, e muitos outros.
  • Sua arquitetura deve suportar a virtualização. A virtualização é um elemento essencial da computação em nuvem, pois permite que vários sistemas operacionais e aplicativos sejam executados ao mesmo tempo no mesmo servidor. Devido a essa capacidade, virtualização e computação em nuvem, muitas vezes andam de mãos dadas. Você também pode adotar uma nuvem privada em sua arquitetura. Uma nuvem privada oferece a mesma arquitetura como uma nuvem pública, exceto os serviços em uma nuvem privada estão restritos a um certo número de usuários por meio de um firewall. Amazon Elastic Computer Cloud é um dos principais fornecedores de soluções de nuvem privada e espaço de armazenamento para as empresas, e pode escalar à medida que crescem.
  • Sua arquitetura pode ter para oferecer análise em tempo real, se sua empresa está trabalhando com dados rápidos (dados que está fluindo em riachos em um ritmo rápido). Em um cenário onde, você precisa considerar uma infra-estrutura que possa suportar a derivação de insights de dados quase em tempo real, sem esperar que os dados sejam gravados no disco. Por exemplo, streaming de biblioteca de Apache faísca podem ser colados com outros componentes para suportar análises sobre fluxos de dados mais rápidas.
  • Sua arquitetura deve contabilizar segurança Big Data através da criação de um sistema de governança em torno do fornecimento de acesso aos dados e os resultados. A arquitetura grande segurança de dados deve estar em consonância com as práticas de segurança padrão e políticas de sua organização que regem o acesso a fontes de dados.
preditivos-Analytics-2E-arquitectura em camadas
As camadas de arquitetura de dados da empresa.

Se você está procurando uma ferramenta robusta para ajudar você a começar a análise de dados sem a necessidade de perícia nos algoritmos e complexidades por trás construção de modelos preditivos, então você deve tentar KNIME, RapidMiner, ou IBM Watson, entre outros.

A maioria das ferramentas anteriores oferecer uma caixa de ferramentas completa, ready-to-use que consiste em recursos que podem ajudar a começar. Por exemplo, RapidMiner tem um grande número de algoritmos de diferentes estados do ciclo de vida de análise preditiva, por isso, fornece um caminho simples para combinar e implantação de modelos de análise rapidamente.

Com RapidMiner, você pode rapidamente carregar e preparar seus dados, criar e avaliar modelos preditivos, use processos de dados em suas aplicações e compartilhá-los com os seus usuários de negócios. Com poucos cliques, você pode facilmente construir um modelo simples de análise preditiva.

preditivos-analytics-2e-RapidMiner
análise de arrastar-e-soltar com RapidMiner.

RapidMiner pode ser usado tanto por iniciantes e experts. RapidMiner Studio é um software de análise preditiva de código aberto que tem uma interface gráfica fácil de usar onde você pode arrastar e soltar algoritmos para carregamento de dados, pré-processamento de dados, análise de algoritmos de previsão, e as avaliações modelo para construir o seu processo de análise de dados.



RapidMiner foi construído para fornecer aos cientistas de dados com uma caixa de ferramentas abrangente que consiste em mais de mil operações e algoritmos diferentes. Os dados podem ser carregados rapidamente, independentemente de sua fonte de dados está em Excel, Access, MS SQL, MySQL, SPSS, Salesforce, ou qualquer outro formato que é suportado por RapidMiner. Além de carregamento de dados, construção de modelos de previsão e avaliação do modelo, esta ferramenta também oferece ferramentas de visualização de dados que incluem auto-organização mapas ajustáveis ​​e gráficos 3-D.

RapidMiner oferece uma interface de programação de aplicativos de extensão aberta (API) que lhe permite integrar os seus próprios algoritmos em qualquer gasoduto construído no RapidMiner. Ele também é compatível com várias plataformas e pode ser executado em principais sistemas operacionais. Há uma emergente comunidade online de cientistas de dados que usam RapidMiner onde podem partilhar os seus processos, e fazer e responder perguntas.

Outra ferramenta para uso fácil, que é amplamente utilizado no mundo da análise é KNIME. KNIME representa o Konstanz Informação Miner. É um processo aberto de análise de dados de origem que podem ajudá-lo a construir modelos preditivos através de um conceito pipelining dados. A ferramenta oferece componentes de arrastar-e-soltar para ETL (extração, transformação e carregamento) e componentes para modelagem preditiva, bem como a visualização de dados.

Video: Ajuda Linux - Dia 84 - Ferramentas de Big Data - Apache Hadoop

KNIME e RapidMiner são ferramentas que você pode armar sua equipe ciência dados para facilmente começar a construir modelos preditivos. Para um caso de uso excelente em KNIME, veja o artigo “As sete técnicas para dimensionalidade Redução.”

RapidMiner Radoop é um produto pela RapidMiner que se estende a análise preditiva caixa de ferramentas no RapidMiner Studio para executar no Hadoop e ambientes de ignição. Radoop encapsula MapReduce, Porco, Mahout e Spark. Depois de definir seus fluxos de trabalho em Radoop, em seguida, as instruções são executadas em Hadoop ou faísca meio ambiente, para que você não tem que programar modelos preditivos mas o foco em avaliação e desenvolvimento de novos modelos modelo.

Video: Big Data, Sistemas de Información Empresarial

Por segurança, Radoop suporta autenticação Kerberos e se integra com Apache Ranger e Apache Sentry.


Publicações relacionadas