Aprendizado de máquina: usando faísca para lidar com dados em massa
Video: CdA: Quem tem medo de Trolls?
O mundo real de aprendizado de máquina depende fortemente de grandes conjuntos de dados. Imagine tentar serpenteiam pelo seu caminho através dos enormes dados gerados apenas pelas vendas feitas por Amazon.com todos os dias. O ponto é que você precisa de produtos que ajudam a gerenciar esses enormes conjuntos de dados de uma forma que torna mais fácil trabalhar com e mais rápido para processar. Este é o lugar onde Faísca entra. Ele se baseia em uma técnica de agrupamento.
Video: Dinâmica do aprendizado
A ênfase da faísca é a velocidade. Quando você visitar o site, você é recebido por estatísticas, tais como a capacidade de faísca para processar dados de uma centena de vezes mais rápido do que outros produtos, tais como Hadoop MapReduce (ver a tutorial) em memória. No entanto, o Spark também oferece flexibilidade na medida em que trabalha com Java, Scala, Python, e R, e ele roda em qualquer plataforma que suporte Apache. Você pode até mesmo executar faísca na nuvem, se quiser.
Faísca trabalha com grandes conjuntos de dados, o que significa que você precisa saber linguagens de programação, gestão de banco de dados, e outras técnicas para desenvolvedores de usá-lo. Isto significa que a curva de aprendizagem faísca pode ser bastante elevado, e você precisa dar tempo para os desenvolvedores em sua equipe para aprender. Os exemplos simples no site da faísca lhe dar algumas idéias do que está envolvido. Observe que todos os exemplos incluem algum nível de codificação, para que você realmente precisa ter habilidades de programação para usar esta opção.