Técnicas utilizadas na codificação empregos para analisar grandes volumes de dados
Se você está esperando para conseguir um emprego na codificação, você pode ser solicitado para analisar os dados grandes. Quando eles pensam de análise de dados, muitas pessoas imaginam modelos matemáticos complexos. Essas equações certamente têm o seu lugar, mas existem outras técnicas de análise de dados. Este descreve alguns dos mais usados para analisar grandes conjuntos de dados.
Conteúdo
- Video: com poucas vagas, qualificação é diferencial na busca por emprego
- Resumindo tendências de dados e examinar os outliers
- Segmentação e agregação de dados
- Video: desemprego: trabalhador paga a conta do ajuste
- A combinação de dois ou mais conjuntos de dados
- Video: [tv tribuna] primeiro emprego: os caminhos para conseguir uma vaga
- Modelagem
- Video: análise: saldo de empregos na região ultrapassa 3 mil, nos cinco primeiros meses de 2012
Video: Com poucas vagas, qualificação é diferencial na busca por emprego
Resumindo tendências de dados e examinar os outliers
Uma técnica de análise de dados simples é representar graficamente os dados e ver se existem quaisquer valores atípicos extremos ou tendências interessantes. O desafio com esta tarefa é encontrar todos os dados relevantes, e sabendo o suficiente sobre os dados subjacentes estabelecidos para detectar anomalias.
Por exemplo, o Departamento de New York City da Saúde atribui a cada um dos seus 24.000 restaurantes uma carta grau de A (13 ou menos pontos), B (14 a 27) ou C (28 ou mais, o que pode fechar um restaurante até o violações são corrigidos) com base no cumprimento do código de saúde. Ben Wellington, um analista de dados e blogueiro, mapeou todos os restaurante carta notas e percebeu que três vezes mais restaurantes marcou 13 pontos, a pontuação mais baixa que ainda recebe um A, de 14 pontos, um grau B.
Em outras palavras, os inspectores de saúde podem ser inflar os tipos para os restaurantes sobre a borda de um A ou um B pontuação. A descoberta gerou cobertura do jornal e as respostas do Departamento de Saúde NY.
Segmentação e agregação de dados
Outra técnica de análise de dados é a de filtrar seus dados para determinados critérios, e depois agregar os dados para ver se há uma história interessante.
Video: Desemprego: trabalhador paga a conta do ajuste
Google, por exemplo, criou um mapa da gripe denominada Flu Trends, filtrando todas as suas consultas de pesquisa para termos de pesquisa relacionadas à gripe. Eles agregadas as consultas por localização e destacou aumentos anormais. Tradicionalmente, os Centros dos EUA para Controle de Doenças monitora surtos de gripe através de relatórios sobre visitas ao médico. Em 2009, Flu Trends previu o surto de gripe nos EUA em tempo real, duas semanas antes do CDC relatórios oficiais.
A combinação de dois ou mais conjuntos de dados
O mash up de dois conjuntos de dados diferentes podem criar resultados inesperados e interessantes. Sempre que você combinar conjuntos de dados, os desafios estão limpando os dados e entender como combiná-lo.
Por exemplo, mais da metade dos esgotos de Nova Iorque foram obstruídos, ea cidade queria encontrar restaurantes que foram ilegalmente de dumping graxa nos esgotos da cidade. Normalmente, a cidade seria capaz de inspecionar apenas uma fração de seus 20.000 restaurantes. Em vez disso, analistas de dados da cidade mapeou a localização dos drenos entupidos e restaurante locais que não têm serviços de gestão de resíduos.
Embora locais de mapeamento pode parecer simples, agências em NY localização relatório de maneiras diferentes, como por GPS, bloquear ou parcela. A lista resultante era pequeno o suficiente para inspetores da cidade para enfrentar, ea iniciativa resolvido 95 por cento do despejo ilegal.
Video: [TV TRIBUNA] Primeiro emprego: os caminhos para conseguir uma vaga
Modelagem
Grande parte do avançado trabalho de dados grande, e trabalhar provavelmente você vai fazer se você se tornar um analista de dados, envolve algum tipo de modelagem. UMA modelo é um nome dado a uma fórmula matemática usada para representar informação do mundo real, e muitos tipos diferentes de modelos e fórmulas existem.
Em geral, os modelos tipicamente quer prever algum valor futuro ou classificar os dados em categorias. Por exemplo, os modelos podem prever como o Supremo Tribunal dos EUA vai decidir sobre um caso particular, ou o que os filmes para assistir no próximo dado os filmes que você já viu. Além disso, os modelos podem classificar se o e-mail que você acabou de receber uma mensagem de spam ou uma mensagem legítima, e onde os rostos estão em fotos de pessoas.
Kaggle.com hospeda competições que envolvem análise de dados real em que qualquer pessoa pode praticar suas habilidades de dados. Algumas pessoas usam modelos e técnicas extremamente complexas, mas as pessoas que consistentemente ganhar competições Kaggle comentar que os modelos simples costuma fazer melhor.
Video: Análise: Saldo de empregos na região ultrapassa 3 mil, nos cinco primeiros meses de 2012
Melhorar os modelos utilizados para prever opiniões judiciais e classificar e-mail requerem intervenção humana. Mumaaprendizagem chine é o termo que descreve um conjunto de modelos que aprender e melhorar o desempenho automaticamente. Existem duas categorias de aprendizado:
aprendizagem supervisionada: Dados com uma estrutura conhecida e relacionamento é examinado.
Por exemplo, o livro Moneyball narra como Billy Bean, o gerente geral do Oakland Athletics, usados porcentagem on-base de um jogador e anda como preditores para quantas corre o jogador iria marcar em um jogo.
aprendizagem não supervisionada: Dados sem estrutura ou uma relação conhecida é analisado para tentar encontrar uma certa relação.
Por exemplo, suponha que você tem um site de namoro e querem dividir os usuários em três a seis grupos de modo que você pode combinar pessoas em cada grupo com interesses semelhantes. Antes de olhar para os perfis das pessoas, você não vai saber quantos grupos você terá no final ou o que será. Depois de iniciar dividindo seus usuários, você achar que você tem um grupo de pessoas que trabalham em startups, um grupo de pessoas de meia-idade interessadas em arte e teatro, e um grupo que gosta de correr e esqui.