Jornalismo de dados: coleta de dados para a sua história

Uma peça-jornalismo de dados só é tão bom quanto os dados que o suporta. Para publicar uma história convincente, você deve encontrar dados convincentes sobre a qual construir. Isso nem sempre é fácil, mas é mais fácil se você sabe como usar raspagem

e autofeeds a sua vantagem.

Video: Jornalismo de dados e estatística: a diferença entre provável e esperado

raspagem de dados

Web raspagem envolve a criação de programas automatizados para vasculhar e extrair os conjuntos de dados exatos e personalizados que você precisa diretamente da Internet para que você não tem que fazê-lo sozinho. Os dados que você gerar a partir deste processo é comumente chamado raspadas dados. A maioria dos jornalistas de dados raspar dados de origem para as suas histórias porque é a forma mais eficiente de obter conjuntos de dados para histórias únicas. Conjuntos de dados que são facilmente acessíveis têm normalmente já sido explorado e extraído por equipes de jornalistas de dados que foram à procura de histórias. Para gerar fontes de dados exclusivos para a sua história data-driven, raspar os dados você mesmo.

Se você encontrar dados de fácil acesso, tem cuidado que a maioria das histórias em que dataset provavelmente já foi dito por um jornalista que descobriu que os dados antes de você.

Para ilustrar como você pode usar dados raspagem em jornalismo de dados, imagine o seguinte exemplo: Você é um jornalista de dados vivendo em um estado EUA que faz fronteira directamente do México. Você já ouviu rumores de que a seleção da biblioteca local de livros de língua espanhola das crianças é totalmente inadequada. Você chamar a biblioteca, mas seus funcionários temem publicidade negativa e não compartilhar todas as estatísticas com você sobre o tema.



Porque a biblioteca não vai ceder em seu compartilhamento de dados, você é forçado a raspar catálogo online da biblioteca para obter os dados de origem que você precisa para apoiar esta história. Sua ferramenta de raspagem é personalizado para iterar sobre todas as pesquisas possíveis e manter o controle dos resultados. Depois de raspar o site, você descobre que 25 por cento dos livros infantis na biblioteca são livros de língua espanhola. Falantes de espanhol compõem 45 por cento da população-escolar primária é esta diferença significativa o suficiente para formar a base de uma história? Talvez talvez não.

Para cavar um pouco mais e, possivelmente, descobrir uma razão por trás desta diferença, você decide raspar o catálogo uma vez por semana durante várias semanas, e então comparar os padrões de empréstimos. Quando você achar que uma proporção maior de livros espanhóis estão sendo verificados para fora, isso indica que há, de fato, uma grande procura de livros infantis em espanhol. Esta descoberta, juntamente com os resultados de seu arranhão site anterior, dar-lhe todo o apoio que você precisa para criar um artigo convincente em torno da questão.

Video: www reportagemnews com br terminado o processo de coleta de dados do sensu IBGE 2010 em colider

Configurar alertas de dados

Para gerar histórias picantes, jornalistas de dados devem ter acesso aos mais frescos, mais novos lançamentos de dados que são provenientes das organizações mais credíveis. Para ficar em cima do que conjuntos de dados estão sendo liberados, onde, jornalistas de dados se inscrever para alertar sistemas que enviá-los notificações sempre potencialmente dados importantes é liberado. Estes sistemas de alerta frequentemente emitir notificações via feeds RSS ou via e-mail. Também é possível configurar um aplicativo personalizado como DataStringer para enviar notificações push quando modificações ou atualizações significativas são feitas aos bancos de dados de origem.

Depois de se inscrever para alertas de dados e formar uma ideia sólida sobre o cronograma de liberação de dados, você pode começar o planejamento de lançamentos de dados com antecedência. Por exemplo, se você está fazendo jornalismo de dados no nicho de análise de negócios e saber que um relatório trimestral particularmente interessante é para ser liberado em uma semana, você pode usar o tempo que você tem antes de seu lançamento para formular um plano de como você vai analisar os dados quando ele se torna disponível.

Muitas vezes, depois que você é alertado para novas e importantes lançamentos de dados, você ainda precisa raspar o site de origem a fim de obter esses dados. Em particular, se você está puxando dados de um departamento do governo, é provável que você precisa raspar o site de origem. Embora a maioria das organizações governamentais nos países ocidentais são legalmente obrigados a divulgar dados, eles não são obrigados a liberá-lo em um formato que é facilmente consumível. Não espere que eles para tornar mais fácil para você obter os dados que você precisa para contar uma história sobre suas operações.


Publicações relacionadas