Raspagem, coleta e manipulação de ferramentas de ciência de dados
Se você precisa de dados para apoiar uma análise de negócios ou uma próxima peça de jornalismo, web-raspagem pode ajudá-lo a rastrear fontes de dados interessantes e originais. Dentro web-raspagem
Conteúdo
Raspagem de dados com import.io
Alguma vez você já tentou copiar e colar uma tabela a partir da web para um documento do Microsoft Office e, em seguida, não foi capaz de obter as colunas para alinhar corretamente? Frustrante, certo? Este é exatamente o ponto de dor que import.io foi projetado para resolver.
Video: Divulgação do Curso de Introdução à Coleta de Dados da Web - Web Scraping (Raspagem de Dados)
import.io - pronuncia-se “import-eye-oh” - é uma aplicação desktop livre que você pode usar para copiar sem dor, pasta, limpo, e formatar qualquer parte de uma página web com apenas alguns cliques do mouse. Você ainda pode usar import.io para rastrear e extrair dados de listas de várias páginas automaticamente.
Usando import.io, você pode raspar dados de uma série simples ou complicado de páginas web:
Simples: Acesse as páginas da web através de hiperlinks simples que aparecem na página 1, página 2, página 3.
Complicado: Preencher um formulário ou escolher de uma lista drop-down, em seguida, submeter o seu pedido de raspagem para a ferramenta.
Video: DatabaseCast 53: Cientista de dados
característica mais impressionante do import.io é a sua capacidade de observar seus cliques do mouse para saber o que você quer, e, em seguida, oferecer-lhe maneiras que ele pode completar automaticamente as suas tarefas para você. Embora import.io aprende e sugere tarefas, não agir sobre essas tarefas até depois que você marcou a sugestão como correta. Por conseguinte, estas interacções humanos aumentada-diminuir o risco de que a máquina irá tirar uma conclusão errada devido a um excesso de adivinhar.
Recolher imagens com ImageQuilts
ImageQuilts é uma extensão do Chrome desenvolvido em parte pelo lendário Edward Tufte, um dos primeiros grandes pioneiros na visualização de dados - ele popularizou o uso da proporção de dados-to-tinta para avaliar a eficácia das paradas.
A tarefa ImageQuilts executa é enganosamente simples de descrever, mas muito complexo de implementar. ImageQuilts faz colagens de dezenas de imagens e peças-los todos juntos em um “quilt” que é composta de várias linhas de altura igual. Esta tarefa pode ser complexo, porque as imagens de origem quase nunca são a mesma altura. ImageQuilts arranhões e redimensiona as imagens antes de costurá-las juntas em uma imagem de saída.
A colcha imagem mostrada foi derivado de um “marcadas para reutilização” Google Images Search do termo dados Ciência.
ImageQuilts ainda permite que você escolha a ordem das imagens ou para embaralhar eles. Você pode usar a ferramenta de arrastar e soltar qualquer imagem para qualquer lugar, remover uma imagem, zoom todas as imagens ao mesmo tempo, ou aproximar cada imagem individualmente.
Você ainda pode usar a ferramenta para converter entre as cores da imagem - de cor em tons de cinza ou cor invertida (o que é útil para fazer folhas de contato de negativos, se você é uma daquelas raras pessoas que ainda processa fotografia analógica).
Disputas de dados com DataWrangler
DataWrangler é uma ferramenta online que é apoiado pela Universidade de Washington Interactive Data Lab (no momento DataWrangler foi desenvolvido, este grupo foi chamado o Visualization Grupo Stanford). Este mesmo grupo desenvolveu Lyra, um ambiente de visualização de dados interativo que você pode usar para criar visualizações complexos sem experiência em programação.
Se o seu objetivo é esculpir seu conjunto de dados - ou coisas limpas até por mover as coisas como um escultor que (dividir esta parte em dois, cortar fora esse bocado e movê-lo até lá, empurrar isto para baixo para que tudo abaixo dele fica deslocado para a direita, e assim por diante) - DataWrangler é a ferramenta para você.
Você pode fazer manipulações com DataWrangler semelhante ao que você pode fazer em Excel usando Visual Basic. Por exemplo, você pode usar DataWrangler ou Excel com Visual Basic para copiar, colar e informações de formato de listas na Internet.
DataWrangler sugere ainda ações com base no seu conjunto de dados e pode repetir ações complexas em conjuntos de dados inteiros - ações como eliminando linhas ignorados, dados de divisão de uma coluna em dois, ou virar um cabeçalho em dados da coluna. DataWrangler também pode mostrar onde o conjunto de dados está faltando dados.
Os dados em falta pode indicar um erro de formatação que precisa ser limpo.