Como usar python para acessar dados da web

Às vezes é necessário o uso de dados da web para a ciência de dados. E Python pode ajudar. Seria incrivelmente difícil (talvez impossível) para encontrar uma organização, hoje, que não depende de algum tipo de dados baseados na web.

Conteúdo

Video: curso python 3 - apresentação do curso
Video: acabou poo, vem aí curso de python!

Video: Curso Python 3 - Apresentação do Curso

A maioria das organizações usam serviços web de algum tipo. UMA serviço de internet é um tipo de aplicação web que fornece um meio para fazer perguntas e receber respostas. serviços web geralmente sediar uma série de tipos de entrada. Na verdade, um serviço web particular pode hospedar grupos inteiros de entradas de consulta.

Outro tipo de sistema de consulta é a Microservice. Ao contrário do serviço web, microservices tem um foco específico e fornecer apenas uma entrada consulta específica e saída. Microservices essencialmente funcionam como minúsculos serviços web ,.

Uma das técnicas de acesso a dados mais benéficos para saber quando se trabalha com dados da web está acessando XML. Todos os tipos de tipos de conteúdo dependem de XML, até mesmo algumas páginas da web. Trabalhando com serviços web e microservices significa trabalhar com XML. Com isto em mente, este exemplo funciona com dados XML encontrados no XMLData.xml Arquivo. Neste caso, o arquivo é simples e utiliza apenas um par de níveis. XML é hierárquica e pode se tornar bastante alguns níveis de profundidade.

XML é um formato hierárquico que pode se tornar bastante complexa.

A técnica para trabalhar com XML, mesmo simples XML, pode ser um pouco mais difícil do que qualquer outra coisa que você trabalhou com a medida. Aqui está o código para este exemplo:

Video: Acabou POO, vem aí CURSO DE PYTHON!

de lxml pandas importação objectifyimport como pdxml = objectify.parse (aberto ( ``)) XMLData.xml raiz = xml.getroot () df = pd.DataFrame (colunas = ( `N`, `String`, `booleano`)) para i no intervalo (0,4): obj = root.getchildren () [i] .getchildren () = linha Dict (ZIP ([ `N`, `string`, `booleano`], [obj [0]. texto, obj [1] .text, obj [2] .text])) row_s = pd.Series (linha) row_s.name = IDF = df.append (row_s) print df

O exemplo começa com a importação de bibliotecas e analisar o arquivo de dados usando o objectify.parse () método. Todo documento XML deve conter um nó raiz, que é nesse caso. O nó raiz encapsula o resto do conteúdo, e cada nó sob ele é uma criança. Para fazer qualquer coisa prática com o documento, é necessário obter acesso ao nó de raiz usando o GetRoot () método.

O próximo passo é o de criar um vazio Quadro de dados objeto que contém os nomes das colunas corretas para cada entrada de registro: Número, Corda, e boleano. Tal como acontece com todos os outros manipulação de dados pandas, manipulação de dados XML se baseia em um Quadro de dados. o para laço enche o Quadro de dados com os quatro registros do arquivo XML (cada um em um nó).

O processo parece complexo, mas segue uma ordem lógica. o obj variável contém todas as crianças para um nó. Estas crianças são carregados em um objeto de dicionário no qual as teclas são Número, Corda, e boleano para coincidir com o Quadro de dados colunas.

Existe agora um objeto dicionário que contém os dados da linha. O código cria uma linha real para o Quadro de dados Próximo. Ele dá a linha do valor da corrente para iteração. Em seguida, ele acrescenta a linha à Quadro de dados. Para ver que tudo funcionou como esperado, o código imprime o resultado, que se parece com isso:

 String Número Boolean0 1 Primeiro True1 2 Segunda False2 3 Terceiro True3 4 Fourth False