ciência de dados: como usar python para fazer o upload, córrego, e os dados de amostra

O armazenamento de dados na memória do computador local representa o meio mais rápido e mais confiável para acessá-lo com Python. Os dados podem residir em qualquer lugar. No entanto, você realmente não interagir com os dados em seu local de armazenamento. Você carregar os dados na memória do local de armazenamento e, em seguida, interagir com ele na memória.

Conteúdo

Upload pequenas quantidades de dados na memória
Video: curso python 1: exemplo de análise de dados em python
Streaming de grandes quantidades de dados na memória
Dados de amostragem
Video: sistema python/gtk/sqlalchemy

cientistas de dados chamar as colunas em um banco de dados características ou variáveis. As linhas são casos.

Upload pequenas quantidades de dados na memória

O método mais conveniente que você pode usar para trabalhar com dados é carregá-lo diretamente na memória. Esta técnica utiliza o conjunto de dados brinquedo da biblioteca scikit-learn. Este exemplo usa o Colors.txt arquivo para a entrada.

arquivo Colors.txt.”width =” 258 "/>

Formato do Colors.txt Arquivo.

O exemplo também depende da funcionalidade Python nativa para começar a tarefa feita. Quando você carrega um arquivo, todo o conjunto de dados está disponível em todos os momentos e o processo de carregamento é bastante curta. Aqui está um exemplo de como esta técnica funciona.

com ( “Colors.txt” ‘rb’) aberto como open_file: print ‘conteúdo Colors.txt: n’ + open_file.read ()

O exemplo começa usando o aberto() método para obter um Arquivo objeto. o aberto() função aceita o nome do arquivo e um modo de acesso. Neste caso, o modo de acesso é lido binário (rb). (Quando se utiliza o Python 3.X, você pode ter que alterar o modo de ler (r), A fim de evitar mensagens de erro.)

Em seguida, ele usa o ler() método do objeto de arquivo para ler todos os dados no arquivo. Se você fosse para especificar um argumento de tamanho, como parte de ler(), tal como li (15), Python iria ler apenas o número de caracteres que você especificar ou parar quando atingir o final do arquivo (EOF). Quando você executar esse exemplo, você vê o seguinte resultado:

conteúdo Colors.txt: Cor ValueRed 1Orange 2Yellow 3Green 4Blue 5Purple 6Black 7White 8

Todo o conjunto de dados é carregado a partir da biblioteca para a memória livre. Naturalmente, o processo de carregamento irá falhar se o seu sistema não tem memória suficiente para armazenar o conjunto de dados. Quando esse problema ocorre, você precisa considerar outras técnicas para trabalhar com o conjunto de dados, como streaming de la ou provar isso.

Video: curso python 1: exemplo de análise de dados em python

Streaming de grandes quantidades de dados na memória

Alguns conjuntos de dados vai ser tão grande que você não será capaz de encaixá-los totalmente na memória de uma só vez. Além disso, você pode achar que alguns conjuntos de dados carregar lentamente porque eles residir em um local remoto. Transmissão responde a ambas as necessidades, tornando possível para trabalhar com os dados um pouco de cada vez.

Você baixar peças individuais, tornando possível trabalhar com apenas parte dos dados e trabalhar com ele como você recebê-lo, ao invés de esperar para todo o conjunto de dados para download. Aqui está um exemplo de como você pode transmitir dados usando Python:

com open ( “Colors.txt”, ‘rb’) como open_file: para observação em open_file: print ‘Dados Leitura:‘+ observação

Este exemplo baseia-se na Colors.txt arquivo, que contém um cabeçalho e, em seguida, um número de registros que associam um nome de cor com um valor. o abrir arquivo objeto de arquivo contém um ponteiro para o arquivo aberto.

Como o código executa dados lê na para loop, o ponteiro do arquivo move para o próximo registro. Cada registro aparece uma vez em observação. O código a saída o valor observação usando um impressão declaração. Você deve receber esta saída:

Leitura de Dados: Cor ValueReading dados: Red Dados 1Reading: Laranja Dados 2Reading: Amarelo Dados 3Reading: Verde 4Reading dados: Azul 5Reading Dados: Purple 6Reading Dados: Black Dados 7Reading: Branco 8

Python córregos cada registro da fonte. Isso significa que você deve executar uma leitura para cada registro que você deseja.

dados de amostragem

streaming de dados obtém todos os registros de uma fonte de dados. Você pode achar que você não precisa de todos os registros. Você pode economizar tempo e recursos, simplesmente amostragem dos dados. Isto significa recuperar registros de um determinado número de registros separados, como a cada quinto registro, ou fazendo amostras aleatórias. O código a seguir mostra como recuperar todos os outros registro na Colors.txt Arquivo:

Video: sistema python/gtk/sqlalchemy

n = 2com abrir ( “Colors.txt”, `RB`) como open_file: para j, observação em enumerar (open_file): se j% n == 0: impressão ( `linha de leitura:` + str (j) +` conteúdo: `+ observação)

A idéia básica da amostragem é o mesmo que streaming. No entanto, neste caso, o aplicativo usa enumerar() para recuperar um número da linha. Quando j% n == 0, a linha é aquele que você deseja manter e a aplicação envia a informação. Neste caso, você vê o seguinte resultado:

Linha de Leitura: 0 Conteúdo: Cor ValueReading Line: 2 Conteúdo: Linha 2Reading Laranja: 4 Conteúdo: Linha 4Reading Verde: 6 Conteúdo: 6Reading Purple Line: 8 Conteúdo: Branco 8

O valor de n é importante para determinar quais registros aparecem como parte do conjunto de dados. tente alterar n para 3. A saída vai mudar para provar apenas o cabeçalho e linhas 3 e 6.

Você pode executar a amostragem aleatória também. Tudo que você precisa fazer é embaralhar o selector, assim:

randomsample_size de importação aleatório = 0.25with aberto ( “Colors.txt”, ‘RB’) como open_file: para j, observação em enumerar (open_file): se (random)<=sample_size:print(‘Reading Line: ‘ + str(j) +‘ Content: ‘ + observation)

Para tornar esta forma de trabalho de seleção, você deve importar a classe aleatória. o aleatória() método gera um valor entre 0 e 1. No entanto, Python randomizes a saída de modo que você não sabe o valor que você recebe. o SAMPLE_SIZE variável contém um número entre 0 e 1, para determinar o tamanho da amostra.

A saída ainda aparecerá em ordem numérica. No entanto, os itens selecionados são aleatórios, e você nem sempre terá exatamente o mesmo número de valores de retorno. Os espaços entre os valores de retorno será diferente também. Aqui está um exemplo do que você pode ver como saída:

Linha de leitura: 1 Conteúdo: Linha vermelha 1Reading: 4 Conteúdo: Linha 4Reading Verde: 8 Conteúdo: Branco 8