Ciência de dados: de filtragem e seleção de dados com python

Video: Introdução à Ciência da Computação com Python

Python é uma ferramenta útil para a ciência de dados. Você pode não precisar de trabalhar com todos os dados em um conjunto de dados. Na verdade, olhando para apenas uma determinada coluna pode ser benéfico, tais como idade, ou um conjunto de linhas com uma quantidade significativa de informações. Você executar duas etapas para obter apenas os dados que você precisa para executar uma tarefa específica:

  • Filtrar linhas para criar um objecto de dados que atende ao critério você seleciona (como todas as pessoas entre as idades de 5 e 10).

  • Selecionar colunas de dados que contêm os dados que você precisa para analisar. Por exemplo, você provavelmente não precisa de nomes dos indivíduos a menos que você deseja realizar alguma análise com base no nome.

O ato de fatiamento de dados, dá-lhe um subconjunto dos dados adequados para análise. Aqui estão várias maneiras de obter partes específicas de dados para atender necessidades específicas.

linhas de corte

Corte pode ocorrer de várias maneiras ao trabalhar com dados, mas a técnica de interesse aqui é a fatia de dados a partir de uma linha de dados 2D ou 3D. Uma matriz 2D pode conter temperaturas (eixo X) ao longo de um período de tempo específico (eixo y). Cortando uma linha significaria ver as temperaturas em um momento específico. Em alguns casos, você pode associar linhas com casos em um conjunto de dados.

Uma matriz 3D pode incluir um eixo para lugar (eixo x), produto (eixo y) e tempo (eixo z) de modo que você pode ver as vendas de itens ao longo do tempo. Talvez você deseja acompanhar se as vendas de um item estão aumentando e, especificamente, onde eles estão aumentando. Cortando uma linha significaria ver todas as vendas de um produto específico para todos os locais a qualquer momento. O exemplo a seguir demonstra como para executar esta tarefa:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) x [1]

Neste caso, o exemplo constrói uma matriz 3D. Em seguida, corta a linha 1 da matriz que para produzir o seguinte resultado:

matriz ([[11, 12, 13], [14, 15, 16], [17, 18, 19]])

colunas de corte



Utilizando os exemplos de cima, colunas que cortam iria obter dados a um ângulo de 90 graus a partir de linhas. Em outras palavras, quando se trabalha com a matriz 2D, você gostaria de ver os horários em que temperaturas específicas ocorreram. Da mesma forma, você pode querer ver as vendas de todos os produtos para um local específico a qualquer momento quando se trabalha com a matriz 3D. Em alguns casos, você pode associar colunas com características em um conjunto de dados. O exemplo a seguir demonstra como executar esta tarefa usando a mesma matriz:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) x [:, 1]

Observe que a indexação agora ocorre em dois níveis. O primeiro índice refere-se à linha. Usando os dois pontos (:) para a linha significa usar todas as linhas. A segunda refere-se a um índice de coluna. Neste caso, a saída conterá coluna 1. Aqui está a saída que você veja:

matriz ([[4, 5, 6], [14, 15, 16], [24, 25, 26]])

Esta é uma matriz em 3D. Portanto, cada uma das colunas contém todos os elementos de eixo z. O que você vê é cada linha - 0 a 2 para a coluna 1 com cada elemento do eixo z 0 a 2 para essa coluna.

Video: Primeiros passos com Data Science - Igor Leroy

dicing

O ato de cortar um conjunto de dados significa para executar tanto linha e coluna corte de tal forma que você acabar com uma fatia de dados. Por exemplo, quando se trabalha com a matriz 3D, você pode querer ver as vendas de um produto específico em um local específico a qualquer momento. O exemplo a seguir demonstra como executar esta tarefa usando a mesma matriz como acima:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) impressão x [1,1] impressão x [:, 1,1] impressão x [1,:, 1] printprint x [1: 2, 1: 2]

Este exemplo corta a matriz de quatro maneiras diferentes. Primeiro, você começa linha 1, coluna 1. Claro, o que você pode realmente querem é a coluna 1, z eixo 1. Se isso não está certo, você pode sempre solicitar a linha 1, z eixo 1 vez. Então, novamente, você pode querer linhas 1 e 2 das colunas 1 e 2. Aqui está a saída de todos os quatro pedidos:

[14 15 16] [15 5 25] [12 15 18] [[[14 15 16] [17 18 19]] [[24 25 26] [27 28 29]]]

Publicações relacionadas