Como usar read.csv () para importar dados em r

Uma das maneiras mais fáceis e confiáveis ​​de obtenção de dados para R é usar arquivos de texto, em particular CSV arquivos (valores separados por vírgula). O formato de arquivo CSV usa vírgulas para separar os diferentes elementos em uma linha, e cada linha de dados está em sua própria linha no arquivo de texto, o que torna CSV arquivos ideal para representar dados tabulares.

Video: Importar Arquivo CSV para o Postgres

O benefício adicional de arquivos CSV é que quase todas as aplicações de dados suporta exportação de dados para o formato CSV. Este é certamente o caso para a maioria dos aplicativos de planilha, incluindo Microsoft Excel e OpenOffice Calc.

Nos exemplos a seguir, suponha que você tenha um arquivo CSV armazenado em uma pasta conveniente no seu sistema de arquivos. Para converter uma planilha do Excel para o formato CSV, você precisa escolher Arquivo → Salvar como, o que lhe dá a opção para salvar o arquivo em uma variedade de formatos.

Video: Importa archivos CSV a una Base de Datos en HeidiSQL

Tenha em mente que um arquivo CSV pode representar apenas uma única planilha de uma planilha. Finalmente, certifique-se de usar a linha superior da planilha (linha 1) para os títulos das colunas.

Em R, você usa o read.csv () função para importar dados no formato CSV. Esta função tem um número de argumentos, mas o único argumento essencial é Arquivo, que especifica a localização e nome de ficheiro. Para ler um arquivo chamado elements.csv localizado em f: usar read.csv () com caminho de arquivo:

Video: Vídeo Aula R - Aula 09: Importação de Dados



gt; elementos lt; - read.csv (file.path ("f:", "elements.csv")) Gt; str (elementos) `data.frame`: 10 obs. de 9 variáveis: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nome: Fator w / 10 níveis "Berílio","Boro", ..: 5 6 7 1 2 3 4 9 10 8 $ símbolo: Fator w / 10 níveis "B","Estar","C","F", ..: 5 6 7 1 2 3 8 9 10 4 $ Grupo: int 1 18 1 2 13 14 15 16 17 18 $ Período: int 1 1 2 2 2 2 2 2 2 2 $ Bloco: Fator w / 2 níveis "p","s": 2 2 2 2 1 1 1 1 1 1 $ State.at.STP: Fator w / 2 níveis "Gás","Sólido": 1 1 2 2 2 2 1 1 1 1 $ Ocorrência: Fator w / um nível "Primordial": 1 1 1 1 1 1 1 1 1 1 $ Descrição: Fator w / 6 níveis "Metal alcalino", ..: 5 6 1 2 4 6 6 6 3 5

R importa os dados para um quadro de dados. Como você pode ver, esse exemplo tem dez observações de nove variáveis.

Observe que a opção padrão é para converter cadeias de caracteres em fatores. Assim, as colunas Nome, Quadra, State.At.STP, Ocorrência, e Descrição todos foram convertidos em fatores. Também, notar que R converte espaços nos nomes de coluna de períodos (por exemplo, na coluna State.At.STP).

Esta opção padrão de conversão de strings para fatores quando você usa read.table () pode ser uma fonte de grande confusão. Você é muitas vezes melhor importação de dados que contém seqüências de tal forma que as cordas não são fatores convertidos, mas continuam a ser os vectores de caracteres. Para importar dados que contém seqüências de caracteres, use o argumento stringsAsFactors = FALSE para read.csv () ou read.table ():

gt; elementos lt; - read.csv (file.path ("f:", "elements.csv"), StringsAsFactors = FALSE) gt; str (elementos) `data.frame`: 10 obs. de 9 variáveis: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nome: chr "hidrogênio" "Hélio" "Lítio" "Berílio" ... $ Símbolo: chr "H" "Ele" "Li" "Estar" ... $ Grupo: int 1 18 1 2 13 14 15 16 17 18 $ Período: int 1 1 2 2 2 2 2 2 2 2 $ Block: chr "s" "s" "s" "s" ... $ State.at.STP: chr "Gás" "Gás" "Sólido" "Sólido" ... $ Ocorrência: chr "Primordial" "Primordial" "Primordial" "Primordial" ... $ Descrição: chr "Metalóide" "gás nobre" "Metal alcalino" "Metal alcalino-terroso" ...

Se você tem um arquivo no formato da UE (União Europeia) (onde vírgulas são usadas como separadores decimais e vírgulas são usadas como separadores de campo), você precisa importá-lo para R usando o read.csv2 () função.


Publicações relacionadas