Noções básicas de tipos de dados e estruturas de programação r para análise preditiva

Na programação R para análise preditiva, os dados tipos

às vezes são confundidos com os dados estruturas. Cada variável na memória programa tem um tipo de dados. Claro, você pode começar afastado com ter várias variáveis ​​em seu programa e ainda ser gerenciável. Mas isso provavelmente não vai funcionar tão bem se você tem centenas (ou milhares) de variables- você tem que dar a cada variável um nome para que você possa acessá-lo.

É mais eficiente para armazenar todas essas variáveis ​​em um conjunto lógico.

Tipos de dados

Como outras linguagens de programação completa, R oferece muitos tipos de dados e estruturas de dados. Não há necessidade de especificar o tipo que você está atribuindo a um Variável o intérprete vai fazer isso por você. No entanto, você pode especificar ou converter o tipo se a necessidade arises- isso é chamado moldagem. Três tipos de dados são os seguintes:

  • Numérico: Estas são as suas típicas números decimais. Estes são chamados flutuadores (abreviatura de números de ponto flutuante) ou dupla em outras línguas.

  • Personagens: Estas são as suas cordas formadas com combinações de letras, caracteres e números. Eles não são feitos para ter qualquer significado numérico. Estes são chamados cordas em outras línguas.

  • Lógico: VERDADE ou FALSO. Sempre capitalizar esses valores em R. Esses valores são chamados booleans em outras línguas.

Comparando uma seqüência de números a um número numérica resulta no interpretador converter a seqüência de números em uma numérica e, em seguida, fazer uma comparação numérica.

Exemplos de tipos de dados são os seguintes:

gt; Eu lt; - 10 # numericgt; j lt; - 10,0 # numericgt; k lt; - "10" # Charactergt; m lt; - == i j # logicalgt; n lt; - i == k # lógica

Depois de executar essas linhas de código, você pode descobrir seus valores e tipos usando a str () função. Essa operação parece com isso:

gt; str (i) num 10gt; str (j) num 10gt; str (k) chr "10"gt; str (m) logi TRUEgt; str (n) logi VERDADE


A expressão no n atribuição é um exemplo do intérprete convertendo temporariamente o tipo de dados k em um numérico para fazer a avaliação entre numérica Eu e caráter k.

Estruturas de dados

R vai precisar de um lugar para armazenar grupos de tipos de dados, a fim de trabalhar com ele de forma eficiente. Estes são chamados estruturas de dados.

Um exemplo da vida real deste conceito é uma garagem: É uma estrutura que armazena automóveis eficiente. Ele foi projetado para estacionar como muitos automóveis quanto possível, e permite automóveis para entrar de forma eficiente e sair da estrutura. Além disso, há outros objetos além de automóveis deve ser estacionado em uma estrutura de estacionamento.

estruturas de dados incluem:

  • vetores: Os vectores de armazenar um conjunto de valores de um único tipo de dados. Pense nisso como um pillbox semanal. Cada compartimento na caixa de comprimidos só pode armazenar um certo tipo de objecto. Depois de colocar algumas pílulas em um dos compartimentos, todos os outros compartimentos também deve ser preenchido com o zero pílulas ou mais pílulas.

    Você não pode colocar moedas no mesmo caixa- você tem que usar uma “caixa de comprimidos” diferente (vetor) por isso. Da mesma forma, uma vez que você armazenar um número em um vetor, todos os valores futuros também devem ser números. Caso contrário, o intérprete converte todos os seus números de caracteres.

  • matrizes: UMA matriz parece uma planilha do Excel: Essencialmente é uma tabela que consiste em linhas e colunas. Os dados preenche as células vazias por linha ou coluna ordem, onde especificar ao criar a matriz.

    Todas as colunas devem ter o mesmo tipo de dados.

  • quadros de dados: Um quadro de dados é semelhante a uma matriz, excepto as colunas de uma estrutura de dados pode conter diferentes tipos de dados. Os conjuntos de dados utilizados em modelos de previsão são carregados em tramas de dados e armazenado ali para uso no modelo.

  • fatores: UMA fator é como um vector com um número limitado de valores distintos. O número de valores distintos é referido como a sua nível. É possível utilizar factores para o tratamento de uma coluna que tem um número limitado de valores e conhecido como valores categóricas. Por padrão, os dados de caracteres é carregado em quadros de dados como fatores.

Você acessa vetores, matrizes e quadros de dados usando notação de matriz. Por exemplo, você deve digitar v [5] para acessar o quinto elemento do vector v. Para uma matriz bidimensional e de estrutura de dados, que colocou no número de linha e coluna número, separadas por uma vírgula, dentro dos parêntesis quadrados. Por exemplo, você digita m [2,3] para aceder a segunda linha, terceira coluna valor para a matriz m.

estruturas de dados são um assunto avançado em ciência da computação. Por agora, estamos aderindo à prática. Basta lembrar que as estruturas de dados foram construídas para armazenar tipos específicos de dados e eles têm funções para inserção de dados, eliminação e recuperação.


Publicações relacionadas