Como criar subgrupos de dados em r

o cortar()

função em R cria caixas de igual tamanho (por padrão) em seus dados e, em seguida, classifica cada elemento em seu bin apropriada.

Video: Excel Básico - Validação de dados e Sublistas

Se isso soa como um bocado, não se preocupe. Alguns exemplos devem fazer este vir a vida.

Como usar o corte para criar um número fixo de subgrupos

Para ilustrar o uso de cortar(), ter um olhar para o conjunto de dados built-in state.x77, uma matriz com várias colunas e uma linha para cada estado nos Estados Unidos:

gt; cabeça (state.x77) População Rendimento Analfabetismo vida Exp Assassinato HS Grad geada AreaAlabama 3615 36242,1 69,05 15,1 41,3 20 50708Alaska 365 63151,5 69,31 11,3 66,7 152 566432Arizona 2212 45301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33781,9 70,66 10,1 39,9 65 51945California 21198 51141,1 71,71 10,3 62,6 20 156361Colorado 2541 48840,7 72,06 6,8 63,9 166 103766

Você quer trabalhar com a coluna chamada geada. Para extrair esta coluna, tente o seguinte:

gt; geada lt; - state.x77 [, "geada"] Gt; cabeça (geada, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20

Você tem agora um novo objeto, geada, um vetor numérico chamado. Agora usa cortar() para criar três caixas em seus dados:

gt; corte (geada, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125188] (125188] (62.6,125] .... [45] (125188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (] (125,188 125,188] Níveis: [-0.188,62.6] (62,6 , 125] (125188]


O resultado é um fator com três níveis. Os nomes dos níveis de parecer um pouco complicado, mas eles dizem que em notação conjunto matemático que os limites de suas caixas são. Por exemplo, o primeiro compartimento contém aqueles estados que têm geada entre -0.188 e 62,8 dias.

Na realidade, é claro, nenhum dos estados terá geada em dias negativos - R está sendo matematicamente conservadora e adiciona um pouco de estofamento.

Observe o argumento include.lowest = TRUE para cortar(). O valor padrão para este argumento é include.lowest = FALSE, que por vezes pode causar R ignorar o valor mais baixo em seus dados.

Video: FGV / IBRE – Estatística com R: 07 Como Criar Funções

Como adicionar etiquetas para cortar

Os nomes de nível não são muito amigável, então especificar algumas melhores nomes com a etiquetas argumento:

Video: Aula Mesa de Som - Criar grupo de canais - Gravando em Casa

gt; corte (geada, 3, include.lowest = VERDADEIRO, etiquetas = c ("Baixo", "Med", "Alto")) [1] Baixo Alto Baixo Médio Baixa Alta Med Baixa Alta Baixa Baixa .... [45] Alto Med Baixo Med Alto HighLevels: Baixa Alto Med

Agora você tem um fator que classifica estados em baixa, média e alta, dependendo do número de dias de geada que recebem.

Como usar a tabela para contar o número de observações

Uma peça interessante de análise é para contar quantos estados estão em cada suporte. Você pode fazer isso com o mesa() função, que simplesmente conta o número de observações em cada nível de seu fator.

Video: Aula 07 - Subgrupos - concentrando vários canais em apenas um

gt; X lt; - corte (Frost, 3, include.lowest = TRUE, etiquetas = c ("Baixo", "Med", "Alto")) Gt; mesa (x) XLow Med High11 19 20

Publicações relacionadas