Como criar subgrupos de dados em r
o cortar()
Conteúdo
- Video: excel básico - validação de dados e sublistas
- Como usar o corte para criar um número fixo de subgrupos
- Video: fgv / ibre – estatística com r: 07 como criar funções
- Como adicionar etiquetas para cortar
- Video: aula mesa de som - criar grupo de canais - gravando em casa
- Como usar a tabela para contar o número de observações
- Video: aula 07 - subgrupos - concentrando vários canais em apenas um
Video: Excel Básico - Validação de dados e Sublistas
Se isso soa como um bocado, não se preocupe. Alguns exemplos devem fazer este vir a vida.
Como usar o corte para criar um número fixo de subgrupos
Para ilustrar o uso de cortar(), ter um olhar para o conjunto de dados built-in state.x77, uma matriz com várias colunas e uma linha para cada estado nos Estados Unidos:
gt; cabeça (state.x77) População Rendimento Analfabetismo vida Exp Assassinato HS Grad geada AreaAlabama 3615 36242,1 69,05 15,1 41,3 20 50708Alaska 365 63151,5 69,31 11,3 66,7 152 566432Arizona 2212 45301,8 70,55 7,8 58,1 15 113417Arkansas 2110 33781,9 70,66 10,1 39,9 65 51945California 21198 51141,1 71,71 10,3 62,6 20 156361Colorado 2541 48840,7 72,06 6,8 63,9 166 103766
Você quer trabalhar com a coluna chamada geada. Para extrair esta coluna, tente o seguinte:
gt; geada lt; - state.x77 [, "geada"] Gt; cabeça (geada, 5) Alabama Alaska Arizona Arkansas California20152 15 65 20
Você tem agora um novo objeto, geada, um vetor numérico chamado. Agora usa cortar() para criar três caixas em seus dados:
gt; corte (geada, 3, include.lowest = TRUE) [1] [-0.188,62.6] (125188] [-0.188,62.6] (62.6,125] [5] [-0.188,62.6] (125188] (125188] (62.6,125] .... [45] (125188] (62.6,125] [-0.188,62.6] (62.6,125] [49] (] (125,188 125,188] Níveis: [-0.188,62.6] (62,6 , 125] (125188]
O resultado é um fator com três níveis. Os nomes dos níveis de parecer um pouco complicado, mas eles dizem que em notação conjunto matemático que os limites de suas caixas são. Por exemplo, o primeiro compartimento contém aqueles estados que têm geada entre -0.188 e 62,8 dias.
Na realidade, é claro, nenhum dos estados terá geada em dias negativos - R está sendo matematicamente conservadora e adiciona um pouco de estofamento.
Observe o argumento include.lowest = TRUE para cortar(). O valor padrão para este argumento é include.lowest = FALSE, que por vezes pode causar R ignorar o valor mais baixo em seus dados.
Video: FGV / IBRE – Estatística com R: 07 Como Criar Funções
Como adicionar etiquetas para cortar
Os nomes de nível não são muito amigável, então especificar algumas melhores nomes com a etiquetas argumento:
Video: Aula Mesa de Som - Criar grupo de canais - Gravando em Casa
gt; corte (geada, 3, include.lowest = VERDADEIRO, etiquetas = c ("Baixo", "Med", "Alto")) [1] Baixo Alto Baixo Médio Baixa Alta Med Baixa Alta Baixa Baixa .... [45] Alto Med Baixo Med Alto HighLevels: Baixa Alto Med
Agora você tem um fator que classifica estados em baixa, média e alta, dependendo do número de dias de geada que recebem.
Como usar a tabela para contar o número de observações
Uma peça interessante de análise é para contar quantos estados estão em cada suporte. Você pode fazer isso com o mesa() função, que simplesmente conta o número de observações em cada nível de seu fator.
Video: Aula 07 - Subgrupos - concentrando vários canais em apenas um
gt; X lt; - corte (Frost, 3, include.lowest = TRUE, etiquetas = c ("Baixo", "Med", "Alto")) Gt; mesa (x) XLow Med High11 19 20