Como procurar por palavras individuais em r
Video: 419.EXCEL, ENCONTRAR, PALAVRA, CARACTER, CÉLULA
Conteúdo
Quando você está trabalhando com texto, muitas vezes você pode resolver problemas, se você é capaz de encontrar palavras ou padrões de texto do interior. R torna isso fácil de fazer. Imagine que você tem uma lista dos estados nos Estados Unidos, e você quer saber quais desses estados contém a palavra Novo.
Para investigar esse problema, você pode usar o conjunto de dados built-in states.names, que contém - você adivinhou - os nomes dos estados dos Estados Unidos:
gt; cabeça (state.names) [1] "Alabama" "Alasca" "Arizona"[4] "Arkansas" "Califórnia" "Colorado"
De um modo geral, você pode encontrar textos no texto de duas maneiras:
Video: Busca por palavras ou frases dentro do documento PDF
Por posição: Por exemplo, você pode dizer R para obter três letras começando na posição 5.
Por padrão: Por exemplo, você pode dizer R para obter substrings que correspondem a uma palavra ou padrão específico.
Um padrão é um pouco como um curinga. Em alguns jogos de cartas, você pode usar o cartão Joker para representar qualquer outro cartão. Da mesma forma, um padrão em R podem conter palavras ou certos símbolos com significados especiais.
Procura por posição no R
Se você sabe a posição exata de um subtexto dentro de um elemento de texto, use o substr () função para retornar o valor. Para extrair o subtexto que começa na terceira posição e pára na sexta posição Nome do estado, use o seguinte:
gt; cabeça (substr (state.name, start = 3, parar = 6)) [1] "ABAM" "aska" "izon" "Kans" "lifo" "lora"
Busca por padrão no R
Para encontrar substrings, você pode usar o grep () função, que recebe dois argumentos essenciais:
padronizar: O padrão que você deseja encontrar.
X: O vector personagem que você deseja pesquisar.
Suponha que você queira encontrar todos os estados que contêm o padrão Novo. Faça isso deste modo:
gt; grep ("Novo", State.name) [1] 29 30 31 32
O resultado de grep () é um vector numérico com as posições de cada um dos elementos que contêm o padrão de correspondência. Em outras palavras, o elemento 29 de Nome do estado contém a palavra Novo.
gt; state.name [29] New Hampshire
Ufa, que funcionou! Mas digitação na posição de cada texto correspondente vai ser um monte de trabalho. Felizmente, você pode usar os resultados de grep () directamente para o subconjunto do vector original é:
Video: |FÓRMULAS EXCEL| LOCALIZAR TEXTO EM FRASES (INCRÍVEL) - Excel Rap10
gt; state.name [grep ("Novo", State.name)] [1] "Nova Hampshire" "Nova Jersey"[3] "Novo México" "Nova york"
o grep () função é sensível a maiúsculas - que corresponde apenas texto no mesmo caso (maiúsculas ou minúsculas) como seu padrão de pesquisa. Se você procurar o padrão “Novo”Em letras minúsculas, os resultados da pesquisa estão vazios:
gt; state.name [grep ("Novo", State.name)] caracteres (0)