Como procurar por palavras individuais em r

Video: 419.EXCEL, ENCONTRAR, PALAVRA, CARACTER, CÉLULA

Quando você está trabalhando com texto, muitas vezes você pode resolver problemas, se você é capaz de encontrar palavras ou padrões de texto do interior. R torna isso fácil de fazer. Imagine que você tem uma lista dos estados nos Estados Unidos, e você quer saber quais desses estados contém a palavra Novo.

Para investigar esse problema, você pode usar o conjunto de dados built-in states.names, que contém - você adivinhou - os nomes dos estados dos Estados Unidos:

gt; cabeça (state.names) [1] "Alabama" "Alasca" "Arizona"[4] "Arkansas" "Califórnia" "Colorado"

De um modo geral, você pode encontrar textos no texto de duas maneiras:

Video: Busca por palavras ou frases dentro do documento PDF

  • Por posição: Por exemplo, você pode dizer R para obter três letras começando na posição 5.

  • Por padrão: Por exemplo, você pode dizer R para obter substrings que correspondem a uma palavra ou padrão específico.

    Um padrão é um pouco como um curinga. Em alguns jogos de cartas, você pode usar o cartão Joker para representar qualquer outro cartão. Da mesma forma, um padrão em R podem conter palavras ou certos símbolos com significados especiais.

Procura por posição no R

Se você sabe a posição exata de um subtexto dentro de um elemento de texto, use o substr () função para retornar o valor. Para extrair o subtexto que começa na terceira posição e pára na sexta posição Nome do estado, use o seguinte:

gt; cabeça (substr (state.name, start = 3, parar = 6)) [1] "ABAM" "aska" "izon" "Kans" "lifo" "lora"

Busca por padrão no R

Para encontrar substrings, você pode usar o grep () função, que recebe dois argumentos essenciais:



  • padronizar: O padrão que você deseja encontrar.

  • X: O vector personagem que você deseja pesquisar.

Suponha que você queira encontrar todos os estados que contêm o padrão Novo. Faça isso deste modo:

gt; grep ("Novo", State.name) [1] 29 30 31 32

O resultado de grep () é um vector numérico com as posições de cada um dos elementos que contêm o padrão de correspondência. Em outras palavras, o elemento 29 de Nome do estado contém a palavra Novo.

gt; state.name [29] New Hampshire

Ufa, que funcionou! Mas digitação na posição de cada texto correspondente vai ser um monte de trabalho. Felizmente, você pode usar os resultados de grep () directamente para o subconjunto do vector original é:

Video: |FÓRMULAS EXCEL| LOCALIZAR TEXTO EM FRASES (INCRÍVEL) - Excel Rap10

gt; state.name [grep ("Novo", State.name)] [1] "Nova Hampshire" "Nova Jersey"[3] "Novo México" "Nova york"

o grep () função é sensível a maiúsculas - que corresponde apenas texto no mesmo caso (maiúsculas ou minúsculas) como seu padrão de pesquisa. Se você procurar o padrão “Novo”Em letras minúsculas, os resultados da pesquisa estão vazios:

gt; state.name [grep ("Novo", State.name)] caracteres (0)

Publicações relacionadas