Ciência de dados: lidando com unicode em python

Video: Converting from Unicode to characters and symbols in Python p.2

Os arquivos de texto são texto puro - isto é certo para os cientistas de dados usando Python. A forma como o texto é codificado pode ser diferente. Por exemplo, um personagem pode usar tanto sete ou oito bits para fins de codificação. O uso de caracteres especiais podem diferir também. Em suma, a interpretação de bits usado para criar caracteres difere de codificação para codificação. Confira aqui uma série de codificações.

Video: Dominando Unicode (parte 1/2)

Às vezes você precisa trabalhar com outros do que a codificação padrão definido dentro do ambiente Python codificações. Ao trabalhar com Python 3.X, você deve contar com Universal Transformation Format 8 bits (UTF-8) como a codificação usada para ler e gravar arquivos. Este ambiente é sempre definida para UTF-8, e tentar mudá-lo faz com que uma mensagem de erro.

No entanto, quando se trabalha com Python 2.X, você pode escolher outras codificações. Neste caso, a codificação padrão é a American Standard Code Information Interchange (ASCII), mas você pode alterá-lo para alguma outra codificação.

Video: Introduction to UTF-8 and Unicode

Você pode usar esta técnica em qualquer arquivo do Notebook IPython, mas você não verá realmente a saída dele. A fim de ver uma saída, você precisa trabalhar com o prompt IPython. Os passos seguintes ajudá-lo a ver como lidar com caracteres Unicode, mas apenas quando se trabalha com Python 2.X (Essas etapas irão causar erros no Python 3.X meio Ambiente).

  1. Abra uma cópia do prompt de comando do IPython.

    Você vê a janela IPython.

  2. Digite o seguinte código, pressionando Enter após cada linha.

    syssys.getdefaultencoding importação ()


    Você vê a codificação padrão para Python, que é ascii na maioria dos casos.

  3. Tipo recarregar (SYS) e pressione Enter.

    Python recarrega o módulo sys e faz uma função especial disponível.

  4. Tipo sys.setdefaultencoding ( ‘utf-8’) e pressione Enter.

    Python não alterar a codificação, mas você não vai saber que com certeza até após a próxima etapa.

  5. Tipo sys.getdefaultencoding () e pressione Enter.

    Você vê que a codificação padrão agora mudou para utf-8.

Mudando a codificação padrão no momento errado e na maneira incorreta pode impedi-lo de realizar tarefas como a importação de módulos. Certifique-se de testar seu código com cuidado e completamente para garantir que qualquer mudança na codificação padrão não irá afectar a sua capacidade de executar o aplicativo. Bons artigos adicionais para ler sobre este assunto aparecem em blog.notdot.net e web.archive.org.


Publicações relacionadas