字符编码

2017-07-04 | 阅读：次

编码格式

世界上的任意字符在计算机中，都是用一串二进制的数字来表示的，只不过同一个字符在不同的编码格式下，对应的数字不同，长度也不一样。

ASCII

ASCII 是最早的编码规范，但是只能表示128个字符。

扩展ASCII码

后来有了扩展ASCII码，扩展到了256个字符。

Unicode

世界上的字符辣么多，256个就够了吗？Unicode 包含了世界上所有的字符。Unicode的所有字符长度都是定长的，16位，也就是说可以代表 65536 个字符，如下

   今    天    早    上    有    雾
\u4eca\u5929\u65e9\u4e0a\u6709\u96fe

字符的 Unicode 码可以通过查找对照表获得，Unicode 是世界上通用的语言。但是它还是有它的局限性，因为有的字符可以用一个字节(8位)表示，但在 Unicode 中，必须是2个字节。

GBK

GBK 是汉语的扩展库，用2个字节表示汉字，理解成汉语方言。

UTF-8

UTF-8 用3个字节表示汉字。

Python 编码转换

encode

将 Unicode 码转换成 byte string 的过程就叫做编码(encoding)，encode()方法，会将字符串(Unicode)转换成 byte 类型的字符串，如下：

byteString = '强'.encode('utf-8')
print(byteString)

输出结果如下。\x是代表16进制，2位16进制的数字相当于8位2进制数字，即一个字节，从下面的结果可以看出，汉字强在utf-8的编码格式下是用三个字节存储的。

b'\xe5\xbc\xba'

decode

将 byte string 转换成 Unicode 码的过程叫做解码(decoding)，decode()方法会将 byte string 解码为字符串(Unicode)。

string = byteString.decode('utf-8')
print(string)

输出结果如下。

强

没有输出类似\u5f3a的 Unicode 码是因为使用print方法的时候控制台做了转换。实际上他们是等价的。可以将类似\u5f3a的 Unicode 码理解为编程语言的内码。

print('强'=='\u5f3a') # 结果为True

转码

例如把utf-8格式的字符串转换成gbk格式的字符串，就叫转码，要想转码就必须先将字符串解码成Unicode码，才能再重新编码。所有的 encode 都是在 Unicode 的基础上开始的。

# 前缀 b 表示 byte string，python3中字符串默认是 Unicode
# 如果不加前缀 b，会发现 Unicode 字符串是没有 decode 方法的
utf8_byte = b'\xe5\xbc\xba'
unicode_string = utf8_byte.decode('utf-8')
gbk_byte = unicode_string.encode('gbk')
print(gbk_byte)

输出结果如下，可以看出在utf-8由3个字节表示的汉字强，在gbk中是由2个字节表示的。

b'\xc7\xbf'

乱码

了解了上面的概念，我们在来分析下乱码是怎么产生的，以用 cx_oracle 查询中文 oracle 为例：

Oracle 数据查询到我们的程序，传输过程中，数据以NS_LANG='SIMPLIFIED CHINESE_CHINA.UTF8'指定的格式编码为 byte string，当这些 byte string 到达你的程序的时候，会默认使用你当前环境的编码格式进行解码，如GBK，当编码和解码的字符集不一致，这时就出现了乱码，那要解决乱码问题也就有两种方式

将程序环境的字符集与 Oracle 编码的字符集进行统一

import os 
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

如果你知道你当前环境是用什么字符集解码的，如GBK，你可以用这个字符集进行编码还原 byte string，然后按正确的字符集进行解码
```
# str 是乱码
str.encode('gbk')
print(str.decode('utf-8'))
```