Bootstrap

python中的编码问题

  • ASCII 占1个字节,只支持英文
  • GB2312 占2个字节,支持6700+汉字
  • GBK GB2312的升级版,支持21000+汉字
  • Unicode 2-4字节  支持全球语言
  • UTF是对unicode进行转换,以便于在存储和网络传输时可以节省空间! 分为以下三种:
    • UTF-8: 使用1、2、3、4个字节表示所有字符;优先使用1个字符、无法满足则使增加一个字节,最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个,其它及特殊字符占4个
    • UTF-16: 使用2、4个字节表示所有字符;优先使用2个字节,否则使用4个字节表示。
    • UTF-32: 使用4个字节表示所有字符;

python2中 字符编码

   python2中的编码默认是ascii编码,可以在文件头加# _*_coding:utf-8/gbk _*_ 来实现中文编码。python2解释器仅以文件头声明的编码去解释你的代码,加载到内存后,你的文件编码是utf-8,加载到内存里,你的变量字符串就也是utf-8。

  python2中str=bytes。 通过对字符串(str/bytes)decode,可以得到unicode类型,对unicode encode来编码回字符串。

>>> s = '中国'
>>> s1 = s.decode('gbk')
>>> print s1, type(s1)
中国 <type 'unicode'>
>>> s2 = s1.encode('utf-8')
>>> print s2, type(s2)
涓浗 <type 'str'>

上面是在windows的cmd下的python2解释环境运行的,win的cmd是gbk编码,所以print s2 是乱码。

python3中的 字符编码

python3默认在内存中用unicode编码,python3中str不等于bytes且没有unicode类型。

str-->encode-->bytes,  bytes-->decode-->str

>>> s = '中国'
>>> print(s)
中国
>>> s1 = s.encode('utf-8')
>>> print(s1, type(s1))
b'\xe4\xb8\xad\xe5\x9b\xbd' <class 'bytes'>
>>> s2 = s1.decode('utf-8')
>>> print(s2, type(s2))
中国 <class 'str'>

上面的utf-8编码之所以能在windows cmd下显示正常,是因为到了内存里python3解释器把utf-8转成了unicode 。

;