Python中的编码问题

阿湫o

字数：377字

时长：1分钟

发布于：2019年8月25日

Python 中的编码问题

爬取的所有网页无论何种编码格式，都应转化为 utf-8 格式进行存储，
与源代码编码格式不同会出现乱码。

UTF-8 通用性比较好，是用以解决国际上字符的一种多字节编码，
它对英文使用 8 位（即一个字节），中文使用 24 位（三个字节）来编码。

UTF-8 编码的文字可以在各国各种支持 UTF8 字符集的浏览器上显示，
也就是必须两者都是 utf-8 才行。

gbk 是是国家编码，通用性比 UTF8 差，GB2312 之类的都算是 gbk 编码。
GBK 包含全部中文字符；UTF-8 则包含全世界所有国家需要用到的字符。

Unicode 是一种二进制编码，所有 utf-8 和 gbk 编码都得通过 Unicode 编码
进行转译，即 utf-8 和 gbk 编码之间不能直接转换

decode —–把当前字符解码成 Unicode 编码
encode —–把 Unicode 编码格式的字符编码成其他格式的编码

Python 默认使用 Unicode 字符集，做编码转换时，要把 Unicode 作为中间编码，
先 decode（解码）成 Unicode 编码，再 encode（编码）成其他编码。

非 Unicode 编码不能直接 encode 成其他编码，否则会报错

如打印网页源代码出现乱码，先用 gbk 编码，忽略掉非法字符，然后再译码

print(r.text.encode('GBK','ignore').decode('GBk'))

更新于：2022年6月15日

字数：377字

时长：1分钟

Python

使用Git进行版本控制

使用 Git 进行版本控制版本控制软件让我们能够拍摄处于可行状态的项目的快照。修改项目（如实现新功能）后，如果项目不能正常运行，可恢复到前一个可行状态。通过使用版本控制软件，我们可以无忧无虑地...

Python基础—函数

函数函数是带名字的代码块，用于完成具体的工作，要执行函数定义的特定任务，可调用该函数；需要在程序中多次执行同一项任务时，无需反复编写完成该任务的代码，而只需调用执行该任务的函数，让 Pyth...