深入浅出理解Python“乱码”问题

发布时间：2019-01-27 08:57:56 所属栏目：优化来源：丁彦军

导读：副标题#e# 在爬取某网站时，网页的源代码出现了中文乱码问题。之前关于爬虫乱码有各式各样的问题，今天与大家一起总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致

基本思路三步走：确定源网页的编码A---gbk、程序通过编码B---ISO-8859-1对源网页数据还原、统一转换字符的编码C-utf-8。至于为啥为出现统一转码这一步呢? 网络爬虫系统数据来源很多，不可能使用数据时，再转化为其原始的数据，假使这样做是很废事的。所以一般的爬虫系统都要对抓取下来的结果进行统一编码，从而在使用时做到一致对外，方便使用。

比如如果我们想讲网页数据保存下来，则会将起转为utf-8，代码如下：

with open("a.txt",'w',encoding='utf-8') as f: 
    f.write(html)

四、总结

关于网络爬虫乱码问题，本文不仅给出了一个解决方案，还深入到其中的原理，由此问题引申出很多有意思的问题，如，utf-8、gbk、gb2312的编码方式怎样的?为什么这样转化就可以解决问题?

【编辑推荐】

Python爬取房产数据，在地图上展现！
力压Java、C语言！Python获2018年度编程语言
如何用Python进行数据分析？
你想要的 Python 编程技巧，我都给你整理好了
还没买到票？快试试这个Python开源工具，支持多任务抢票

【责任编辑：武晓燕 TEL：（010）68476606】
点赞 0

（编辑：温州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

优化网站要害词排名的	影响网站排名的因素分
B2B营销网站的搜索引擎	网站名次的高下不取于