当前位置：自学咖网 > 技术教程 > Pyhton常见问题 > python处理抓取中文编码和判断编码

hmoban Pyhton常见问题 2023-11-29

python处理抓取中文编码和判断编码

在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码

版本python2.7

#coding:utf-8
import chardet
#抓取网页html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#处理，整个html就不会是乱码。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')

来源：PY学习网：原文地址：https://www.py.cn/article.html

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » python处理抓取中文编码和判断编码

hmoban 普通

分享到：

相关推荐

python和scratch哪个好

Scratch Scratch编程语言是由麻省理工大学 MIT 和 Google 主导开发的针对 5-12 岁儿童的可视化编程语言。只需要使用鼠标，学生就可以编写自己的故事书，动画片或者小游戏。 Scratch软件的优势...

Pyhton常见问题 2023-11-22
48

windows中怎么切换python版本

由于历史原因，Python有两个大的版本分支，Python2和Python3，又由于一些库只支持某个版本分支，所以需要在电脑上同时安装 Python2和Python3，因此如何让两个版本的Python兼容，如何让脚本在对...

Pyhton常见问题 2023-11-18
51

anaconda是什么软件

Anaconda 是一个开源的包、环境管理器，其包含了conda、Python等180多个科学包及其依赖项，可以用于在同一个机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。 Anaconda包括Conda...

Pyhton常见问题 2023-10-18
49

python字符串连接的方法有哪些

python中有很多字符串连接方式，下面总结一下：最原始的字符串连接方式： str1 + str2 python 新字符串连接语法： str1, str2 奇怪的字符串方式： str1&n...

Pyhton常见问题 2023-11-19
50

anaconda prompt在哪打开？

在安装完成的Anaconda下，会有一个Anaconda Prompt，利用这个程序可以找到当前位置的文件及当前位置文件下的目录文件。（推荐：anaconda使用教程）下面我们就来看一下打开Anaconda Promp...

Pyhton常见问题 2023-11-11
42

Django view视图

1、HttpRequest对象的属性和方法 http请求：HttpRequest对象 def seetl(request): request.path # 请求页面全路径（不包括域名）request.get_full_p...

Pyhton常见问题 2023-10-09
48

自学咖网