当前位置：自学咖网 > 技术教程 > Pyhton常见问题 > spider.2-爬虫的基础

hmoban Pyhton常见问题 2023-10-09

spider.2-爬虫的基础

# 1.创建请求对象(Request())
url = "http://..."

# 1.1 添加多个请求头，每次放一个进行访问
# list = [agent1,agent2,agent3,agent4,agent5]
# agent = random.choice(list)

headers = {
    "User-Agent": "",  # 伪装，反爬虫机制     # 1.1  "User-Agent":agent,
    "Cookie": "",  # Cookie模拟登陆
}
# 1.2创建自定义请求对象
req = urllib.request.Request(url, headers=headers)

# 2.获取响应对象(urlopen())
res = urllib.request.urlopen(req)

# 3.获取内容(read().decode("utf-8")
html = res.read().decode("utf-8")
# decode() : bytes -> string
# encode() : string -> bytes


# 2-3.可结合
# html = request.urlopen(req).read().decode("utf-8")

print(html)

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » spider.2-爬虫的基础

hmoban 普通

分享到：

相关推荐

python wx模块是什么

一、wxPython介绍 1.wxPython是Python语言的一套优秀的GUI图形库。wxPython可以很方便的创建完整的、功能键全的GUI用户界面。wxPython是作为优秀的跨平台GUI库wxWidgets的P...

Pyhton常见问题 2023-12-02
43

什么是Django框架的模型层

在MVC或者说MTV设计模式中，模型（M）代表对数据库的操作。那么如何操作数据库呢？手动切换到数据库环境，然后敲入SQL语句？你知道这是个笑话！我们是程序员，讲的是自动化，实现的是Python环境下的操作，所以我们必...

Pyhton常见问题 2023-11-23
47

Python3爬虫利器：Scrapy的安装

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些...

Pyhton常见问题 2023-11-29
50

mac怎么看python版本

点击桌面菜单栏中的“前往”，如图：在下拉菜单栏中选择“实用工具”，如图：在弹出的界面中，选择底部的“终端”，如图：输入命令：Python -V，按回车键。即可看到Python版本：2.7.16，如图。...

Pyhton常见问题 2023-11-23
46

python 如何生成uuid

UUID（Universally Unique Identifier）是通用唯一识别码，在许多领域用作标识，比如我们常用的数据库也可以用它来作为主键，原理上它是可以对任何东西进行唯一的编码的。作为新手一看到类似varch...

Pyhton常见问题 2023-12-02
47

postgresql单个表可以有多少字段

PostgreSQL性能极限值如下：最大单个数据库大小不限最大数据单表大小 32 TB 单条记录最大 1.6 TB 单字段最大允许 1 GB 单表允许最大记录数不限单表最大字段数 250...

Pyhton常见问题 2023-11-06
42

自学咖网