当前位置：自学咖网 > 技术教程 > 编程最新 > python爬虫爬取博客园

wen 编程最新 2024-01-31

python爬虫爬取博客园

python 爬取云海天接蚂蚁学pythonP5生产者消费者爬虫数据重复问题

先看访问地址
- 访问地址是https://www.cnblogs.com/#p2 但是实际访问地址是https://www.cnblogs.com 说明其中存在猫腻；像这种我们给定指定页码，按理应该是 post 请求才对；于是乎往下看了几个连接
- 然后再看一下payload 发现这个post 请求才是我们想要的链接其中PageIndex 就是我们要设置的页数

代码撸起来

# Author: Lovyya
# File : blog_spider
import requests
import json
from bs4 import BeautifulSoup
import re
# 这个是为和老师的urls一致性 匹配urls里面的数字
rule = re.compile("d+")

urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 31)]

# pos请求网址
url = "https://www.cnblogs.com/AggSite/AggSitePostList"
headers = {
	"content-type": "application/json",
	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
}

def craw(urls):
	#idx 是"xxx.xxxx.xxx/#p{num}" 里面的num 这样写可以不用改 后面生产者消费者的代码 
	idx = rule.findall(urls)[0]
	# payload参数 只需要更改 idx 就行
	payload = {
		"CategoryType": "SiteHome", 
		"ParentCategoryId": 0, 
		"CategoryId": 808, 
		"PageIndex": idx,
		"TotalPostCount": 4000, 
		"ItemListActionName": "AggSitePostList"
	}
	r = requests.post(url, data=json.dumps(payload), headers=headers)
	return r.text

def parse(html):
	# post-item-title
	soup = BeautifulSoup(html, "html.parser")
	links = soup.find_all("a", class_="post-item-title")
	return [(link["href"], link.get_text()) for link in links]

if __name__ == "__main__":
	for res in parse(craw(urls[2])):
		print(res)

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » python爬虫爬取博客园

wen 普通

分享到：

相关推荐

php怎么改变数组顺序

php改变数组顺序的方法是：使用array_reverse()函数翻转数组即可，例如【$preserve=array_reverse($a,true);】。本文操作环境：windows10系统、php 7.1、thin...

编程最新 2024-01-31
49

php中遍历数组的五种方法是什么

五种遍历方法：1、用“for($i=0;$i<数组长度;$i++)”；2、用“foreach(数组 as="">$v)”；3、用“while(list($k,$v)=each(数组))”；...

编程最新 2024-01-31
51

php不支持gd库怎么办

php不支持gd库的解决办法：首先找到并打开“php.ini”文件；然后打开内容并找到“;extension=php_gd2.dll”；接着把最前面的分号去掉；最后保存修改即可。推荐：《PHP教程》 Windows下开...

编程最新 2024-01-31
48

java springcloud 微服务设计方案

springcloud + springcloud Alibaba + flowable 流程引擎

编程最新 2024-01-31
53

Python eval 与 exec 函数区别 – Python零基础入门教程

目录一.Python eval 与 exec 函数的区别二.价值 10 个亿的智能机器人核心代码三.猜你喜欢基础 Python 学习路线推荐 : Python 学习目录 >> Python 基础入门 ...

编程最新 2024-01-31
38

如何在tomcat部署php项目

在tomcat部署php项目的方法：首先下载相关jar包；然后修改tomcat安装目录下conf文件夹里的web.xml文；接着将php项目复制到tomcat的webapps目录下；最后启动tomcat即可。推荐：《P...

编程最新 2024-01-31
52

自学咖网