hmoban Pyhton常见问题 2023-10-09

喜欢看图虫网小姐姐照片不知道怎么下载?python教你们怎么爬取到本地

#### 准备

要爬的网站是图虫网
工具：python 2.7，BeautifulSoup4

注意：BeautifulSoup4为第三方类库，如果在cmd下用pip安装报错，可直接去官网下载，解压后拷贝到python安装目录中的lib目录下，通过cmd进入插件的目录，输入python setup.py install,即可安装。

#### 分析

爬虫的人口页为： [https://tuchong.com/explore/](https://link.jianshu.com?t=https://tuchong.com/explore/)

![image](//upload-images.jianshu.io/upload_images/1806043-a14cf87839b5a709.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

可以看到这页的每张图片都代表一个题材，点进去后就是这个题材下所有的相册，如下图。

![image](//upload-images.jianshu.io/upload_images/1806043-618af894672d382e.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

打开相册后发现相册里的图片都是用js加载的，面对这种情况可以自己分析js，用Request发送请求获取数据。也可以用一些模拟js行为的库来抓取数据,但这样对cpu和内存的消耗会增大，抓取速度也很慢，如非必要建议不使用。
以下是爬虫的核心代码，先解析出所有题材的url地址，然后爬虫循环爬取每个题材的封面照片。

![image](//upload-images.jianshu.io/upload_images/1806043-b50f53795c7c28c9.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

#### 运行

下面让我们的爬虫跑起来，我运行在了服务器上了，大家可以直接通过浏览器访问爬取的结果。

![image](//upload-images.jianshu.io/upload_images/1806043-0cf8aa7d2525343e.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

![image](//upload-images.jianshu.io/upload_images/1806043-92b0b0ef00fc4384.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

一段时间后运行完毕，打开生成的page文件夹,看到爬虫为我们生成的html页面，可以通过下面这个url访问 (ps: 每个网页大约50M，流量党慎入。)

[http://114.215.141.86/zs/spider/page/%E5%B0%91%E5%A5%B3.html](https://link.jianshu.com?t=http://114.215.141.86/zs/spider/page/%E5%B0%91%E5%A5%B3.html)

![image](//upload-images.jianshu.io/upload_images/1806043-fe3038e6d0cb7088.png?imageMogr2/auto-orient/strip|imageView2/2/w/1200/format/webp)

#### 最后

这个网站很简单，不需要登录验证码，连请求头都不用写，爬虫也没有写的太暴力，只是保存了图片的url地址，并没有抓取到本地，别对人家服务器造成压力麻。

###现在还有大礼包免费赠送
###推荐一下我建的python学习交流扣扣qun：850973621，群里有免费的视频教程，开发工具、
###电子书籍、项目源码分享。学习python web、python爬虫、数据分析、大数据，人工智能等
###技术有不懂的可以加入一起交流学习，一起进步！

作者：钟声博客
链接：https://www.jianshu.com/p/15e2dd81636a
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » 喜欢看图虫网小姐姐照片不知道怎么下载?python教你们怎么爬取到本地

hmoban 普通

分享到：

hmoban 普通

相关推荐