hmoban Pyhton常见问题 2023-11-25

如何用python爬取图片

都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。

代码：

其实很简单，我们直接看下整体的代码：

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)

效果

就像这样自动爬取下载图片到本地：

导入库：

第一行的utf-8是为了支持中文。

这里我们导入了两个库，分别是 urllib 和 re。urllib 是用来进行 url 网络请求的，而 re 是一个正则表达式匹配的库。这里我们要先对网站进行模拟请求，然后找到网站中的图片进行下载。

请求网站：

第一个方法：getHtml。

这就是用来模拟浏览器访问网站的，参数 url 是要访问的网站链接，这里我们在下面的变量 html 处调用了这个方法，其访问的 url 是一个图片网站，关于选择访问网站还有一点等下要说一下。

在这个方法中，我们先用了 urllib 库的 urlopen 方法来打开网站，然后通过 read 方法来获取网站的源代码，其实就跟在网页中“右键–>检查“是一个意思。最后返回了读取到的网站源代码。

上面说了要注意的一点是，由于很多网站会禁止人们随意爬取数据，有反爬虫的技术，所以在选择要爬取的网站的时候，最好先通过这个方法获取网站源代码，然后 print 输出 html 变量看一下获取到的内容是否是正常的网页源代码，而不是403之类的禁止访问，如果被禁止了，那么自然也不可能爬取到数据了。更多学习内容，请点击Python学习网。

来源：PY学习网：原文地址：https://www.py.cn/article.html

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » 如何用python爬取图片

hmoban 普通

分享到：

hmoban 普通

相关推荐