Python 基础教程 —— 网络爬虫入门篇
前言
Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。
自面世以后,Python 深受广大开发者的喜迎,在网站开发,网络爬虫,数据分析,机器学习,人工智能等领域都有其过人之处。
在“Python基础教程“中,本人将会从各个不同领域介绍Python的用法,今天就先从最常用的网络爬虫开始说起。
网络爬虫主要目的是通过定期收集网络的信息,把信息保存后进行分析归类,最后通过报表显示给相关的用户作为业务参考。几年我也曾经做过一个项目是对税务局的政府网站进行信息收集,把收集到的税务政策,各行业的税率变动,国家颁布的新行税法进行分析,把分析结果综合到财税管理平台进行财务核算。
为了简化流程,这次就以常用的天气网为例子(http://www.weather.com.cn/),定时收集地区的天气情况,最后把数据作为图表显示。
目录
一、页面下载
二、数据读取
三、数据保存
四、使用 matplotlib 显示数据
五、定时器
一、页面下载
这里用到了 urllib 库里面的 request 类,它有两个常用的方法:
1. urlretrieve 用于下载网页
1 def urlretrieve(url: str, 2 filename: Optional[str] = ..., 3 reporthook: Optional[(int, int, int) -> None] = ..., 4 data: Optional[bytes] = ...)