Python 基础教程 —— 网络爬虫入门篇

Python 基础教程 —— 网络爬虫入门篇

前言 

Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。
自面世以后,Python 深受广大开发者的喜迎,在网站开发,网络爬虫,数据分析,机器学习,人工智能等领域都有其过人之处。
在“Python基础教程“中,本人将会从各个不同领域介绍Python的用法,今天就先从最常用的网络爬虫开始说起。
网络爬虫主要目的是通过定期收集网络的信息,把信息保存后进行分析归类,最后通过报表显示给相关的用户作为业务参考。几年我也曾经做过一个项目是对税务局的政府网站进行信息收集,把收集到的税务政策,各行业的税率变动,国家颁布的新行税法进行分析,把分析结果综合到财税管理平台进行财务核算。
为了简化流程,这次就以常用的天气网为例子(http://www.weather.com.cn/),定时收集地区的天气情况,最后把数据作为图表显示。

 

目录

一、页面下载

二、数据读取

三、数据保存

四、使用 matplotlib 显示数据

五、定时器

 

一、页面下载

这里用到了 urllib 库里面的 request 类,它有两个常用的方法:

1.  urlretrieve 用于下载网页

1 def urlretrieve(url: str,
2       filename: Optional[str] = ...,
3       reporthook: Optional[(int, int, int) -> None] = ...,
4       data: Optional[bytes] = ...)
hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » Python 基础教程 —— 网络爬虫入门篇