Python爬虫:lxml的环境配置

一、什么是lxml?

在我们获取html页面之后,可以使用xpath语法进行数据提取,但是,直接在获取的content里面使用xpath语法进行数据提取吗?显然不是的,获取的内容仅仅只是一个包含所有内容的html字符串,Xpath语法是无法直接作用于这样的一个字符串进行数据提取的,所以,在这里,我们需要使用lxml这样一个库对html这样的字符串进行解析,将它还原为一个HTML页面,换句话说,Python里面的lxml库只做了这样一件事:将html字符串进行解析,供Xpath语法进行数据提取。

lxml是用 C 语言编写的【这个就是为什么使用xpath语法解析起来速度比较快的原因】,是一款高性能的HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

二、如何安装lxml?

1.方法一:

通过pip install lxml直接进行在线安装。

9ffb0e1e18e7df5cfdbb0423ff446f4.png

版本:

90a0471400cf7045f36399830c63a0f.png

2.方法二:

通过离线方式进行安装,直接安装.whl文件。

be447cc8208911cc42899e1b6fee824.png

云海天教程网,大量的免费python教程,欢迎在线学习!

本文转自:https://blog.csdn.net/weixin_42830697/article/details/102671274

hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » Python爬虫:lxml的环境配置