Python解析库lxml与xpath用法总结

2023-02-24 15:17:02Python016

Python解析库lxml与xpath用法总结,第1张

本文主要围绕以xpath和lxml库进行展开：

一、xpath 概念、xpath节点、xpath语法、xpath轴、xpath运算符

二、lxml的安装、lxml的使用、lxml案例

一、xpath

1.xpath概念

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航。XPath 包含一个标准函数库。XPath 是 XSLT 中的主要元素。XPath 是一个 W3C 标准。

2.xpath节点

xpath有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。

节点关系：父、子、兄弟、先辈、后辈。

3.xpath语法

xpath语法在W3c网站上有详细的介绍，这里截取部分知识，供大家学习。

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

XPath 通配符可用来选取未知的 XML 元素。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

通过在路径表达式中使用"|"运算符，您可以选取若干个路径。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

4.xpath 轴

轴可定义相对于当前节点的节点集。

5.xpath运算符

下面列出了可用在 XPath 表达式中的运算符：

好了，xpath的内容就这么多了。接下来我们要介绍一个神器lxml，他的速度很快，曾经一直是我使用beautifulsoup时最钟爱的解析器，没有之一，因为他的速度的确比其他的html.parser 和html5lib快了许多。

二、lxml

1.lxml安装

lxml 是一个xpath格式解析模块，安装很方便，直接pip install lxml 或者easy_install lxml即可。

2.lxml 使用

lxml提供了两种解析网页的方式，一种是你解析自己写的离线网页时，另一种则是解析线上网页。

导入包：

1.解析离线网页：

2.解析在线网页：

那么我们怎么获取这些标签和标签对应的属性值了，很简单，首先获取标签只需你这样做：

然后我们可以，比方说，你要获取a标签内的文本和它的属性href所对应的值，有两种方法，

1.表达式内获取

2.表达式外获取

这样就完成了获取，怎么样，是不是很简单了，哈哈哈。

下面再来lxml的解析规则：

3.lxml案例

为了偷懒，我决定还是采用urllib那篇文章的代码，哈哈哈，机智如我。

对于网页数据抓取，有BeautifulSoup、lxml以及正则表达式三种方法，其中正则表达式过于复杂，而beautifulsoup和lxml使用起来较为方便。以前简单使用过beautifulsoup（美味汤），后面为了扩展一下，熟悉一下lxml进行数据抓取。

先贴一个lxml的简单框架：

其中，最主要的在于xpath路径的获取和解析，而XPath就是地址，具体地，就是需要知道所要寻找的内容处在哪个地址下。一般而言，我们可以根据开发者工具来定位我们需要的元素，然后右击选择其所在xpath，选择初步的路径，如下图所示，

这只是一种简单的方法，更重要的，需要掌握xpath的语法规则，下面分别论述。

使用xpath获取信息，主要包括获取本文和获取属性，基本用法为

对比可以看出，一个是采用text()获取文本，一个是采用@属性获取属性值。而前面标签后面方括号就是来对标签进行筛选的。一般而言，通过选择器可以获取诸如/html/body/div[@class="useful"]/ul/li/text()的信息，但是开头的信息没有标志性，采用//div[@class="useful"]/ul/li/text()即可。

这个地方即涉及到了xpath的语法选择，主要包括以下几点：

而在选择器方面，包括以下几个

除此之外，在获取了一个元素之后，我们需要获取其下面元素的属性，即要对基于xpath获取的元素再次采用xpath，此时的获取方式为：

另外，我们也可以获取节点下面所有的字符串，方法为string(.)，示例为：

懒得打字了，下面的截图来自W3Cschool， https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html

主要的Xpath运算符包括以下：

按顺序选择等进一步的内容可以移步 https://www.w3cschool.cn/lxml/_lxml-eh1k3fk6.html

具体到不同的网页上，需要的其他知识就更多了，慢慢补充吧。不过似乎还是beautifulsoup好用一些，哈哈。

参考资料：

https://blog.csdn.net/weixin_39851008/article/details/109960957

https://www.w3cschool.cn/lxml/_lxml-98h23fk0.html

python3环境下安装命令