Python-XPath | HoleLin's Blog

参考文献

Python3网络爬虫开发实战第二版
XPath 菜鸟教程

`XPath`

术语

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点.XML 文档是被作为节点树来对待的.树的根被称为文档节点或者根节点.

轴(Axes)

轴可定义相对于当前节点的节点集.

轴名称	结果
`ancestor`	选取当前节点的所有先辈(父、祖父等)
`ancestor-or-self`	选取当前节点的所有先辈(父、祖父等)以及当前节点本身.
`attribute`	选取当前节点的所有属性.
`child`	选取当前节点的所有子元素.
`descendant`	选取当前节点的所有后代元素(子、孙等)
`descendant-or-self`	选取当前节点的所有后代元素(子、孙等)以及当前节点本身.
`following`	选取文档中当前节点的结束标签之后的所有节点.
`following-sibling`	选取当前节点之后的所有兄弟节点
`namespace`	选取当前节点的所有命名空间节点.
`parent`	选取当前节点的父节点.
`preceding`	选取文档中当前节点的开始标签之前的所有节点.
`preceding-sibling`	选取当前节点之前的所有同级节点.
`self`	选取当前节点.

选取节点

XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step 来选取的.

表达式	描述
`nodename`	选取此节点的所有节点
`/`	从当前节点选取直接节点
`//`	从当前节点选取子孙节点
`.`	选取当前节点
`..`	选取当前节点的父节点
`@`	选取属性

路径表达式	结果
`bookstore`	选取 bookstore 元素的所有子节点.
`/bookstore`	选取根元素 bookstore.注释：假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径！
`bookstore/book`	选取属于 bookstore 的子元素的所有 book 元素.
`//book`	选取所有 book 子元素,而不管它们在文档中的位置.
`bookstore//book`	选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置.
`//@lang`	选取名为 lang 的所有属性

选取未知节点

通配符	描述
`*`	匹配任何元素节点.
`@*`	匹配任何属性节点.
`node()`	匹配任何类型的节点.

路径表达式	结果
`/bookstore/*`	选取 bookstore 元素的所有子元素.
`//*`	选取文档中的所有元素.
`//title[@*]`	选取所有带有属性的 title 元素.

谓语(`Predicates`)

路径表达式	结果
`/bookstore/book[1]`	选取属于 bookstore 子元素的第一个 book 元素.
`/bookstore/book[last()]`	选取属于 bookstore 子元素的最后一个 book 元素.
`/bookstore/book[last()-1]`	选取属于 bookstore 子元素的倒数第二个 book 元素.
`/bookstore/book[position()<3]`	选取最前面的两个属于 bookstore 元素的子元素的 book 元素.
`//title[@lang]`	选取所有拥有名为 lang 的属性的 title 元素.
`//title[@lang='eng']`	选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性.
`/bookstore/book[price>35.00]`	选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00.
`/bookstore/book[price>35.00]/title`	选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00.

运算符

运算符	描述	实例	返回值
`	`	计算两个节点集	//book \| //cd
`+`	加法	6 + 4	10
`-`	减法	6 - 4	2
`*`	乘法	6 * 4	24
`div`	除法	8 div 4	2
`=`	等于	price=9.80	如果 price 是 9.80,则返回 true.如果 price 是 9.90,则返回 false.
`!=`	不等于	price!=9.80	如果 price 是 9.90,则返回 true.如果 price 是 9.80,则返回 false.
`<`	小于	price<9.80	如果 price 是 9.00,则返回 true.如果 price 是 9.90,则返回 false.
`<=`	小于或等于	price<=9.80	如果 price 是 9.00,则返回 true.如果 price 是 9.90,则返回 false.
`>`	大于	price>9.80	如果 price 是 9.90,则返回 true.如果 price 是 9.80,则返回 false.
`>=`	大于或等于	price>=9.80	如果 price 是 9.90,则返回 true.如果 price 是 9.70,则返回 false.
`or`	或	price=9.80 or price=9.70	如果 price 是 9.80,则返回 true.如果 price 是 9.50,则返回 false.
`and`	与	price>9.00 and price<9.90	如果 price 是 9.80,则返回 true.如果 price 是 8.50,则返回 false.
`mod`	计算除法的余数	5 mod 2	1

步(`step`)

步（step）包括：
- 轴（axis）:定义所选节点与当前节点之间的树关系
- 节点测试（node-test）:识别某个轴内部的节点
- 零个或者更多谓语（predicate）:更深入地提炼所选的节点集
步的语法
1
轴名称::节点测试[谓语]

例子	结果
`child::book`	选取所有属于当前节点的子元素的 book 节点。
`attribute::lang`	选取当前节点的 lang 属性。
`child::*`	选取当前节点的所有子元素。
`attribute::*`	选取当前节点的所有属性。
`child::text()`	选取当前节点的所有文本子节点。
`child::node()`	选取当前节点的所有子节点。
`descendant::book`	选取当前节点的所有 book 后代。
`ancestor::book`	选择当前节点的所有 book 先辈。
`ancestor-or-self::book`	选取当前节点的所有 book 先辈以及当前节点（如果此节点是 book 节点）
`child::*/child::price`	选取当前节点的所有 price 孙节点。

示例

from lxml import etree

html = etree.parse('test.html', etree.HTMLParser())
# 获取所有节点
result = html.xpath('//*')

# 获取子节点或者子孙节点,获取li节点的所有直接子节点a
result = html.xpath('//li/a')

# 知道子节点来获取父节点,获取href属性为image.png的a节点的父节点的class属性
result = html.xpath('//a[@href="image.png"]/../@class')
# 等价于
result = html.xpath('//a[@href="image.png"]/parent::*/@class')

# 根据属性来匹配
result = html.xpath('//li[@class="note"]/text()')

参考文献

XPath

术语

轴(Axes)

选取节点

选取未知节点

谓语(Predicates)

运算符

步(step)

示例

`XPath`

谓语(`Predicates`)

步(`step`)