Python-XPath
参考文献
- Python3网络爬虫开发实战第二版
- XPath 菜鸟教程
XPath
术语
- 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点.XML 文档是被作为节点树来对待的.树的根被称为文档节点或者根节点.
轴(Axes)
- 轴可定义相对于当前节点的节点集.
轴名称 | 结果 |
---|---|
ancestor |
选取当前节点的所有先辈(父、祖父等) |
ancestor-or-self |
选取当前节点的所有先辈(父、祖父等)以及当前节点本身. |
attribute |
选取当前节点的所有属性. |
child |
选取当前节点的所有子元素. |
descendant |
选取当前节点的所有后代元素(子、孙等) |
descendant-or-self |
选取当前节点的所有后代元素(子、孙等)以及当前节点本身. |
following |
选取文档中当前节点的结束标签之后的所有节点. |
following-sibling |
选取当前节点之后的所有兄弟节点 |
namespace |
选取当前节点的所有命名空间节点. |
parent |
选取当前节点的父节点. |
preceding |
选取文档中当前节点的开始标签之前的所有节点. |
preceding-sibling |
选取当前节点之前的所有同级节点. |
self |
选取当前节点. |
选取节点
- XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step 来选取的.
表达式 | 描述 |
---|---|
nodename |
选取此节点的所有节点 |
/ |
从当前节点选取直接节点 |
// |
从当前节点选取子孙节点 |
. |
选取当前节点 |
.. |
选取当前节点的父节点 |
@ |
选取属性 |
路径表达式 | 结果 |
---|---|
bookstore |
选取 bookstore 元素的所有子节点. |
/bookstore |
选取根元素 bookstore.注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book |
选取属于 bookstore 的子元素的所有 book 元素. |
//book |
选取所有 book 子元素,而不管它们在文档中的位置. |
bookstore//book |
选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置. |
//@lang |
选取名为 lang 的所有属性 |
选取未知节点
通配符 | 描述 |
---|---|
* |
匹配任何元素节点. |
@* |
匹配任何属性节点. |
node() |
匹配任何类型的节点. |
路径表达式 | 结果 |
---|---|
/bookstore/* |
选取 bookstore 元素的所有子元素. |
//* |
选取文档中的所有元素. |
//title[@*] |
选取所有带有属性的 title 元素. |
谓语(Predicates
)
路径表达式 | 结果 |
---|---|
/bookstore/book[1] |
选取属于 bookstore 子元素的第一个 book 元素. |
/bookstore/book[last()] |
选取属于 bookstore 子元素的最后一个 book 元素. |
/bookstore/book[last()-1] |
选取属于 bookstore 子元素的倒数第二个 book 元素. |
/bookstore/book[position()<3] |
选取最前面的两个属于 bookstore 元素的子元素的 book 元素. |
//title[@lang] |
选取所有拥有名为 lang 的属性的 title 元素. |
//title[@lang='eng'] |
选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性. |
/bookstore/book[price>35.00] |
选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00. |
/bookstore/book[price>35.00]/title |
选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00. |
运算符
运算符 | 描述 | 实例 | 返回值 |
---|---|---|---|
` | ` | 计算两个节点集 | //book | //cd |
+ |
加法 | 6 + 4 | 10 |
- |
减法 | 6 - 4 | 2 |
* |
乘法 | 6 * 4 | 24 |
div |
除法 | 8 div 4 | 2 |
= |
等于 | price=9.80 | 如果 price 是 9.80,则返回 true.如果 price 是 9.90,则返回 false. |
!= |
不等于 | price!=9.80 | 如果 price 是 9.90,则返回 true.如果 price 是 9.80,则返回 false. |
< |
小于 | price<9.80 | 如果 price 是 9.00,则返回 true.如果 price 是 9.90,则返回 false. |
<= |
小于或等于 | price<=9.80 | 如果 price 是 9.00,则返回 true.如果 price 是 9.90,则返回 false. |
> |
大于 | price>9.80 | 如果 price 是 9.90,则返回 true.如果 price 是 9.80,则返回 false. |
>= |
大于或等于 | price>=9.80 | 如果 price 是 9.90,则返回 true.如果 price 是 9.70,则返回 false. |
or |
或 | price=9.80 or price=9.70 | 如果 price 是 9.80,则返回 true.如果 price 是 9.50,则返回 false. |
and |
与 | price>9.00 and price<9.90 | 如果 price 是 9.80,则返回 true.如果 price 是 8.50,则返回 false. |
mod |
计算除法的余数 | 5 mod 2 | 1 |
步(step
)
-
步(step)包括:
-
轴(axis):定义所选节点与当前节点之间的树关系
-
节点测试(node-test):识别某个轴内部的节点
-
零个或者更多谓语(predicate):更深入地提炼所选的节点集
-
-
步的语法
1
轴名称::节点测试[谓语]
例子 | 结果 |
---|---|
child::book |
选取所有属于当前节点的子元素的 book 节点。 |
attribute::lang |
选取当前节点的 lang 属性。 |
child::* |
选取当前节点的所有子元素。 |
attribute::* |
选取当前节点的所有属性。 |
child::text() |
选取当前节点的所有文本子节点。 |
child::node() |
选取当前节点的所有子节点。 |
descendant::book |
选取当前节点的所有 book 后代。 |
ancestor::book |
选择当前节点的所有 book 先辈。 |
ancestor-or-self::book |
选取当前节点的所有 book 先辈以及当前节点(如果此节点是 book 节点) |
child::*/child::price |
选取当前节点的所有 price 孙节点。 |
示例
1 | from lxml import etree |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 HoleLin's Blog!