天寒保暖,多喝热水

1.xpath的基础语法

表达式 描述
nodename 选中元素
/ 从根节点选取、或者是元素元素间的过渡
// 匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
. 选取当前节点
选取当前节点的父节点
@ 选取属性
text() 选取文本

举例:

路径表达式 结果
html 选择html元素
/html 选取元素 html注释假如路径起始于正斜杠( / ),则路径始终代表到某元素绝对路径
/html/body/ul/li 选取属于 ul的子元素的所有 li元素
//li 选取所有 li元素,而不管它们在文档中的位置
/html//li 选择属于 html元素的后代的所有 li元素,而不管它们位于 html之下的什么位置
//li//a/@href 选择所有的li下面的a标签中的href属性的值
//li//a/text() 选择所有的li下面的a标签文本

2. 寻找特定节点:

路径表达式 结果
//span[@class=“s2”] 选择class属性值为s2的所有span标签
//ul/li[1] 选取属于 ul子标签的第一个 li标签。
//ul/li[last()] 选取属于 ul子标签的最后一个 li标签。
//ul/li[last()-1] 选取属于 ul子标签的倒数第二个 li标签。
//ul/li[position()>1] 选择ul下面的li标签,从第二个开始选择
//li/span/a[text()=‘无墟极道’] 选择所有li下的span标签,仅仅选择文本为 无墟极道 的a标签

敲黑板: 在xpath中,第一个元素的位置是1最后一个元素的位置last(),倒数第二个是last()-1


以上仅供参考,实用才是王道

重点在这here!!!

一.在大多数标准网站中对于文本提取
一般只需:相对标签+class属性值
eg.提取喜马拉雅的发现页面的书名
//span[@class='v-m T_G']

  1. 通过开发者工具定位一个书名的位置在这里插入图片描述
    2.黄色标记部分即为所提取内容在这里插入图片描述

二.对于链接提取一般只需:相对标签+class属性值+标签中内容所在的属性值
eg.提取喜马拉雅的发现页面书籍封面链接
//img[@class='img _hW']/@src

  1. 通过开发者工具定位一个图片链接位置
    (如果图片没刚好定位链接位置也会定位在临近的地方)
    在这里插入图片描述2. 上方xpath右框内的内容即为所提取封面图片链接
    可能会不以协议开头浏览器访问自动加上,如果非浏览器需要自己加上)
    在这里插入图片描述

原文地址:https://blog.csdn.net/m0_73756108/article/details/134747336

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_31086.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注