影刀RPA XPath系列(二) 基础学习 | 给你的RPA技能加个翅膀

点击上方 蓝字关注我们

大家好,我是斌斌。 本公众号专注于分享RPA+AI内容,愿景带领2000+人掌握RPA,实现十倍速效率提升,提高自媒体创作效率,解放重复劳动。感谢您的阅读,关注我,即可领取RPA基础手册。


上一篇,我们对XPath进行了一个简单的了解


RPA XPath系列(一) 初体验


这篇文章开始,我们正式进入XPath的学习,Let's GO!

一、什么是XPath?

1.定义与作用


XPath 是一种用来在像 XML 和 HTML 这样的文档中查找信息的语言。它就像一个地址或导航系统,可以帮助你准确地找到你想要的元素,就像在一个城市地图中找到具体的街道地址,或者在一棵树上找到一片特定的叶子。

  • HTML (超文本标记语言): 你每天浏览的网页都是由 HTML 写成的。它定义了网页的结构和内容,例如标题、段落、图片等等。我们可以把它看作是网页的“骨架”和“外貌”。

  • XML (可扩展标记语言): XML 是一种用于存储和传输数据的语言。它不像 HTML 那样关注网页的显示效果,而是更注重数据的组织和含义。你可以把它理解成一种通用的数据格式。

  • XPath 与 HTML/XML 的关系: HTML 和 XML 文档都是以一种树形结构组织起来的。XPath 就像一个导航系统,它可以帮助你在这棵“树”上找到你想要的特定信息。 在爬虫领域,XPath 经常被用来从网页 (HTML) 中提取数据。


2.为什么学习XPath


学会XPath,就等于给你的RPA技能加了个翅膀。它不仅让你的自动化流程更加精准,还能应对各种复杂的网页结构。没有XPath,很多自动化任务就难以实现,效率自然也打折扣。所以,掌握XPath,RPA之路更加顺畅,工作起来也更得心应手。


有了简单的概念后,接下来,我们了解一下XPath的一些基础语法


二、XPath的基本语法

1.XPath 表达式的基本结构


XPath表达式就像是一串指令,告诉机器人该去哪里找东西。它的基本结构是这样的:/根节点/父节点/子节点


比如,/html/body/div这个表达式就是告诉机器人,从网页的根节点(html)开始,找到body节点,再找到body下面的div节点。

2.节点类型


在XPath的世界里,网页上的每一个东西都是一个节点。最常见的有三种节点:元素节点、属性节点和文本节点


元素节点就是网页上的各种html标签,比如