文章导读

利用Rvest和XPath进行高级HTML元素属性选择教程

作者 2025年9月11日 10

本教程旨在指导r语言用户如何利用rvest包结合XPath表达式，精确地选择和提取html文档中具有特定非ID或非class属性的元素。通过实例演示，您将学习如何使用XPath定位任意属性值匹配的元素，从而克服css选择器在处理复杂属性时的局限性，提升网页数据抓取效率和灵活性。

1. rvest与html元素选择基础

rvest是R语言中用于网页抓取和解析的强大工具包。它通常与css选择器结合使用，通过元素的ID、类名或标签名来定位目标元素。例如，html_elements(‘#id_name’)用于选择ID为id_name的元素，html_elements(‘.class_name’)用于选择类名为class_name的元素，而html_elements(‘p’)则选择所有<p>标签。

然而，当我们需要根据其他任意属性（例如size、data-value等）来选择元素时，传统的CSS选择器可能会显得力不从心。以下是一个典型的场景，我们将尝试根据font标签的size属性来选择元素：

library(rvest)  # 创建一个最小的HTML文档 html <- minimal_html('     <p id="name1"><font size=5>Here is size 5 font </font></p>     <p id="name2" class="second"><font size=3>And here is size 3 font </font></p>    ')  # 尝试使用常规方法选择 html %>% html_elements('#name1') # 成功：通过ID html %>% html_elements('.second') # 成功：通过Class html %>% html_elements('font')   # 成功：通过标签名 # html %>% html_elements('#5')    # 失败：这不是ID # html %>% html_elements('.5')    # 失败：这不是Class

在上述示例中，我们无法直接使用html_elements(‘#5’)或html_elements(‘.5’)来选择size=5的font元素，因为size既不是ID也不是类名。

2. 利用XPath进行高级属性选择

为了解决上述问题，rvest包提供了强大的XPath支持。XPath（xml Path Language）是一种用于在XML文档中查找信息的语言，由于HTML是XML的一种特殊形式，因此XPath同样适用于HTML文档。它允许我们通过元素的层级关系、属性、文本内容等多种方式进行精确选择。

要使用XPath，只需在html_elements()函数中指定xpath参数。

2.1 选择具有特定属性值的特定标签

如果目标是选择所有font标签中size属性值为5的元素，可以使用以下XPath表达式：

# 选择所有font标签中，size属性值为5的元素 elements_with_size_5_font <- html %>% html_elements(xpath = '//font[@size=5]') print(elements_with_size_5_font)

输出：

Chaos® Vantage

用实时光线追踪探索您的最复杂的3D场景。

查看详情

{xml_nodeset (1)} [1] <font size="5">Here is size 5 font </font>

XPath解释：

//：表示从文档的任何位置开始查找。
font：指定要查找的元素标签名是font。
[@size=5]：这是一个谓词（predicate），用于筛选元素。@size表示元素的size属性，=5表示该属性的值必须等于5。

2.2 选择具有特定属性值的任意标签

如果不仅限于font标签，而是想选择文档中所有size属性值为5的元素（无论其标签名是什么），可以使用通配符*：

# 选择所有标签中，size属性值为5的元素 elements_with_any_tag_and_size_5 <- html %>% html_elements(xpath = '//*[@size=5]') print(elements_with_any_tag_and_size_5)