根据需求选择合适方法获取网页html。1. 浏览器开发者工具可手动复制保存,适合小页面调试;2. wget命令行工具支持直接下载网页,但无法获取JS动态内容;3. cURL命令可快速抓取单页并重定向到文件,适用于脚本自动化;4. python的requests库配合代码能灵活下载静态页面;5. Selenium可驱动浏览器获取完全渲染后的HTML,适用于vue、react等动态页面。方法选择取决于页面类型与使用场景。

想下载网页的HTML内容,无论是为了备份、分析还是学习代码结构,都有多种方法可以实现。下面介绍几种实用的工具和代码方式,帮助你快速获取目标网页的HTML源码。
使用浏览器开发者工具手动保存
这是最简单直接的方法,适合偶尔使用或调试页面时操作。
- 打开目标网页,在页面上右键点击“检查”或按 F12 打开开发者工具
- 在“Elements”(元素)标签中找到完整的HTML结构
- 全选内容(Ctrl+A),复制后粘贴到文本编辑器(如记事本、VS Code)
- 保存为 .html 文件即可
优点:无需安装额外工具,适合小页面;缺点:动态加载内容可能无法完整获取。
用命令行工具 wget 下载
wget 是一个强大的命令行下载工具,支持递归抓取和镜像网站。
立即学习“前端免费学习笔记(深入)”;
- 安装 wget(windows 可通过 git bash 或 WSL 使用,macos 和 linux 一般自带)
- 运行命令:
wget https://example.com - 保存为指定文件名:
wget -O page.html https://example.com
提示:若页面依赖JS动态渲染,wget 获取的是初始HTML,可能不包含完整数据。
使用 curl 命令获取源码
curl 是另一个常用命令行工具,适合快速抓取单个页面HTML。
- 执行命令:
curl https://example.com > page.html - 添加请求头模拟浏览器(避免被屏蔽):
curl -H "User-Agent: Mozilla/5.0" https://example.com > output.html
适用场景:自动化脚本、服务器环境下载页面源码。
用 Python 脚本自动下载
Python 提供了多种库来获取网页内容,requests 最常用。
- 安装 requests:
pip install requests - 编写脚本:
import requests<br> url = "https://example.com"<br> headers = {"User-Agent": "Mozilla/5.0"}<br> response = requests.get(url, headers=headers)<br> with open("page.html", "w", encoding="utf-8") as f:<br> f.write(response.text)
注意:对于JavaScript渲染的页面,需使用 Selenium 或 Playwright 等工具驱动浏览器。
使用 Selenium 获取动态内容
当网页内容由 JavaScript 加载时,静态请求无法获取完整HTML,此时可用 Selenium。
- 安装:
pip install selenium - 示例代码:
from selenium import webdriver<br> driver = webdriver.chrome() # 需下载 chromedriver<br> driver.get("https://example.com")<br> with open("dynamic_page.html", "w", encoding="utf-8") as f:<br> f.write(driver.page_source)<br> driver.quit()
优势:能获取完全渲染后的页面HTML,适合复杂前端框架(如Vue、React)构建的网页。
基本上就这些常用方法。选择哪种方式取决于你的具体需求:是静态页面还是动态加载,是否需要批量处理,有没有编程基础等。合理使用工具,就能高效获取任何公开网页的HTML内容。


