python处理JSON文件需用json模块,读取用json.load(),写入用json.dump();常见编码问题源于未指定UTF-8,解决方案是在open()中显式设置encoding=’utf-8’,并使用ensure_ASCII=False支持中文,避免乱码。
Python处理JSON文件,核心在于使用内置的
json
模块。无论是将Python数据结构(如字典、列表)写入文件,还是从文件中读取JSON格式的数据并转换为Python对象,这个模块都能高效完成。简单来说,
json.dump()
用于写入,
json.load()
用于读取。
我个人觉得,Python的
json
模块设计得相当直观,用起来没什么门槛。当你需要将一些配置信息、API响应或者结构化数据保存下来,JSON文件无疑是个好选择。
读取JSON文件: 最常见的操作就是把一个JSON文件里的内容读出来,变成Python能用的字典或列表。这通常涉及两步:打开文件,然后用
json.load()
。
import json # 假设我们有一个名为 'data.json' 的文件,内容如下: # { # "name": "Alice", # "age": 30, # "isStudent": false, # "courses": ["Math", "Physics"] # } try: with open('data.json', 'r', encoding='utf-8') as f: data = json.load(f) print("成功读取JSON文件:") print(data) print(f"姓名: {data['name']}, 年龄: {data['age']}") except FileNotFoundError: print("错误:文件 'data.json' 未找到。") except json.JSONDecodeError as e: print(f"错误:JSON解码失败 - {e}") except Exception as e: print(f"发生未知错误:{e}")
这里我习惯性地加上了
encoding='utf-8'
,因为处理中文或特殊字符时,明确指定编码能省去不少麻烦。
with open(...)
这种上下文管理器的方式,能确保文件无论如何都会被正确关闭,这是个好习惯。
写入JSON文件: 要把Python数据写入JSON文件,过程也类似,只是这次用的是
json.dump()
。
import json # 准备一些Python数据 new_data = { "product": "Laptop", "price": 1200.50, "features": ["16GB RAM", "512GB SSD", "Intel i7"], "available": True, "description": "高性能轻薄笔记本" } try: with open('output.json', 'w', encoding='utf-8') as f: json.dump(new_data, f, ensure_ascii=False, indent=4) print("n数据成功写入 'output.json' 文件。") # 验证一下是否写入成功,再读回来看看 with open('output.json', 'r', encoding='utf-8') as f_read: read_back_data = json.load(f_read) print("验证读取:") print(read_back_data) except IOError as e: print(f"错误:文件写入失败 - {e}") except Exception as e: print(f"发生未知错误:{e}")
ensure_ascii=False
这个参数非常关键,特别是在处理包含非ASCII字符(比如中文)的数据时。如果设为
True
(默认值),中文会被转义成
uXXXX
的形式,虽然不影响读取,但文件内容会变得难以直观阅读。
indent=4
则是为了让输出的JSON文件格式化得更漂亮,有缩进,方便我们人眼查看,这在调试或者手动编辑配置文件时特别有用。
立即学习“Python免费学习笔记(深入)”;
我发现很多新手在刚接触JSON读写时,常常会忽略编码问题和错误处理,导致程序在特定环境下崩溃,或者生成乱码文件。所以,在实际项目中,这些细节真的非常重要。
Python处理JSON数据时常见的编码问题及解决方案是什么?
编码问题,在我看来,是跨平台、跨语言数据交换时最容易踩的坑之一。JSON文件本身是文本,它没有内嵌的编码信息,所以解析器需要知道用什么编码来读取它。Python在处理JSON时,如果文件编码和程序读取时指定的编码不一致,或者默认编码不满足需求,就会出现乱码或者
UnicodeDecodeError
。
最常见的场景就是,文件里有中文,但你没有指定
encoding='utf-8'
。Python 3默认使用UTF-8处理字符串,但在文件I/O时,它会依赖于操作系统的默认编码。比如在windows上可能是GBK,而在linux上通常是UTF-8。这就导致了不一致性。
解决方案:
-
明确指定编码: 最直接、最可靠的方法,就是在
open()
函数中始终明确指定
encoding='utf-8'
。无论你是读文件还是写文件,都坚持用UTF-8,这几乎可以解决99%的编码问题。
# 写入时 with open('chinese_data.json', 'w', encoding='utf-8') as f: json.dump({"message": "你好,世界!"}, f, ensure_ascii=False, indent=4) # 读取时
评论(已关闭)
评论已关闭