Python中如何形成json文件

Python中如何形成JSON文件：从数据到文件的完整指南

在Python开发中,JSON（JavaScript Object Notation）作为一种轻量级的数据交换格式，因其可读性强、易于机器解析和生成，被广泛应用于数据存储、API交互、配置文件等场景，将Python数据转换为JSON文件是常见需求，本文将详细介绍如何使用Python实现这一过程，包括基础操作、高级技巧及常见问题解决。

理解JSON与Python数据类型的对应关系

在开始转换前,需明确JSON数据类型与Python原生数据类型的对应关系，这是正确转换的前提：

JSON数据类型	Python数据类型
对象（Object）	字典（dict）
数组（Array）	列表（list）或元组（tuple）
字符串（String）	字符串（str）
数字（Number）	整数（int）或浮点数（float）
布尔值（Boolean）	布尔值（True/False）
null	None

若Python数据包含上述对应类型以外的数据（如自定义类对象、集合等），直接转换会报错，需特殊处理（后文详述）。

核心步骤：使用`json`模块生成JSON文件

Python内置了json模块，提供了将Python对象序列化为JSON格式字符串，并写入文件的功能，核心流程分为三步：准备Python数据 → 序列化为JSON字符串 → 写入文件。

准备Python数据

假设我们有以下Python数据（字典嵌套列表结构），需转换为JSON文件：

data = {
    "name": "张三",
    "age": 25,
    "is_student": False,
    "courses": ["Python", "JavaScript", "SQL"],
    "address": {
        "city": "北京",
        "district": "海淀区"
    },
    "scores": None
}

使用`json.dump()`或`json.dumps()`序列化

json模块提供两个核心序列化函数：

json.dumps()：将Python对象转换为JSON格式字符串（内存操作，不直接写文件）。
json.dump()：将Python对象直接序列化为JSON格式并写入文件流（更推荐，避免手动处理文件IO）。

示例1：使用`json.dump()`直接写入文件

import json
# 数据准备（同上data）
data = {
    "name": "张三",
    "age": 25,
    "is_student": False,
    "courses": ["Python", "JavaScript", "SQL"],
    "address": {
        "city": "北京",
        "district": "海淀区"
    },
    "scores": None
}
# 写入JSON文件
with open("data.json", "w", encoding="utf-8") as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

参数说明：

ensure_ascii=False：允许非ASCII字符（如中文）直接写入，避免转义为\u编码。
indent=4：格式化输出，指定缩进空格数，提升JSON文件可读性（若省略，JSON会压缩为单行）。

执行后,当前目录会生成data.json如下：

{
    "name": "张三",
    "age": 25,
    "is_student": false,
    "courses": [
        "Python",
        "JavaScript",
        "SQL"
    ],
    "address": {
        "city": "北京",
        "district": "海淀区"
    },
    "scores": null
}

示例2：使用`json.dumps()`手动写入文件

若需先处理JSON字符串（如添加前缀/后缀），可先用json.dumps()转换，再写入文件：

import json
data = {"name": "李四", "age": 30}
json_str = json.dumps(data, ensure_ascii=False, indent=4)
with open("user.json", "w", encoding="utf-8") as f:
    f.write(json_str)

高级技巧：处理复杂数据与自定义格式

当数据包含非JSON原生类型（如自定义类对象、日期时间、集合等），直接转换会抛出TypeError，需通过“序列化函数”或“默认处理器”特殊处理。

处理自定义类对象

假设有一个自定义Person类，需将其实例转换为JSON：

import json
class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age
p = Person("王五", 28)
# 定义序列化函数
def serialize_person(obj):
    if isinstance(obj, Person):
        return {"name": obj.name, "age": obj.age}
    raise TypeError(f"Object of type {type(obj)} is not JSON serializable")
# 使用json.dump()的default参数
with open("person.json", "w", encoding="utf-8") as f:
    json.dump(p, f, default=serialize_person, ensure_ascii=False, indent=4)

输出：

{
    "name": "王五",
    "age": 28
}

处理日期时间

datetime对象无法直接序列化，需转换为字符串：

import json
from datetime import datetime
data = {
    "event": "会议",
    "time": datetime.now()  # 当前时间
}
def serialize_datetime(obj):
    if isinstance(obj, datetime):
        return obj.strftime("%Y-%m-%d %H:%M:%S")
    raise TypeError("Type not serializable")
with open("event.json", "w", encoding="utf-8") as f:
    json.dump(data, f, default=serialize_datetime, ensure_ascii=False)

输出示例：

{
    "event": "会议",
    "time": "2023-10-01 14:30:00"
}

处理集合（set）

集合（如{1, 2, 3}）需转换为列表后再序列化：

import json
data = {"numbers": {1, 2, 3}, "letters": {'a', 'b'}}
def serialize_set(obj):
    if isinstance(obj, set):
        return list(obj)
    raise TypeError("Type not serializable")
with open("set_data.json", "w", encoding="utf-8") as f:
    json.dump(data, f, default=serialize_set, ensure_ascii=False)

输出：

{
    "numbers": [1, 2, 3],
    "letters": ["a", "b"]
}

常见问题与解决方案

中文显示为Unicode编码（如`\u4e2d\u6587`）

原因：json.dump()默认使用ensure_ascii=True，将非ASCII字符转义为Unicode。
解决：设置ensure_ascii=False，如本文基础示例所示。

文件写入后为空或格式错误

原因：未正确使用with语句管理文件句柄，或文件打开模式错误（如用"r"读取模式写入）。
解决：确保用"w"（写入模式）或"a"（追加模式）打开文件，并通过with自动关闭句柄。

处理大数据时的性能问题

若数据量较大（如百万级记录），直接json.dump()可能占用过多内存，可改用json.dump()的迭代写入方式，或分批处理数据：

import json
# 假设data是一个大型列表
large_data = [{"id": i, "value": f"item_{i}"} for i in range(100000)]
# 分批写入文件
with open("large_data.json", "w", encoding="utf-8") as f:
    f.write("[")  # 开始列表
    for i, item in enumerate(large_data):
        json.dump(item, f, ensure_ascii=False)
        if i < len(large_data) - 1:
            f.write(",")  # 添加分隔符
    f.write("]")  # 结束列表

在Python中生成JSON文件的核心步骤可概括为：

准备数据：确保Python数据类型与JSON类型兼容；
序列化：使用json.dump()直接写入文件，或json.dumps()生成字符串后手动写入；
格式化：通过indent参数控制缩进，ensure_ascii=False保留非ASCII字符；
特殊处理：通过default参数或自定义函数处理非JSON原生类型（如自定义类、日期、集合等）。

这些方法,即可灵活应对从简单到复杂的JSON文件生成需求，为数据存储、

正文

Python中如何形成json文件