pandas如何读取json文件

Pandas如何读取JSON文件：从入门到实用技巧

在数据分析领域,JSON（JavaScript Object Notation）作为一种轻量级的数据交换格式，因其可读性强、灵活易用，被广泛应用于Web API响应、配置文件和数据存储场景，而Pandas作为Python数据分析的核心库，提供了强大的JSON数据读取功能，能够将JSON数据高效转化为DataFrame结构，便于后续的数据清洗、分析和可视化，本文将详细介绍Pandas读取JSON文件的多种方法、参数配置及实用技巧，帮助你轻松应对不同类型的JSON数据。

基础用法：`pd.read_json()`直接读取

Pandas通过read_json()函数实现JSON文件读取，这是最常用的方式，该函数支持多种JSON格式，包括行分隔JSON（JSON Lines）、数组形式JSON等，并能自动处理基本的类型转换。

读取标准JSON文件

假设有一个名为data.json的JSON文件，内容为标准的“键值对”数组格式（最常见的数据存储形式）：

[
    {"name": "Alice", "age": 25, "city": "New York"},
    {"name": "Bob", "age": 30, "city": "London"},
    {"name": "Charlie", "age": 35, "city": "Paris"}
]

使用read_json()直接读取：

import pandas as pd
df = pd.read_json("data.json")
print(df)

输出结果：

      name  age       city
0    Alice   25   New York
1      Bob   30     London
2  Charlie   35      Paris

Pandas自动将JSON数组的每个元素转换为DataFrame的一行,键名为列名，值为对应的数据。

支持的JSON格式类型

read_json()能处理多种JSON变体，通过orient参数指定数据格式：

orient='records'（默认）：数组形式，每个元素是一个字典（如上述示例）。

orient='index'：以JSON的键为索引，值为列数据：

{
    "row1": {"name": "Alice", "age": 25},
    "row2": {"name": "Bob", "age": 30}
}

读取结果：

      name  age
row1  Alice   25
row2    Bob   30

orient='columns'：以JSON的键为列名，值为行数据（与orient='index'转置类似）。
orient='values'：仅返回数据值，忽略键名（适用于纯数组数据）。
orient='table'：包含元数据的表格格式（如"schema"字段），适合复杂结构。

进阶参数：精细化控制数据读取

实际场景中,JSON数据往往更复杂（如嵌套结构、日期格式、缺失值等），此时需要通过read_json()的参数进行精细化控制。

处理嵌套JSON：`record_path`与`meta`

如果JSON数据包含多层嵌套,

{
    "users": [
        {
            "info": {"name": "Alice", "age": 25},
            "hobbies": ["reading", "swimming"]
        },
        {
            "info": {"name": "Bob", "age": 30},
            "hobbies": ["coding", "gaming"]
        }
    ]
}

需要提取users数组中的info字段作为数据行，可通过record_path指定嵌套路径，meta补充额外字段：

df = pd.read_json(
    "nested_data.json",
    record_path=["users", "info"],  # 提取嵌套路径
    meta=[["users", "hobbies"]]    # 补充hobbies字段
)
print(df)

输出结果：

    name  age        hobbies
0  Alice   25  [reading, swimming]
1    Bob   30  [coding, gaming]

指定数据类型：`dtype`

JSON中的数值默认会被推断为int或float，但有时需要明确指定类型（如将年龄转为string）：

df = pd.read_json("data.json", dtype={"age": str, "city": str})
print(df.dtypes)

输出：

name    object
age     object
city    object
dtype: object

处理日期时间：`convert_dates`

JSON中的日期通常以字符串存储（如"2023-01-01"），可通过convert_dates参数自动转换为datetime类型：

[
    {"date": "2023-01-01", "value": 100},
    {"date": "2023-01-02", "value": 150}
]

读取时指定日期列：

df = pd.read_json("dates.json", convert_dates=["date"])
print(df.dtypes)

输出：

date    datetime64[ns]
value             int64
dtype: object

处理缺失值：`na_values`

JSON中的null会被自动转为Pandas的NaN，但也可通过na_values自定义缺失值标识（如"NA"、"null"）：

df = pd.read_json("data_with_nulls.json", na_values=["NA", "missing"])

分块读取大文件：`chunksize`

对于大型JSON文件（如日志数据），可使用chunksize分块读取，避免内存溢出：

chunk_iterator = pd.read_json("large_data.json", chunksize=1000)
for chunk in chunk_iterator:
    process(chunk)  # 逐块处理数据

特殊场景：读取行分隔JSON（JSON Lines）

JSON Lines（.jsonl）是一种每行一个JSON对象的格式，常用于流式数据（如API实时响应）。read_json()通过lines=True参数支持读取：

{"name": "Alice", "age": 25}
{"name": "Bob", "age": 30}
{"name": "Charlie", "age": 35}

读取代码：

df = pd.read_json("data.jsonl", lines=True)
print(df)

输出与标准JSON文件一致,但逐行解析更适合大文件或流式数据。

错误处理与最佳实践

常见错误及解决

JSONDecodeError：JSON文件格式错误（如未闭合的括号、逗号缺失），需用工具（如VSCode插件）检查格式。
KeyError：JSON字段名与DataFrame列名不匹配，可通过orient参数调整格式，或预处理JSON数据。
内存不足：使用chunksize分块读取，或先过滤不需要的字段。

最佳实践

预览数据：用pd.read_json(..., nrows=5)读取前5行，快速了解数据结构。
优化数据类型：通过dtype减少内存占用（如int32替代int64，category替代string）。
处理异常数据：结合try-except捕获解析错误，或用pd.json_normalize()处理复杂嵌套。

替代方案：`pd.json_normalize()`处理嵌套JSON

对于多层嵌套的JSON,pd.json_normalize()提供了更便捷的扁平化处理：

{
    "user": {
        "name": "Alice",
        "contact": {
            "email": "alice@example.com",
            "phone": "123-456"
        }
    },
    "order_id": "A001"
}

扁平化处理：

data = pd.read_json("nested_single.json")
df = pd.json_normalize(data, record_path=["user"], meta=["order_id"])
print(df)

输出：

    name        contact email       phone order_id
0  Alice  {'email': 'alice@example.com', 'phone': '123-456'}  alice@example.com  123-456     A001

Pandas通过read_json()函数为JSON数据读取提供了强大而灵活的支持，从基础的单文件读取到复杂嵌套数据处理，再到分块读取和类型控制，能够满足大多数数据分析场景的需求，orient、record_path、convert_dates等参数的使用，结合json_normalize()处理嵌套结构，可以高效地将JSON数据转化为可分析的DataFrame，为后续数据工作奠定基础，在实际应用中，根据数据特点选择合适的参数和方法，是提升数据处理效率的关键。

正文

pandas如何读取json文件