r语言怎么读取json文件

R语言怎么读取JSON文件：从基础到实践的全面指南

在数据处理与分析领域,JSON（JavaScript Object Notation）作为一种轻量级的数据交换格式，因其结构清晰、可读性强而被广泛应用，R语言作为统计计算与数据可视化的核心工具，提供了多种方式读取JSON文件，本文将系统介绍R语言读取JSON文件的常用方法、具体步骤、代码示例及注意事项，帮助读者快速这一实用技能。

R语言读取JSON文件的常用方法

R语言主要通过以下三种方式读取JSON文件,分别对应不同的使用场景和需求：

使用`jsonlite`包（推荐）

jsonlite是R语言中处理JSON数据的核心包，由RStudio开发者维护，具有高效、稳定、功能丰富的特点，它支持JSON与R对象的双向转换，尤其适合处理结构化JSON数据（如数组、嵌套对象），是目前最主流的JSON读取工具。

使用`rjson`包

rjson是R语言中较早处理JSON数据的包，功能相对基础，支持JSON到R列表的转换，但相比jsonlite，其性能较低且支持的JSON特性较少，目前已逐渐被替代，适合处理简单JSON数据或旧项目兼容。

使用`tidyjson`包

tidyjson是基于jsonlite开发的扩展包，专注于将JSON数据转换为“tidy data”（整洁数据，即每列变量、每行观测值的形式），特别适合与tidyverse生态（如dplyr、ggplot2）结合使用，便于后续数据清洗与分析。

使用`jsonlite`包读取JSON文件（重点）

jsonlite包因其易用性和强大功能，成为大多数场景下的首选，以下是详细操作步骤：

安装与加载`jsonlite`包

如果尚未安装jsonlite包，可通过install.packages()函数安装；安装后使用library()加载：

# 安装包（若未安装）
install.packages("jsonlite")
# 加载包
library(jsonlite)

准备JSON文件

假设我们有一个名为students.json的JSON文件，内容如下（示例数据为嵌套结构，包含学生基本信息和成绩）：

[
  {
    "id": 1,
    "name": "张三",
    "age": 20,
    "scores": {
      "math": 85,
      "english": 78,
      "physics": 92
    },
    "hobbies": ["篮球", "编程"]
  },
  {
    "id": 2,
    "name": "李四",
    "age": 21,
    "scores": {
      "math": 90,
      "english": 85,
      "physics": 88
    },
    "hobbies": ["音乐", "阅读"]
  }
]

将此文件保存到R的工作目录中（可通过getwd()查看当前工作目录，或通过setwd()设置目标目录）。

读取JSON文件的核心函数

jsonlite提供了多个函数读取JSON文件，最常用的是fromJSON()，它支持从文件路径、字符串或URL读取JSON数据，并自动转换为R对象（如列表、数据框）。

（1）从本地文件读取JSON

使用fromJSON()函数直接传入文件路径（支持相对路径或绝对路径）：

# 读取本地JSON文件
students_data <- fromJSON("students.json")
# 查看数据结构
str(students_data)

输出结果如下：

List of 2
 $ :List of 5
  ..$ id    : num 1
  ..$ name  : chr "张三"
  ..$ age   : num 20
  ..$ scores:List of 3
  .. ..$ math   : num 85
  .. ..$ english: num 78
  .. ..$ physics: num 92
  ..$ hobbies: chr [1:2] "篮球" "编程"
 $ :List of 5
  ..$ id    : num 2
  ..$ name  : chr "李四"
  ..$ age   : num 21
  ..$ scores:List of 3
  .. ..$ math   : num 90
  .. ..$ english: num 85
  .. ..$ physics: num 88
  ..$ hobbies: chr [1:2] "音乐" "阅读"

可以看到,fromJSON()将JSON数组转换为R列表，每个学生元素是一个子列表，嵌套结构（如scores、hobbies）被保留。

（2）从URL读取JSON数据

JSON数据常以API接口形式提供,fromJSON()可直接读取URL返回的JSON数据，读取GitHub公开API的仓库信息：

# 从URL读取JSON
github_repo <- fromJSON("https://api.github.com/repos/rstudio/shiny")
# 查看仓库名称和描述
cat("仓库名称:", github_repo$name, "\n")
cat("仓库描述:", github_repo$description, "\n")

（3）处理JSON字符串

如果JSON数据已作为字符串存储在R中（例如从网页爬取或数据库读取），可直接传入字符串：

# 定义JSON字符串
json_str <- '[
  {"id": 3, "name": "王五", "age": 19},
  {"id": 4, "name": "赵六", "age": 22}
]'
# 从字符串读取JSON
new_data <- fromJSON(json_str)
# 查看数据
print(new_data)

将JSON转换为数据框（DataFrame）

JSON数据常需转换为数据框以便进行统计分析。jsonlite的fromJSON()可通过flatten参数自动展平嵌套结构，生成数据框：

# 读取JSON并转换为数据框（flatten=TRUE展平嵌套列）
df_students <- fromJSON("students.json", flatten = TRUE)
# 查看数据框结构
str(df_students)

输出结果如下：

'data.frame':   2 obs. of  7 variables:
 $ id    : num  1 2
 $ name  : chr  "张三" "李四"
 $ age   : num  20 21
 $ scores.math   : num  85 90
 $ scores.english: num  78 85
 $ scores.physics: num  92 88
 $ hobbies:List of 2
  ..$ : chr "篮球"
  ..$ : chr "音乐"

可以看到,嵌套的scores对象被展平为scores.math、scores.english等列，而hobbies因是数组仍保留为列表列，若需进一步处理列表列，可结合tidyr::unnest()函数。

处理大型JSON文件

对于大型JSON文件（如几百MB或GB级别），直接使用fromJSON()可能导致内存不足，此时可通过stream_in()函数流式读取JSON数据，逐块处理：

# 流式读取大型JSON文件（假设文件为"large_data.json"）
large_data <- stream_in(file("large_data.json", "r"), verbose = TRUE)
# 逐块处理（例如计算每行数据的均值）
mean_values <- sapply(large_data, function(x) mean(x$value, na.rm = TRUE))

使用`rjson`包读取JSON文件（基础用法）

rjson包功能简单，适合处理小型、结构简单的JSON数据，以下是基本步骤：

安装与加载`rjson`包

install.packages("rjson")
library(rjson)

读取JSON文件

rjson通过fromJSON()函数读取JSON文件，但仅支持从本地文件读取，且返回对象为列表：

# 读取JSON文件
students_data_rjson <- fromJSON(file = "students.json")
# 查看数据结构
str(students_data_rjson)

输出结果与jsonlite类似，但rjson不支持flatten参数，需手动处理嵌套结构，灵活性较低。

使用`tidyjson`包读取JSON文件（整洁数据转换）

若需直接将JSON转换为“整洁数据”格式，便于与tidyverse工具链结合，可使用tidyjson包：

安装与加载`tidyjson`包

install.packages("tidyjson")
library(tidyjson)
library(dplyr)  # 配合使用

读取JSON并转换为数据框

tidyjson通过spread_values()、enter_object()、spread_array()等函数灵活提取嵌套数据，最终生成数据框：

# 读取JSON并转换为整洁数据
df_tidy <- students.json %>% 
  spread_values(id = id, name = name, age = age) %>% 
  enter_object(scores) %

正文

r语言怎么读取json文件