Python爬虫怎么获取json数据

Python爬虫怎么获取JSON数据：从基础到实践的完整指南

在当今数据驱动的时代，JSON（JavaScript Object Notation）因其轻量、易读、结构化的特点，已成为Web API和网页数据交换的主流格式，对于Python爬虫开发者而言，JSON数据的获取方法，是高效抓取目标信息的关键技能，本文将从基础概念出发，结合代码实例，详细讲解Python爬虫获取JSON数据的完整流程，包括请求发送、数据解析、异常处理及实战技巧。

JSON数据与爬虫：为什么需要关注JSON？

JSON是一种键值对（key-value）的数据组织形式，类似于Python中的字典（dict）和列表（list）的组合，以下是一个典型的JSON数据结构：

{
  "name": "Python爬虫实战",
  "version": "3.8",
  "features": ["数据请求", "JSON解析", "存储处理"],
  "author": {
    "nickname": "Crawler",
    "email": "crawler@example.com"
  }
}

与HTML相比，JSON数据更“纯粹”——它不包含页面样式、布局等无关信息，直接以结构化形式呈现目标数据，这大大降低了数据清洗的难度，许多现代网站（尤其是API接口）会优先返回JSON数据，供前端或其他服务调用，爬虫只需直接获取JSON并解析,即可快速提取所需信息。

获取JSON数据的核心步骤

Python爬虫获取JSON数据通常分为三步：发送HTTP请求、接收响应数据、解析JSON内容,以下是具体实现方法。

发送HTTP请求：模拟浏览器访问目标URL

要获取JSON数据，首先需要向目标服务器发送HTTP请求，并接收服务器返回的响应，Python中常用的请求库有requests和urllib，其中requests库因语法简洁、功能强大,成为开发者的首选。

（1）安装requests库

若尚未安装，可通过pip安装：

pip install requests

（2）发送GET请求获取JSON

GET请求是最常用的请求方式，用于从服务器获取数据，以获取“天气API”的JSON数据为例（假设API地址为http://api.weatherapi.com/v1/current.json?key=YOUR_KEY&q=Beijing）：

import requests
# 目标API地址（此处为示例，需替换为真实API）
url = "http://api.weatherapi.com/v1/current.json?key=YOUR_KEY&q=Beijing"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功（状态码200表示成功）
if response.status_code == 200:
    print("请求成功！")
    print("响应内容（原始JSON字符串）：")
    print(response.text)  # 输出原始JSON字符串
else:
    print(f"请求失败，状态码：{response.status_code}")

（3）发送POST请求获取JSON

部分API可能需要通过POST请求提交数据（如表单参数、JSON体等），此时需使用requests.post()，并通过json参数或data参数传递数据：

import requests
url = "https://api.example.com/login"  # 假设的登录API
payload = {
    "username": "user123",
    "password": "password456"
}
# 发送POST请求，并传递JSON数据
response = requests.post(url, json=payload)
if response.status_code == 200:
    print("登录成功！返回的JSON数据：")
    print(response.json())  # 直接解析为Python字典
else:
    print("登录失败！")

接收响应数据：处理原始JSON字符串

服务器返回的JSON数据本质是一个字符串（response.text），Python中需将其转换为原生数据类型（字典、列表等），以便后续提取数据。requests库提供了response.json()方法，可自动完成JSON字符串的解析：

import requests
url = "https://jsonplaceholder.typicode.com/posts/1"  # 示例JSON API
response = requests.get(url)
if response.status_code == 200:
    # 将JSON字符串解析为Python字典
    data_dict = response.json()
    print("解析后的字典数据：")
    print(data_dict)
    print("\n提取单个字段：")
    print(f"标题：{data_dict['title']}")
    print(f"内容：{data_dict['body']}")
else:
    print(f"请求失败，状态码：{response.status_code}")

注意：如果响应内容不是有效的JSON格式（如HTML错误页面），直接调用response.json()会抛出JSONDecodeError异常，建议先检查response.headers中的Content-Type字段，确认是否为application/json：

if response.headers.get("Content-Type") == "application/json":
    data = response.json()
else:
    print("响应内容不是JSON格式！")

解析JSON数据：提取目标信息

JSON数据解析的核心是“按需提取”，通过字典的键（key）或列表的索引（index），可逐层获取目标数据,以下结合嵌套JSON和列表JSON两种常见场景说明。

（1）解析嵌套JSON

当JSON数据包含多层结构时，可通过“字典[键][键]...”的方式逐层访问：

import requests
url = "https://api.github.com/users/python"  # GitHub用户API
response = requests.get(url)
if response.status_code == 200:
    user_data = response.json()
    print("用户信息：")
    print(f"登录名：{user_data['login']}")
    print(f"用户名：{user_data['name']}")
    print(f"公开仓库数：{user_data['public_repos']}")
    print(f"所在地：{user_data['location']}")
    print(f"博客：{user_data['blog']}")
else:
    print("请求失败！")

（2）解析JSON列表

当JSON数据是一个列表（数组）时，可通过遍历列表，提取每个元素的值：

import requests
url = "https://jsonplaceholder.typicode.com/posts"  # 示例文章列表API
response = requests.get(url)
if response.status_code == 200:
    posts_list = response.json()
    print("前3篇文章的标题：")
    for i, post in enumerate(posts_list[:3]):  # 遍历前3篇文章
        print(f"{i+1}. {post['title']}")
else:
    print("请求失败！")

异常处理：让爬虫更健壮

实际爬虫开发中，网络波动、目标URL变更、API限制等问题可能导致请求失败，必须添加异常处理机制，提高代码的鲁棒性,以下是常见的异常场景及处理方法：

网络请求异常：捕获连接超时、DNS解析失败等

使用try-except捕获requests库抛出的异常，如requests.exceptions.RequestException（所有请求异常的基类）：

import requests
from requests.exceptions import RequestException
url = "https://api.example.com/data"
try:
    response = requests.get(url, timeout=5)  # 设置超时时间为5秒
    response.raise_for_status()  # 检查HTTP状态码，若非200则抛出HTTPError
    data = response.json()
    print("数据获取成功：", data)
except RequestException as e:
    print(f"请求异常：{e}")
except ValueError as e:
    print(f"JSON解析异常：{e}")  # 捕获JSONDecodeError（ValueError的子类）

处理API限制：添加请求延迟与重试机制

许多API会限制请求频率（如每分钟最多60次），为避免触发限制，可在请求间添加延迟（time.sleep()），或使用重试机制（如retry库）：

import requests
import time
url = "https://api.example.com/data"
max_retries = 3  # 最大重试次数
for attempt in range(max_retries):
    try:
        response = requests.get(url, timeout=5)
        response.raise_for_status()
        data = response.json()
        print("数据获取成功：", data)
        break  # 成功则退出循环
    except requests.exceptions.RequestException as e:
        print(f"第{attempt+1}次请求失败：{e}")
        if attempt < max_retries - 1:
            time.sleep(2)  # 等待2秒后重试
        else:
            print("达到最大重试次数，请求终止！")

实战案例：抓取“知乎热榜”API数据

以“知乎热榜”的API接口为例（实际接口可能需要模拟登录或处理反爬，此处以公开接口为例）,完整演示获取JSON数据的流程：

分析目标API

通过浏览器开发者工具（F12）分析知乎热榜的API请求，发现其接口地址为`https://www.zhihu.com/api/v3/feed/topstory/hot

正文

Python爬虫怎么获取json数据