如何爬取在XHR中的json文件

足球直播足球直播 NBA直播 NBA直播足球直播足球直播足球直播足球直播 NBA直播 NBA直播足球直播足球直播搜狗输入法搜狗输入法快连快连快连快连下载

解锁XHR中的数据：Python爬取动态加载JSON文件实战指南**

在当今的Web开发中,为了提升用户体验和页面性能，越来越多的网站采用动态加载数据的方式，通过AJAX（异步JavaScript和XML）或Fetch API从服务器获取JSON（JavaScript Object Notation）数据是常见做法，这些请求通常在浏览器的“网络”（Network）面板中显示为XHR（XMLHttpRequest）或Fetch请求，对于爬虫开发者而言，直接获取这些XHR请求返回的JSON数据，往往比解析复杂的HTML页面更加高效和准确，本文将详细介绍如何使用Python爬取XHR中的JSON文件。

理解XHR与JSON

我们需要明确两个概念：

XHR (XMLHttpRequest)：是一种浏览器API，允许JavaScript在不重新加载整个页面的情况下与服务器进行异步数据交换，它是AJAX技术的核心。
JSON (JavaScript Object Notation)：一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成，它常用于服务器与浏览器之间的数据传输。

当我们浏览一个动态网站时,页面初始加载时可能只包含少量数据，后续通过XHR请求获取更多数据并动态渲染到页面上，这些XHR请求的响应通常就是JSON格式的数据。

爬取XHR JSON的核心思路

爬取XHR中的JSON数据,本质上就是模拟浏览器发起这些异步请求，并获取服务器返回的JSON响应，核心步骤如下：

定位XHR请求：在浏览器开发者工具（F12）中，找到目标数据的XHR请求，获取其请求URL、请求方法（GET/POST等）、请求头（Headers）以及可能的请求参数（Params或Payload）。
分析请求细节：观察该请求是否需要特定的请求头（如User-Agent、Referer、Authorization Token等）才能成功获取数据，以及参数是如何传递的（URL参数、POST表单数据、JSON体等）。
使用Python模拟请求：利用Python的HTTP客户端库（如requests）模拟浏览器的XHR请求，发送相同的URL、方法、头信息和参数。
解析JSON响应：获取服务器返回的JSON数据，并使用Python的json模块进行解析，提取所需信息。

实战步骤与代码示例

假设我们要爬取一个示例网站（https://example.com/api/data），该网站通过XHR加载用户列表数据。

第一步：打开浏览器开发者工具

打开目标网站。
按F12或右键选择“检查”，打开开发者工具。
切换到“网络”（Network）面板。
勾选“保持日志”（Preserve log）和“禁用缓存”（Disable cache）（可选，有助于观察真实请求）。
刷新页面或触发数据加载操作（如下拉刷新、点击“加载更多”等）。

第二步：定位目标XHR请求

在“网络”面板中，筛选类型为“XHR”的请求，找到包含目标数据（例如用户列表）的那个请求，点击该请求，查看其详细信息：

Headers：记录请求的URL、Method（通常是GET或POST）、Request Headers（如User-Agent, Accept, Authorization等）。
- URL可能是 https://example.com/api/users?page=1&limit=10
- 请求头可能包含：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...，Accept: application/json，X-Requested-With: XMLHttpRequest 等。
Payload/Parameters：如果是POST请求，这里会显示发送给服务器的数据，可能是表单数据（Form Data）或JSON数据（JSON）。
Response：这里是服务器返回的JSON数据，我们可以点击预览（Preview）或响应（Response）标签查看JSON内容，确认是否是我们需要的数据。

第三步：使用Python的`requests`库模拟请求

requests是Python中非常流行的HTTP库，简洁易用，如果尚未安装，可以通过pip install requests安装。

根据第二步分析得到的请求信息,编写Python代码：

import requests
import json
# 目标XHR请求的URL
url = "https://example.com/api/users"
# 请求头（Headers） - 根据实际情况添加或修改
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Accept": "application/json, text/plain, */*",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    "X-Requested-With": "XMLHttpRequest"  # 标识是AJAX/XHR请求
}
# 查询参数（Query Parameters） - 如果URL中包含参数，也可以放在params里
params = {
    "page": 1,
    "limit": 10
}
# 如果是POST请求，可能需要data或json参数
# data = {"key": "value"}  # 表单数据
# json_payload = {"key": "value"}  # JSON数据
try:
    # 发送GET请求，传入URL、headers和params
    response = requests.get(url, headers=headers, params=params, timeout=10)
    # 检查请求是否成功（状态码200）
    response.raise_for_status() 
    # 获取JSON响应数据
    json_data = response.json()
    # 打印JSON数据（或进行后续处理）
    print("成功获取JSON数据：")
    # 使用json.dumps格式化输出，indent缩进
    print(json.dumps(json_data, indent=4, ensure_ascii=False))
    # 假设我们要提取用户名列表
    if "users" in json_data:  # 假设JSON数据中有一个"users"列表
        usernames = [user["name"] for user in json_data["users"]]
        print("\n用户名列表：", usernames)
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
except json.JSONDecodeError as e:
    print(f"JSON解析失败: {e}")

第四步：处理分页与动态参数

很多XHR请求的数据是分页加载的,观察网络请求，看分页参数是如何传递的（通常是page, offset, limit等），然后可以在代码中构建循环，逐页请求并合并数据。

# 示例：分页获取数据
all_users = []
max_pages = 5  # 假设最多获取5页
for page in range(1, max_pages + 1):
    params["page"] = page
    try:
        response = requests.get(url, headers=headers, params=params, timeout=10)
        response.raise_for_status()
        page_data = response.json()
        if "users" in page_data:
            all_users.extend(page_data["users"])
            print(f"已获取第 {page} 页数据，当前总用户数: {len(all_users)}")
        else:
            print(f"第 {page} 页未找到用户数据，可能已到最后一页。")
            break
    except requests.exceptions.RequestException as e:
        print(f"请求第 {page} 页失败: {e}")
        break
print("\n所有用户数据：")
for user in all_users:
    print(user["name"])

注意事项与进阶技巧

反爬机制：
- User-Agent：经常更换或模拟真实的浏览器User-Agent。
- Headers：某些网站会检查特定的请求头，如Referer, Origin, Cookie等，如果请求失败，尝试添加这些必要的头信息。
- IP封禁：过于频繁的请求可能导致IP被封，可以考虑使用代理IP（Proxy）或设置请求间隔（time.sleep()）。
- 验证码（CAPTCHA）：如果触发验证码，可能需要更复杂的处理，如使用OCR识别或第三方打码平台。
JavaScript渲染：极少数情况下，XHR请求的URL或参数可能是由页面上的JavaScript动态生成或加密的，这种情况下，简单的requests可能无法直接获取，此时可能需要使用Selenium、Playwright等自动化测试工具来模拟浏览器行为，获取动态生成的请求信息，或者直接执行JavaScript获取最终数据。
登录状态：如果目标数据需要登录后才能访问，你需要先模拟登录过程，获取并保存Cookie或Session信息，然后在后续的XHR请求中携带这些信息。
API版本与变更：网站的API可能会更新或变更，导致请求URL、参数或返回的JSON结构发生变化，需要定期检查并调整爬虫代码。

爬取XHR中的JSON文件是数据采集的重要技能,它绕过了HTML解析的复杂性，直接获取结构化的数据，通过浏览器开发者工具精准定位XHR请求，分析其细节，再利用Python的requests库进行模拟，

欧易交易所欧易交易所欧易app 欧易app 欧易下载欧易下载

正文

如何爬取在XHR中的json文件

理解XHR与JSON

爬取XHR JSON的核心思路