scrapy怎么返回json数据

Scrapy 返回 JSON 数据的完整指南

Scrapy 是一个强大的 Python 爬虫框架，默认情况下它以多种格式（如 JSON、XML、CSV）导出数据，本文将详细介绍如何在 Scrapy 中返回 JSON 数据，包括基本配置、自定义输出格式以及高级技巧。

基本方法：使用 FEEDS 设置

Scrapy 最简单的返回 JSON 数据的方法是通过 FEEDS 设置，在项目的 settings.py 文件中，你可以指定输出格式为 JSON：

FEEDS = {
    'output.json': {
        'format': 'json',
        'encoding': 'utf8',
        'indent': 4,  # 美化输出，缩进4个空格
    }
}

然后运行爬虫时,Scrapy 会自动将结果保存为 JSON 文件：

scrapy crawl my_spider -o output.json

自定义 JSON 输出格式

有时候你可能需要自定义 JSON 输出的结构，可以通过重写 item 的 to_dict() 方法或使用自定义的 Item Pipeline 来实现。

修改 Item 类

from scrapy import Item, Field
class MyItem(Item):= Field()
    url = Field()
    def to_dict(self):
        return {
            'article_title': self.get('title'),
            'article_url': self.get('url')
        }

使用 Item Pipeline

class CustomJsonPipeline:
    def open_spider(self, spider):
        self.file = open('output.json', 'w', encoding='utf-8')
        self.file.write('[\n')  # 开始 JSON 数组
        self.first_item = True
    def close_spider(self, spider):
        self.file.write('\n]')  # 结束 JSON 数组
        self.file.close()
    def process_item(self, item, spider):
        if not self.first_item:
            self.file.write(',\n')
        else:
            self.first_item = False
        line = json.dumps(dict(item), ensure_ascii=False, indent=4)
        self.file.write(line)
        return item

然后在 settings.py 中启用这个 Pipeline：

ITEM_PIPELINES = {
    'myproject.pipelines.CustomJsonPipeline': 300,
}

通过 API 返回 JSON 数据

如果你希望 Scrapy 爬虫能像 API 一样直接返回 JSON 数据（而不是保存到文件），可以使用 Scrapy 的 HTTP 服务或结合 Web 框架实现。

使用 Scrapy 的 HTTP 服务

Scrapy 本身不提供内置的 HTTP 服务，但你可以通过 scrapy crawl 命令结合 -s FEED_URI 参数实现：

scrapy crawl my_spider -s FEED_URI=jsonlines://stdout

这会将 JSON 数据输出到标准输出，你可以通过管道或脚本捕获并处理。

结合 Web 框架（如 Flask）

创建一个简单的 Flask 应用来运行 Scrapy 爬虫并返回 JSON：

from flask import Flask, jsonify
import subprocess
app = Flask(__name__)
@app.route('/scrape')
def scrape():
    result = subprocess.run(
        ['scrapy', 'crawl', 'my_spider', '-o', '-', '-s', 'FEED_FORMAT=json'],
        capture_output=True,
        text=True
    )
    return jsonify(eval(result.stdout))  # 注意：eval有安全风险，实际应用中应使用更安全的方法
if __name__ == '__main__':
    app.run()

高级技巧：处理复杂 JSON 结构

对于嵌套或复杂的 JSON 结构，可以结合 Scrapy 的 ItemLoader 和自定义扩展：

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose, Join
def clean_price(value):
    return value.replace('$', '').strip()
class ProductLoader(ItemLoader):
    default_output_processor = TakeFirst()
    price_in = MapCompose(clean_price)
# 在爬虫中使用
loader = ProductLoader(item=ProductItem(), response=response)
loader.add_xpath('title', '//h1/text()')
loader.add_xpath('price', '//span[@class="price"]/text()')
loader.add_css('description', '.description *::text')
yield loader.load_item()