不是json格式怎么提取

当数据不是JSON：解锁非结构化数据的提取之道

在数据驱动的时代,JSON（JavaScript Object Notation）因其轻量、易读、易解析的特性，已成为数据交换的“通用语言”，无论是API接口、配置文件还是日志存储，JSON格式的数据总能被程序轻松“吞下”并处理，但现实往往比理想骨感——我们总会遇到那些“不听话”的非JSON数据：可能是HTML网页的动态内容、PDF里的表格文本、Word文档中的章节信息，甚至是纯自然语言描述的表格，这些数据没有固定的键值对结构，没有明确的层级嵌套，仿佛一座“未整理的宝藏库”，直接解析只会得到“此路不通”的报错，当数据不是JSON时，我们该如何从中提取有价值的信息？本文将带你非JSON数据的提取方法论与实用工具。

先“读懂”数据：非JSON格式的常见类型与特点

要提取数据,先得搞清楚数据“长什么样”，非JSON数据的形态千差万别，但常见的主要可分为以下几类，每种类型都有其独特的“脾气”：

半结构化数据：有“骨架”但缺“血肉”

这类数据有一定的结构（如标签、分隔符），但不如JSON严格规范，典型代表包括：

CSV/TXT表格数据：用逗号、制表符分隔的字段，如"姓名,年龄,职业\n张三,25,工程师"，没有类型声明，纯文本存储。
XML（eXtensible Markup Language）：通过标签嵌套表达层级关系，如<person><name>张三</name><age>25</age></person>，标签可自定义，但闭合标签、属性等规则比JSON复杂。
HTML网页：本质是XML的“宽松版”，包含大量布局标签（如<div>、<span>）、动态脚本（<script>）和注释，数据藏在标签的文本或属性中。

非结构化数据：完全“自由生长”

这类数据没有固定结构,多为纯文本或多媒体内容，信息隐藏在“字里行间”：

纯文本文档：如TXT、Markdown、日志文件（error.log），可能是段落式描述、自由列表，甚至无序的笔记。
PDF/Word文档：PDF可能包含扫描图片（文字无法直接复制）、混合文本与表格；Word文档虽有段落和标题样式，但结构化程度低，且格式（如加粗、斜体）可能干扰提取。
自然语言描述：如“今天气温25℃，晴天，东南风3级”，没有固定字段，信息分散在词语中。

二进制/特殊格式数据：需要“翻译官”帮忙

这类数据以二进制形式存储,直接打开是乱码，需借助特定工具解析：

Excel/Excel（.xlsx/.xls）：本质上二进制格式，包含单元格、公式、样式，虽可视作“表格”，但需用专门库读取。
图片/音频/视频：如包含文字的图片（需OCR识别）、语音中的对话（需ASR转文字），需先转换为文本再提取。

提取工具与方法：按图索骥，各显神通

面对不同类型的非JSON数据,没有“万能钥匙”，但“对症下药”就能高效提取，以下是针对各类数据的实用工具与策略：

半结构化数据：用“规则”拆解，用“工具”简化

CSV/TXT：分隔符是“路标”

CSV/TXT的核心是“分隔符”（逗号、制表符、竖线等），提取关键是按行分割、按字段切分。

基础方法：编程语言内置函数直接处理。
Python示例：
```
import csv
with open('data.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)  # 自动处理逗号分隔
    for row in reader:
        print(f"姓名: {row[0]}, 年龄: {row[1]}")  # 通过索引取字段
```
若分隔符是制表符（\t），用csv.reader(f, delimiter='\t')；若字段含引号（如"张三,25"），csv模块会自动处理引号内的逗号。
进阶技巧：若数据无表头，需手动指定字段名；若某字段跨行（如换行符在字段内），用csv.reader(quoting=csv.QUOTE_MINIMAL)避免错误。

XML：标签是“导航图”

XML通过标签嵌套表达数据,提取本质是“找标签、取内容”。

工具推荐：Python的xml.etree.ElementTree（内置）、lxml（更强大，支持XPath）。
lxml示例（提取XML中的姓名和年龄）：

from lxml import etree
xml_data = """
<persons>
    <person id="1">
        <name>张三</name>
        <age>25</age>
    </person>
    <person id="2">
        <name>李四</name>
        <age>30</age>
    </person>
</persons>
"""
root = etree.fromstring(xml_data)
for person in root.xpath('//person'):  # XPath定位所有person标签
    name = person.xpath('name/text()')[0]  # 取name标签的文本
    age = person.xpath('age/text()')[0]
    print(f"姓名: {name}, 年龄: {age}")

XPath语法（如//person、name/text()）是XML提取的“利器”，可精准定位层级、属性（如@id）。

HTML：网页数据的“寻宝游戏”

HTML是XML的“简化版”，但多了动态内容和无关标签，提取需“过滤噪音”。

工具推荐：BeautifulSoup（Python，易用）、pyquery（类似jQuery，语法简洁）、Scrapy（爬虫框架，适合批量提取）。
BeautifulSoup示例（提取网页标题和所有链接）：

from bs4 import BeautifulSoup
html = """
<html>
    <head><title>新闻首页</title></head>
    <body>
        <div class="news">
            <a href="/news1">新闻1</a>
            <a href="/news2">新闻2</a>
        </div>
    </body>
</html>
"""
soup = BeautifulSoup(html, 'html.parser')
print("标题:", soup.title.text)  # 取<title>文本
for link in soup.find_all('a'):  # 找所有<a>标签
    print("链接:", link['href'], "文本:", link.text)

关键技巧：用class_、id等属性定位（如soup.find('div', class_='news')），用get_text()提取纯文本，忽略标签。

非结构化数据：用“智能”识别，用“规则”过滤

纯文本：关键词与正则是“探照灯”

纯文本数据无固定结构,需先定义“要什么”（如特定关键词、数字、日期），再用工具匹配。

核心工具：正则表达式（re模块，Python内置）。
示例（从日志中提取错误时间和错误信息）：

import re
log = """
2023-10-01 10:00:00 [ERROR] 连接数据库失败：Access denied
2023-10-01 10:01:00 [INFO] 用户登录成功
2023-10-01 10:02:00 [ERROR] 文件不存在：/tmp/data.txt
"""
# 正则匹配：日期时间 + [ERROR] + 错误信息
pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[ERROR\] (.+)'  
matches = re.findall(pattern, log)
for time, error in matches:
    print(f"时间: {time}, 错误: {error}")

正则表达式是文本提取的“万能语法”，可匹配数字（\d+）、邮箱（\w+@\w+\.\w+）、手机号（1[3-9]\d{9}）等复杂模式。

辅助工具：若文本是“问答式”或“描述式”，可用自然语言处理（NLP）工具，如spaCy（实体识别，提取人名、地名）、jieba（中文分词，切分关键词）。

PDF/Word文档：先“转文本”，再“提取结构”

这类文档的核心挑战是“格式转换”——将二进制/富文本转换为可处理的纯文本，再按需提取。

**PDF

正文

不是json格式怎么提取

当数据不是JSON：解锁非结构化数据的提取之道

先“读懂”数据：非JSON格式的常见类型与特点

半结构化数据：有“骨架”但缺“血肉”

非结构化数据：完全“自由生长”

二进制/特殊格式数据：需要“翻译官”帮忙

提取工具与方法：按图索骥，各显神通

半结构化数据：用“规则”拆解，用“工具”简化

CSV/TXT：分隔符是“路标”

XML：标签是“导航图”

HTML：网页数据的“寻宝游戏”

非结构化数据：用“智能”识别，用“规则”过滤

纯文本：关键词与正则是“探照灯”

PDF/Word文档：先“转文本”，再“提取结构”

相关阅读

前端页面怎么引用json文件

什么软件可以打开json文件格式

手机文件后的json是什么

js中json数据怎么处理

发表评论取消回复

还没有评论，来说两句吧...

目录[+]