不是json怎么解析

告别JSON：多样化数据解析的实用指南

在当今的软件开发中,JSON（JavaScript Object Notation）以其轻量、易读和易于机器解析的特性，几乎成为了数据交换的“默认语言”，世界并非只有JSON——从历史遗留系统到特定领域的专业格式，从简单的配置文件到复杂的二进制数据，我们常常需要面对非JSON格式的数据解析需求，本文将带你跳出JSON的舒适区，常见的非JSON数据格式及其解析方法，助你从容应对多样化的数据挑战。

XML：结构化数据的“老牌选手”

尽管JSON如今占据主导,但XML（eXtensible Markup Language）仍在企业级应用、Web服务（如SOAP）和配置文件（如AndroidManifest.xml）中广泛使用，XML通过标签和嵌套表达层级关系，格式严谨但相对冗余。

解析方法：

Python：使用内置的xml.etree.ElementTree模块（轻量）或第三方库lxml（功能强大，支持XPath查询）。

import xml.etree.ElementTree as ET
xml_data = """<root><person id="1"><name>张三</name><age>25</age></person></root>"""
root = ET.fromstring(xml_data)
for person in root.findall('person'):
    name = person.find('name').text
    age = person.find('age').text
    print(f"姓名: {name}, 年龄: {age}")

JavaScript：使用DOMParser（浏览器环境）或xml2js（Node.js环境，将XML转为JSON对象）。
Java：使用javax.xml.parsers（SAX/DOM解析）或JAXB（XML与Java对象绑定）。

YAML/INI：人类友好的配置格式

在配置文件领域,YAML（YAML Ain't Markup Language）和INI因可读性更优备受青睐，YAML通过缩进表达层级，支持注释和复杂数据类型；INI则以“节+键值对”为结构，简单直观。

解析方法：

YAML：

Python：安装PyYAML库，yaml.safe_load()直接解析为字典。

import yaml
yaml_data = """
name: 项目配置
database:
  host: localhost
  port: 3306
"""
config = yaml.safe_load(yaml_data)
print(config['database']['host'])  # 输出: localhost

Node.js：使用js-yaml库，类似Python的API设计。

INI：

Python：使用内置的configparser模块，专门处理INI格式。

from configparser import ConfigParser
ini_data = """
[database]
host = localhost
port = 3306
"""
config = ConfigParser()
config.read_string(ini_data)
print(config['database']['port'])  # 输出: 3306

CSV/TSV：表格数据的“轻量级代表”

CSV（Comma-Separated Values）和TSV（Tab-Separated Values）是存储表格数据的经典格式，常用于数据导出/导入（如Excel、数据库导出），其结构简单：每行一条记录，字段通过逗号（CSV）或制表符（TSV）分隔。

解析方法：

Python：内置csv模块，支持读写CSV/TSV，可处理含复杂字段（如换行符）的情况。

import csv
csv_data = """name,age,city
张三,25,北京
李四,30,上海"""
reader = csv.reader(csv_data.splitlines())
for row in reader:
    print(f"姓名: {row[0]}, 城市: {row[2]}")

Pandas：若需数据分析，pandas.read_csv()是更高效的选择，支持数据清洗、类型转换等。
JavaScript：使用papaparse（浏览器/Node.js通用，支持大文件流式解析）。

Protocol Buffers/MessagePack：高性能的二进制格式

在需要高效传输或存储的场景（如微服务、移动端通信），二进制格式比JSON更占优势，Protocol Buffers（Protobuf）是Google推出的语言中立、平台无关的序列化框架，MessagePack则是“二进制JSON”，兼容JSON数据结构但体积更小、解析更快。

解析方法：

Protobuf：

步骤：定义.proto文件 → 使用编译器生成目标语言代码 → 序列化/反序列化。

Python示例（需安装protobuf库）：

# 假设已生成Person_pb2.py
from person_pb2 import Person
person = Person()
person.name = "王五"
person.age = 28
# 序列化为二进制
binary_data = person.SerializeToString()
# 反序列化
new_person = Person()
new_person.ParseFromString(binary_data)
print(new_person.name)  # 输出: 王五

MessagePack：

Python：安装msgpack库，pack（序列化）和unpack（反序列化）。

import msgpack
data = {"name": "赵六", "age": 35}
binary_data = msgpack.packb(data)
unpacked_data = msgpack.unpackb(binary_data)
print(unpacked_data["name"])  # 输出: 赵六

HTML/XML的“野亲戚”：自定义文本格式

有时我们会遇到“类HTML”或“自定义标签”的文本（如爬取的网页片段、历史遗留的日志格式），这类格式结构松散，需结合规则匹配或正则表达式解析。

解析方法：

正则表达式：适合提取固定模式的数据（如手机号、日期）。

import re
text = "联系方式：电话13812345678，邮箱test@example.com"
phone = re.search(r"电话(\d{11})", text).group(1)
email = re.search(r"邮箱(\w+@\w+\.\w+)", text).group(1)
print(f"电话: {phone}, 邮箱: {email}")

BeautifulSoup/ lxml：若HTML结构较规范，可用这些库解析DOM树，提取标签内容。

from bs4 import BeautifulSoup
html = "<div><p>用户名: admin</p><p>密码: 123456</p></div>"
soup = BeautifulSoup(html, 'html.parser')
username = soup.find('p').text.split(':')[1]
print(username)  # 输出: admin

特殊格式：Properties、CSV变体等

Properties（.properties）：Java配置文件，键值对格式，支持Unicode转义。
- Java：使用java.util.Properties类直接加载。
- Python：第三方库configparser也可解析（需注意编码）。
固定宽度文本：如银行对账单，每列位置固定。
- Python：通过字符串切片提取字段，或使用pandas.read_fwf()。