🚀 一行代码搞定数据存储？揭秘爬虫框架的MySQL存储模块

type

Post

status

Published

date

Feb 13, 2026

slug

summary

写爬虫时，你是不是也经常遇到这些问题？ • 每次都要写INSERT INTO、UPDATE，烦不烦？ • 网络波动导致批量插入失败，几十条数据瞬间丢失？ • 断点续采时重复数据覆盖了之前保存的字段？ • 既要存详情页，又要存列表页，还要存关联实体，代码越写越乱？今天分享一个基于装饰器的轻量级MySQL存储模块，来自我们正在使用的爬虫框架。它的核心理念是：让数据持久化像写日志一样简单。你只需要在爬虫函数上加一行@save_into_mysql，剩下的——连接池、事务、去重、失败重试、本地降级……统统交给它。

📌 写在前面

写爬虫时，你是不是也经常遇到这些问题？

每次都要写INSERT INTO、UPDATE，烦不烦？

网络波动导致批量插入失败，几十条数据瞬间丢失？

断点续采时重复数据覆盖了之前保存的字段？

既要存详情页，又要存列表页，还要存关联实体，代码越写越乱？

今天分享一个基于装饰器的轻量级MySQL存储模块，来自我们正在使用的爬虫框架。它的核心理念是：让数据持久化像写日志一样简单。

你只需要在爬虫函数上加一行@save_into_mysql，剩下的——连接池、事务、去重、失败重试、本地降级……统统交给它。

🎯 设计理念：极简 · 可靠 · 灵活

“一行代码完成数据库操作” —— 通过装饰器模式，将数据库操作从业务逻辑中完全解耦。

开发者只需关注数据的获取与解析，存储细节由框架接管。

四大设计目标

目标	实现方式
✅ 简单易用	装饰器一行搞定，无需写SQL
✅ 高可靠	三层降级兜底 + 失败记录本地持久化
✅ 高灵活	支持单表/多表、字典/列表、批量/逐条
✅ 高性能	异步连接池 + 批量提交，性能提升10倍+

⚙️ 核心特性：它凭什么这么强？

1. 智能的 INSERT/UPDATE 策略

场景：爬虫经常需要重复采集（断点续采、增量更新）。

简单的INSERT会报主键冲突，REPLACE会覆盖未更新字段。

✅ 解决方案：

效果：自动去重，保留历史字段，完美支持增量更新。

2. 三层保障，数据绝不丢失

痛点：网络抖动、DB负载高，批量插入可能失败。

一次失败，整批数据不能丢！

代码极简，自动触发，开发者完全无感。

3. 自动识别数据格式，单表多表通吃

你只需要返回标准Python数据结构，模块自动判断存储方式：

返回格式	存储模式	典型场景
`{"field": "value"}`	单表-字典	详情页采集
`[{"field": "v1"}, ...]`	单表-列表	列表页采集
`[{"table": "t1", "data": {...}}]`	多表模式	复杂关联数据

无需额外配置，解析函数写完，存储自动适配。

4. 异步连接池 + 自动重连

连接复用：使用aiomysql.create_pool，避免频繁创建连接。

自动重连：执行前SELECT 1探测，失效则重新初始化。

并发友好：支持高并发爬虫，连接池大小动态调节。

🚀 快捷使用指南：三种姿势，任你挑选

🎯 姿势一：装饰器模式（强烈推荐）

✅ 单表 - 字典（详情页）

发生了什么？

1️⃣ @async_request 发起HTTP请求

2️⃣ @parse_response 解析响应为字典

3️⃣ @save_into_mysql 自动INSERT/UPDATE到fund_info表

✅ 单表 - 列表（列表页）

✅ 多表模式（一次请求，存多张表）

自动分组 → 按表名批量提交 → 完美处理一对多、多对一关联数据。

🛠️ 姿势二：手动调用（灵活控制）

需要批量导入JSON文件或自定义事务？直接调用底层函数：

参数详解：

table：表名

rows：list[dict]，数据列表

unique_key：用于去重的字段

enable_fallback：失败时是否降级逐条插入 + 本地持久化（默认True）

📁 姿势三：失败记录重试

所有兜底保存的JSON文件都在logs/failed_records/目录下，结构清晰：

重试只需一行：

python

🔧 配置最佳实践

1. 数据库连接池配置

python

建议：maxsize ≈ 并发爬虫数 + 5。

2. 装饰器参数选择

✅ 推荐的unique_key：业务自然键（如fund_code）或字段组合的MD5

❌ 不推荐：自增ID（无法去重）

3. 数据表设计模板

强烈建议：添加created_at / updated_at，自动记录数据生命周期。

📊 性能对比：用了都说快

操作模式	100条数据耗时	事务次数	网络往返
逐条插入（无池）	~5s	100	~200
批量插入（连接池）	~0.5s	1	~101

结论：批量插入 + 连接池 = 性能提升10倍以上。

💎 为什么我们坚持这样设计？

简单，所以专注：爬虫工程师不需要是DBA，存储不该成为心智负担。

可靠，所以安心：哪怕MySQL宕机，数据也在本地躺着，随时恢复。

灵活，所以强大：从单表小爬虫到多实体复杂爬虫，一套代码通吃。

📢 写在最后

这个模块已经在多个生产爬虫项目中稳定运行超过一年，累计存储数亿条数据，零丢失。

如果你也被爬虫数据存储困扰过，不妨试试这个“装饰器即存储”的思路。

一行代码，省去80%的数据库操作代码。

👉 觉得有用？ 欢迎点赞、在看、分享给身边写爬虫的朋友～

💬 你在爬虫数据持久化时遇到过哪些坑？ 评论区见！

附录：相关源码位置（团队成员可参考）

utils/mysql_manager.py —— 核心实现

runner_batch.py —— 批量任务执行示例

crawler/amac_fund.py —— 装饰器使用实战

本文介绍的MySQL存储模块已开源，关注公众号回复“mysql模板”获取完整源码&回复“爬虫框架”获取仓库地址。