规则 vs LLM:B2B 文档提取该怎么选?

一句话结论

不要把 LLM 当成所有文档提取问题的默认答案。模板稳定、吞吐量高、审计要求强时,规则系统更合适;客户多、版式变化大、字段命名不可控时,LLM 才真正体现价值。

这篇文章讲了什么

原文作者用同一个 B2B 订单 PDF 提取任务做了两遍实现:

任务看起来很简单:从 PDF 订单里提取客户 ID、采购订单号、交付日期和订单明细。

现实问题是,不同客户的 PDF 长得不一样:

人看一眼就知道这些字段是什么意思,但传统自动化系统并不天然理解“语义等价”。

规则方案的优点和问题

规则方案的典型链路是:

它的优点很明确:

但它的问题也很明确:

文章里的例子很典型:当文档使用 PO Number 时,正则能正常提取;当另一个文档把同一含义字段写成 Order Reference 时,原规则直接返回空值。

这不是正则写得差,而是规则系统本来就缺少上下文理解能力。

LLM 方案的价值

LLM 方案仍然需要 OCR,但后面的提取逻辑变了:

它的优势在于语义理解:

这就是 LLM 在非标准化文档里的核心价值:减少模板适配和规则维护。

但 LLM 不是免费午餐

LLM 方案带来的不是“无成本智能”,而是另一组成本:

所以问题不应该是“规则好还是 LLM 好”,而应该是:

推荐判断标准

优先用规则的场景

一个简单判断:如果前 5 种模板覆盖 90% 以上订单,先用规则,不要过早引入 LLM。

优先考虑 LLM 的场景

如果是 200 个客户对应 200 种模板,而且还在持续变化,LLM 就值得认真评估。

更现实的方案:混合架构

生产里通常不必二选一。更稳的方案是混合架构:

这样可以同时保留规则系统的速度和成本优势,也利用 LLM 处理变化和长尾。

对团队的启发

引入 AI 前,先算一笔账:

如果规则维护已经成为主要瓶颈,LLM 是好工具。

如果现有模板稳定、吞吐量很大,贸然上 LLM 可能只是把简单问题复杂化。

可执行落地建议

原文信息

适合转发的一句话

文档提取不是“上不上 LLM”的问题,而是“模板变化带来的维护成本,是否已经超过 LLM 的算力、延迟和审计成本”。