文心4.5衍生模型PaddleOCR-VL：如何用0.9B参数突破文档解析极限

今日快讯 2025年10月22日 01:35 0 aa

近日，我们正式发布新一代多模态文档解析模型方案 PaddleOCR-VL，该方案具备109种语言的文档解析能力，仅靠0.9B 参数就刷新了多个权威文档解析评测记录。在多个公开和内部测试中，PaddleOCR-VL 在整页文档解析和单个元素的识别方面都取得了业界领先的成绩，明显优于现有的其他方案。

作为一款极致轻量高效的文档解析模型，PaddleOCR-VL 是如何用极低的资源消耗，做到速度快、效率高、识别效果更好呢？

与主流模型对比：复杂场景中的佼佼者

■ 复杂版面布局

在处理多栏、图文混杂等复杂版面时，许多端到端 VLM 模型容易出现布局错乱或内容“幻觉”。而 PaddleOCR-VL 得益于前置的版面分析能力，能够稳定、准确地检测出页面中的所有元素（文本、表格、公式、图像、图表等）和阅读顺序，避免了布局遗漏错误、顺序错乱和内容幻觉等问题。

■ 多语言文本识别

面对多语言混合文档，尤其是小语种文本识别挑战时，PaddleOCR-VL 拥有精准的语种区分和文字识别能力，能实现对俄语、阿拉伯语、希腊语、日语等109种语言精准识别。

■ 手写体与竖排文本

面对手写体、竖排文本等传统 OCR 的难点，PaddleOCR-VL 也能从容应对。其对中英文手写文字保持高识别率，完美支持竖排识别，确保从上到下、从右到左的阅读顺序，具有强大的泛化能力和文化适应性。

■ 复杂表格与公式

在复杂表格与公式识别中，PaddleOCR-VL 能准确还原合并单元格、表格标题、行列结构，表格中的公式和图像，并能将复杂的数学符号甚至手写公式精准转换为 LaTeX 代码，展现出了接近人类的结构化信息提取能力。

■ 表格信息提取

面对条形图、折线图、饼图等常见图表，PaddleOCR-VL 不仅可以识别坐标轴标签、图例等信息，还能精准提取数据，生成对应的数据表格，实现了从感知到认知的跨越。

揭秘架构设计：两阶段模型如何实现高效文档解析?

■ “协同式”两阶段架构

强大的性能背后，是精妙的架构设计。PaddleOCR-VL 创造性地采用了“布局分析+元素识别”的“协同式”两阶段架构，将复杂的文档理解任务“解耦”，让专业的模型做专业的事，这样的设计使模型更稳定、更高效的同时也更易扩展。

■ 第一阶段：文档的火眼金睛

作为文档的“火眼金睛”PP-DocLayoutV2模型用“元素检测与分类”和“阅读顺序预测”2个部分快速准确地将杂乱的文档页面分解为有序的、带标签的元素序列，便于后续的精细识别。

■ 第二阶段：轻量化识别“全能王”

PaddleOCR-VL-0.9B通过“动态视觉编码器+轻量语言模型”的黄金组合，在保证极致效率的同时，实现了对文本、表格、公式、图表四大元素的精准识别。

■ 架构协同：实现效率与精度的完美统一

PaddleOCR-VL 的两阶段架构，通过 PP-DocLayoutV2解决了复杂文档的“布局理解”难题，又通过 PaddleOCR-VL-0.9B 实现了精准的“内容识别”。这种分工明确、协同工作的设计，在精度、速度和稳定性上取得最佳平衡，让其能够在众多模型中脱颖而出。

数据工程全解析：如何构建3000万+高质量训练数据？

“数据决定了 AI 模型的上限。”PaddleOCR-VL-0.9B 的数据构建并非简单的数据堆砌，而是一个系统性的工程，其核心流程可以概括为以下四大支柱：

■ 数据之源：四大渠道构筑多样性与规模基础

PaddleOCR-VL 分别从开源数据集、合成数据、网络公开数据以及内部累计数据，共四个主要渠道进行数据收集，确保数据的广度与多样性。

■ 自动化标注流水线：大模型驱动的“数据精炼厂”

PaddleOCR-VL 构建了一套高效的自动化标注流水线，通过专家模型粗标、大模型协同修正、幻觉过滤与质控3步，实现了以较低成本、大规模地生产接近人工标注质量的标签。

■ 困难样本挖掘：让模型在“挫折”中成长

为寻找并攻克模型的弱点，PaddleOCR-VL 使用“困难样本挖掘”机制，通过构建精细化评估引擎、定位性能瓶颈，并针对薄弱环节定向生成大量类似的“困难案例”实现对模型的“靶向”强化。

■ 四大元素数据集构建实例

通过上述方法论指导，最终在文本、表格、公式、图表四大核心元素上构建起了高质量数据集。

通过这一套成熟、自动化、闭环的工业化数据生产体系，使模型真正具备了解决显示世界复杂问题的能力。

性能评测：全面超越现有 SOTA 模型，确立文档解析新标杆

■ 三大权威基准，全方位能力验证

通过在 OmniDocBench v1.5、OmniDocBench v1.0和 olmOCR-Bench 三大权威基准上的系统化测试，PaddleOCR-VL 在页面级文档解析、元素级识别、推理效率等维度全面超越对比模型。

OmniDocBench v1.5综合评测结果

■ 文档解析领域新标杆

通过系统的评测分析，PaddleOCR-VL 在文档解析领域确立了全面领先的地位，实现精度全面突破、效率业界最优、实用性强。PaddleOCR-VL 不仅是一个技术先进的模型，更是一个适合产业落地的成熟解决方案，为文档智能处理设立了新的技术标杆。

▎直播预告

为了帮助您迅速且深入地了解并掌握 PaddleOCR-VL 多模态文档解析 SOTA 方案的技术理论及实战技巧，百度高级工程师将于10月23日（周四）18:00为您深度解析本次技术升级。此外，我们还将开设针对 PaddleOCR-VL 多模态文档解析方案的产业场景实战营，手把手带您体验基于 PaddleOCR-VL 的整页文档解析和单个元素识别的强大能力。

机会难得，立即扫描海报中的二维码进行预约吧！