腾讯混元大模型团队正式发布并开源商业级、开源且轻量的 OCR 专用视觉语言模型 HunyuanOCR。该模型感知和语义能力出色,获 ICDAR 2025 DIMT 挑战赛冠军等成绩。其实现三大突破:全能与高效统一、极简端到端架构、数据驱动与 RL 创新。核心技术聚焦于:轻量化模型结构设计,采用端到端训推一体范式,协同架构避免图像失真与细节丢失。高质量预训练数据生产,构建超 2 亿「图像-文本对」语料库,覆盖多场景多语言。重应用导向的预训练策略,分四阶段循序渐进。OCR 任务定制的强化学习方案,针对不同任务采取混合策略,有严苛数据筛选、自适应奖励设计、GRPO 算法与格式约束优化等注意事项。