混元 OCR 模型核心技术揭秘:统一框架、真端到端
11 月 30 日

腾讯混元大模型团队正式发布并开源商业级、开源且轻量的 OCR 专用视觉语言模型 HunyuanOCR。该模型感知和语义能力出色,获 ICDAR 2025 DIMT 挑战赛冠军等成绩。其实现三大突破:全能与高效统一、极简端到端架构、数据驱动与 RL 创新。核心技术聚焦于:轻量化模型结构设计,采用端到端训推一体范式,协同架构避免图像失真与细节丢失。高质量预训练数据生产,构建超 2 亿「图像-文本对」语料库,覆盖多场景多语言。重应用导向的预训练策略,分四阶段循序渐进。OCR 任务定制的强化学习方案,针对不同任务采取混合策略,有严苛数据筛选、自适应奖励设计、GRPO 算法与格式约束优化等注意事项。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟