智源研究院发布开源中文互联网语料库 CCI 4.0
5 月 9 日

智源研究院发布大型开源文本数据集 CCI 4.0,包含中英双语数据,总规模达 35TB。CCI 4.0 首次采用 CoT 方法合成推理轨迹数据,提升模型推理能力,其中合成数据规模比现有最大开源数据集提升近 20 倍。该数据集经过严格处理与评审,确保安全合规,有效提升模型训练效率和性能。数据集由多个机构共同贡献,已支持超 500 家单位的大模型研发。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟