智源研究院发布大型开源文本数据集 CCI 4.0,包含中英双语数据,总规模达 35TB。CCI 4.0 首次采用 CoT 方法合成推理轨迹数据,提升模型推理能力,其中合成数据规模比现有最大开源数据集提升近 20 倍。该数据集经过严格处理与评审,确保安全合规,有效提升模型训练效率和性能。数据集由多个机构共同贡献,已支持超 500 家单位的大模型研发。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验