美团发布并全面开源原生多模态大模型 LongCat-Next 及其核心组件离散原生分辨率视觉分词器(dNaViT)。该模型打破「语言为中心」的传统拼凑式架构,将图像、语音与文本统一映射为同源离散 Token,以「下一个 Token 预测」范式让视觉与语音成为 AI「原生母语」,还实现三项关键技术突破,包括离散原生自回归架构打破模态隔阂、离散原生分辨率视觉分词器构造视觉「词典」、语义对齐完备编码器破解信息损失难题。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验