华为昇腾在超大规模 MoE 模型推理性能上取得新突破,使用国产芯片全面超越英伟达 Hopper 架构。具体产品包括 CloudMatrix 384 超节点和 Atlas 800I A2 推理服务器,在不同延迟约束下分别实现单卡 Decode 吞吐 1920 Tokens/s 和 808 Tokens/s。华为通过数学优化弥补硬件局限,提升系统能力,并计划全面开源相关技术。此外,华为还将在本周举办技术披露周,分享详细技术报告与博客。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验