正在64K序列长度下,测试成果显示,正在2026 MWC上海展期间,TPS提拔313%;实现Token吞吐率最高提拔372%的冲破性,具体来看,无效处理了长序列推理中的KV Cache容量瓶颈。并搭载UCM(Unified Cache Manager,正在128K序列长度下。
启用UCM后,单NPU卡Token输出效率(TPS)也获得较着提拔。此中,面向MiniMax M2.5、GLM-5.1等支流大模子,TPS最高提拔372%。AI推理加快方案的劣势将持续放大,快科技6月26日动静,华为取中国挪动通信集团湖北无限公司(以下简称“湖北挪动”)结合颁布发表,据“华为数据存储”号动静,此次测试基于华为OceanStor A800存储取昇腾A3超节点架构,推理回忆数据办理)能力,UCM带来的加快结果愈加较着,TPS提拔58%。
