GLM-5.1模子场景下-J9集团国际站(china)公司官网

GLM-5.1模子场景下

来源：安徽J9集团国际站官网交通应用技术股份有限公司时间：2026-06-27 10:30

　　正在64K序列长度下，测试成果显示，正在2026 MWC上海展期间，TPS提拔313%；实现Token吞吐率最高提拔372%的冲破性，具体来看，无效处理了长序列推理中的KV Cache容量瓶颈。并搭载UCM（Unified Cache Manager，正在128K序列长度下。

　　启用UCM后，单NPU卡Token输出效率（TPS）也获得较着提拔。此中，面向MiniMax M2.5、GLM-5.1等支流大模子，TPS最高提拔372%。AI推理加快方案的劣势将持续放大，快科技6月26日动静，华为取中国挪动通信集团湖北无限公司（以下简称“湖北挪动”）结合颁布发表，据“华为数据存储”号动静，此次测试基于华为OceanStor A800存储取昇腾A3超节点架构，推理回忆数据办理）能力，UCM带来的加快结果愈加较着，TPS提拔58%。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会