攻克长上下文推理瓶颈 Kimi 联合清华发布 PrFaaS 跨机房调度新架构
专注长上下文技术的 Kimi 所属团队月之暗面,联合清华大学郑纬民院士、武永卫教授团队取得重大技术突破。双方共同推出全新大模型推理架构PrFaaS(Prefill-as-a-Service,预填充即服务),彻底破解长期困扰行业的大模型跨数据中心推理调度难题,尤其在超长上下文场景下优势显著,为大模型规模化低成本部署提供全新技术路径。
当前主流大模型均采用 Prefill 预填充、Decode 解码分离部署架构,但受 KV Cache 高带宽传输限制,两个阶段必须部署在同一机房 RDMA 高速网络内,无法跨地域、跨机房调度。异构算力资源无法灵活拆分复用,流量波动时极易出现算力闲置、资源错配、排队延迟高等问题,形成难以突破的带宽壁垒。以传统稠密 GQA 模型 MiniMax-M2.5 为例,32K 上下文下单实例 KV Cache 传输带宽高达 60Gbps,远超出普通商用以太网承载能力,只能依赖昂贵专用 RDMA 网络。
展开剩余68%随着混合注意力模型技术迭代,行业迎来破局契机。Kimi Linear、通义千问 3.5 等新一代模型采用线性注意力 + 全注意力混合架构,线性注意力输出固定尺寸循环状态、不随上下文长度膨胀,仅部分注意力层生成 KV Cache,大幅降低传输压力。实测数据显示,同等 32K 上下文条件下,多款新一代模型 KV 传输带宽相比传统稠密模型下降 4 至 36 倍,将传输需求从 RDMA 级别降至普通以太网可承载范围,让跨数据中心 Prefill-Decode 分离部署从理论可能变为工程可行。
在此基础上,联合团队正式推出 PrFaaS 跨数据中心推理服务架构。该方案核心思路是将长上下文请求 Prefill 计算与 Decode 解码完全解耦,部署在不同异构集群;系统自动设置动态长度阈值,短请求在本地集群完整处理,超长请求则调度至专用高性能 Prefill 集群完成预填充,生成 KV Cache 后通过普通以太网传输至本地集群执行解码,阈值可根据实时带宽、流量分布自动动态调整。
整套架构分为计算、网络、存储三层体系。计算层采用异构算力分工,H200 等高算力芯片专门负责长上下文 Prefill 任务,H20 等带宽优化芯片专注 Decode 与短请求处理,两类资源独立弹性扩容;网络层集群内部使用 RDMA 保障低时延,跨数据中心采用通用 VPC 商用以太网,大幅降低部署成本;存储层设计混合前缀缓存池,区分本地复用前缀缓存与跨集群传输临时缓存,适配混合注意力模型异构特性,兼顾缓存复用效率与跨域传输灵活性。
同时架构配套双时间尺度智能调度算法,毫秒级实时感知带宽与缓存状态进行路由决策,分钟级根据队列负载动态调整集群节点角色分配,在 Prefill 瓶颈与 Decode 瓶颈之间动态平衡资源,持续优化整体运行效率。
团队基于自研 1T 参数混合注意力模型开展生产环境实测验证,硬件采用 H200 跨中心 Prefill 集群 + H20 本地 Decode 集群,网络使用 100Gbps 商用 VPC 专线,流量贴合线上真实长上下文业务特征。测试结果显示,相比传统同构 PD 部署方案,PrFaaS 架构整体吞吐量提升 54%,P90 首词延迟降低 64%;对比无智能调度的朴素异构方案,吞吐量仍提升 32%。跨数据中心实际平均传输带宽仅 13Gbps,远低于链路上限,运行稳定无拥塞。
业内分析指出,PrFaaS 架构彻底打破 KV Cache 带宽墙与机房部署限制,实现长上下文推理算力弹性调度、异构资源高效利用,同时摆脱对专用 RDMA 网络的依赖,显著降低大模型长上下文服务部署成本。此次技术突破不仅巩固了 Kimi 在长上下文领域的领先优势,也为国内超大规模大模型云端规模化落地、跨云跨中心统一推理服务提供了可落地、可复用的标准化技术方案。
发布于:北京市下一篇:没有了
