攻克长上下文推理瓶颈 Kimi 联合清华发布 PrFaaS 跨机房调度新架构

发布日期：2026-05-03 06:15 点击次数：188

专注长上下文技术的 Kimi 所属团队月之暗面，联合清华大学郑纬民院士、武永卫教授团队取得重大技术突破。双方共同推出全新大模型推理架构PrFaaS（Prefill-as-a-Service，预填充即服务），彻底破解长期困扰行业的大模型跨数据中心推理调度难题，尤其在超长上下文场景下优势显著，为大模型规模化低成本部署提供全新技术路径。

当前主流大模型均采用 Prefill 预填充、Decode 解码分离部署架构，但受 KV Cache 高带宽传输限制，两个阶段必须部署在同一机房 RDMA 高速网络内，无法跨地域、跨机房调度。异构算力资源无法灵活拆分复用，流量波动时极易出现算力闲置、资源错配、排队延迟高等问题，形成难以突破的带宽壁垒。以传统稠密 GQA 模型 MiniMax-M2.5 为例，32K 上下文下单实例 KV Cache 传输带宽高达 60Gbps，远超出普通商用以太网承载能力，只能依赖昂贵专用 RDMA 网络。

展开剩余68%

随着混合注意力模型技术迭代，行业迎来破局契机。Kimi Linear、通义千问 3.5 等新一代模型采用线性注意力 + 全注意力混合架构，线性注意力输出固定尺寸循环状态、不随上下文长度膨胀，仅部分注意力层生成 KV Cache，大幅降低传输压力。实测数据显示，同等 32K 上下文条件下，多款新一代模型 KV 传输带宽相比传统稠密模型下降 4 至 36 倍，将传输需求从 RDMA 级别降至普通以太网可承载范围，让跨数据中心 Prefill-Decode 分离部署从理论可能变为工程可行。

在此基础上，联合团队正式推出 PrFaaS 跨数据中心推理服务架构。该方案核心思路是将长上下文请求 Prefill 计算与 Decode 解码完全解耦，部署在不同异构集群；系统自动设置动态长度阈值，短请求在本地集群完整处理，超长请求则调度至专用高性能 Prefill 集群完成预填充，生成 KV Cache 后通过普通以太网传输至本地集群执行解码，阈值可根据实时带宽、流量分布自动动态调整。

整套架构分为计算、网络、存储三层体系。计算层采用异构算力分工，H200 等高算力芯片专门负责长上下文 Prefill 任务，H20 等带宽优化芯片专注 Decode 与短请求处理，两类资源独立弹性扩容；网络层集群内部使用 RDMA 保障低时延，跨数据中心采用通用 VPC 商用以太网，大幅降低部署成本；存储层设计混合前缀缓存池，区分本地复用前缀缓存与跨集群传输临时缓存，适配混合注意力模型异构特性，兼顾缓存复用效率与跨域传输灵活性。

同时架构配套双时间尺度智能调度算法，毫秒级实时感知带宽与缓存状态进行路由决策，分钟级根据队列负载动态调整集群节点角色分配，在 Prefill 瓶颈与 Decode 瓶颈之间动态平衡资源，持续优化整体运行效率。

团队基于自研 1T 参数混合注意力模型开展生产环境实测验证，硬件采用 H200 跨中心 Prefill 集群 + H20 本地 Decode 集群，网络使用 100Gbps 商用 VPC 专线，流量贴合线上真实长上下文业务特征。测试结果显示，相比传统同构 PD 部署方案，PrFaaS 架构整体吞吐量提升 54%，P90 首词延迟降低 64%；对比无智能调度的朴素异构方案，吞吐量仍提升 32%。跨数据中心实际平均传输带宽仅 13Gbps，远低于链路上限，运行稳定无拥塞。

业内分析指出，PrFaaS 架构彻底打破 KV Cache 带宽墙与机房部署限制，实现长上下文推理算力弹性调度、异构资源高效利用，同时摆脱对专用 RDMA 网络的依赖，显著降低大模型长上下文服务部署成本。此次技术突破不仅巩固了 Kimi 在长上下文领域的领先优势，也为国内超大规模大模型云端规模化落地、跨云跨中心统一推理服务提供了可落地、可复用的标准化技术方案。

发布于：北京市

上一篇：新年首战！传足特色奖期第26001期聚焦英超英冠

下一篇：没有了

新闻动态

攻克长上下文推理瓶颈 Kimi 联合清华发布 PrFaaS 跨机房调度新架构