当前位置:首页>宏观经济
工商银行×华为:金融行业首个分布式KV Cache多级缓存推理加速技术正式落地
发布时间:2026-05-19 18:28:36 文章来源:今日热点网

摘要:工商银行与华为开展联合创新,成功落地分布式KV Cache多级缓存推理加速方案。该方案基于昇腾+vLLM-Ascend+openYuanrong,构建覆盖HBM、DRAM的异构统一内存资源池,并对H2D/D2H数据等传输路径进行昇腾硬件亲和优化,实现推理过程中的高效数据调度与缓存管理。基于GLM-5模型实测,在持续多轮对话、Agentic AI长程任务等超长序列推理场景中,分布式多级缓存方案可以实现Prefill性能提升70%+,有效提升用户体验,支撑工商银行规模化业务落地。

随着DeepResearch、智能代码生成等Agentic应用在金融场景中不断落地,大模型正从简单问答走向复杂任务执行。在这一过程中,模型需要处理多轮对话上下文以及多步推理过程,长序列推理能力逐渐成为主流大模型的关键能力。在Reasoning与Agentic应用的推动下,推理系统不仅需要支持百万级的Token处理,还需在实时交互场景中保持极低时延。如何在长上下文理解与低时延推理之间实现高效协同,正成为大模型推理系统的重要演进方向。

作为金融科技创新的引领者,工行构建并持续提升企业级大模型技术体系工银智涌,将大模型技术广泛应用于手机银行、智能客服、理财咨询、风险控制等500+个核心场景。当前GLM、DeepSeek等MoE大模型在业务场景中已得到广泛应用,表现优异,但随着应用持续深入,长序列任务带来的高成本和时延波动问题逐渐凸显。特别是在多轮对话等复杂场景下,由于KV缓存占用显存过高,现有的推理架构在负载均衡、长序列性能损耗以及Agent记忆连续性方面,仍存在一定的优化空间。

为提升推理效能,工商银行联合华为,基于昇腾算力底座和华为云Stack成功试点多级缓存推理加速方案。该方案基于openYuanrong异构存储资源池,统筹管理HBM、DRAM空间,应对长序列推理中的KV缓存压力;同时利用vLLM-Ascend PrefixCache高效调度技术实现异步和分块缓存高效加载。在GLM系列模型的推理性能实测中,针对200K/100K典型超长序列长度,系统平均TTFT降低70%,吞吐效率提升40%,充分验证了异构内存管理在解决负载失衡、TTFT时延高等问题上的有效性。

该加速方案依托昇腾硬件,通过平台层、网络层与硬件层的深度协同,实现昇腾平台的深度适配与优化:

1. 异构数据对象抽象:突破显存读写瓶颈,吞吐性能达14+GB/s

openYuanrong异构数据对象支持HBM,并实现H2D/D2H高性能传输,RH2D零拷贝直通传输,单卡批量数据RH2D传输吞吐可达14+GB/s;

2. 高性能分布式异构多级缓存:打破显存墙,释放异构内存聚合效能

统一抽象集群内的HBM、DRAM资源,构建异构内存池。通过多级缓存架构,支持数据在不同存储层级间的极速流转(H2D/D2H),缓解显存容量限制。

3. PrefixCache高效调度:模型解耦,分块高效命中

利用vLLM-Ascend PrefixCache高效调度技术,针对业务前缀重复高的输入,实现异步和分块缓存高效加载,公共Attention组图组件,新模型无需特别适配,有效减少了冗余计算开销。

依托上述能力,工商银行在多轮对话、Agentic AI长程任务规划场景中实现Prefill性能提升70%+,有效支撑大规模用户交互和复杂任务处理。该技术已完成技术验证并在工行智能体业务场景中试点,后续将在大EP等典型推理场景中进一步推广。未来,工商银行将继续联合华为深化技术探索、优化推理底座性能,并结合业务需求,将该能力逐步推广至更多金融场景,实现大模型技术在金融业务的广泛落地与规模化应用。


关键词:
精彩文档:
最近更新: