工商银行×华为：金融行业首个分布式KV Cache多级缓存推理加速技术正式落地

发布时间：2026-05-19 18:28:36 文章来源：今日热点网

摘要：工商银行与华为开展联合创新，成功落地分布式KV Cache多级缓存推理加速方案。该方案基于昇腾+vLLM-Ascend+openYuanrong，构建覆盖HBM、DRAM的异构统一内存资源池，并对H2D/D2H数据等传输路径进行昇腾硬件亲和优化，实现推理过程中的高效数据调度与缓存管理。基于GLM-5模型实测，在持续多轮对话、Agentic AI长程任务等超长序列推理场景中，分布式多级缓存方案可以实现Prefill性能提升70%+，有效提升用户体验，支撑工商银行规模化业务落地。

随着DeepResearch、智能代码生成等Agentic应用在金融场景中不断落地，大模型正从简单问答走向复杂任务执行。在这一过程中，模型需要处理多轮对话上下文以及多步推理过程，长序列推理能力逐渐成为主流大模型的关键能力。在Reasoning与Agentic应用的推动下，推理系统不仅需要支持百万级的Token处理，还需在实时交互场景中保持极低时延。如何在长上下文理解与低时延推理之间实现高效协同，正成为大模型推理系统的重要演进方向。

作为金融科技创新的引领者，工行构建并持续提升企业级大模型技术体系工银智涌，将大模型技术广泛应用于手机银行、智能客服、理财咨询、风险控制等500+个核心场景。当前GLM、DeepSeek等MoE大模型在业务场景中已得到广泛应用，表现优异，但随着应用持续深入，长序列任务带来的高成本和时延波动问题逐渐凸显。特别是在多轮对话等复杂场景下，由于KV缓存占用显存过高，现有的推理架构在负载均衡、长序列性能损耗以及Agent记忆连续性方面，仍存在一定的优化空间。

为提升推理效能，工商银行联合华为，基于昇腾算力底座和华为云Stack成功试点多级缓存推理加速方案。该方案基于openYuanrong异构存储资源池，统筹管理HBM、DRAM空间，应对长序列推理中的KV缓存压力；同时利用vLLM-Ascend PrefixCache高效调度技术实现异步和分块缓存高效加载。在GLM系列模型的推理性能实测中，针对200K/100K典型超长序列长度，系统平均TTFT降低70%，吞吐效率提升40%，充分验证了异构内存管理在解决负载失衡、TTFT时延高等问题上的有效性。

该加速方案依托昇腾硬件，通过平台层、网络层与硬件层的深度协同，实现昇腾平台的深度适配与优化：

1. 异构数据对象抽象：突破显存读写瓶颈，吞吐性能达14+GB/s

openYuanrong异构数据对象支持HBM，并实现H2D/D2H高性能传输，RH2D零拷贝直通传输，单卡批量数据RH2D传输吞吐可达14+GB/s；

2. 高性能分布式异构多级缓存：打破显存墙，释放异构内存聚合效能

统一抽象集群内的HBM、DRAM资源，构建异构内存池。通过多级缓存架构，支持数据在不同存储层级间的极速流转（H2D/D2H），缓解显存容量限制。

3. PrefixCache高效调度：模型解耦，分块高效命中

利用vLLM-Ascend PrefixCache高效调度技术，针对业务前缀重复高的输入，实现异步和分块缓存高效加载，公共Attention组图组件，新模型无需特别适配，有效减少了冗余计算开销。

依托上述能力，工商银行在多轮对话、Agentic AI长程任务规划场景中实现Prefill性能提升70%+，有效支撑大规模用户交互和复杂任务处理。该技术已完成技术验证并在工行智能体业务场景中试点，后续将在大EP等典型推理场景中进一步推广。未来，工商银行将继续联合华为深化技术探索、优化推理底座性能，并结合业务需求，将该能力逐步推广至更多金融场景，实现大模型技术在金融业务的广泛落地与规模化应用。

关键词：

精彩文档: