华为AI推理新技术犀利！中国银联大模型效率提高了125倍_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-08-12 22:11:10 股吧网页版

华为AI推理新技术犀利！中国银联大模型效率提高了125倍

来源：21世纪经济报道

　　8月12日，华为发布了AI推理创新技术UCM（推理记忆数据管理器，Unified Cache Manager）。

　　简单来说，这是专门面向大模型推理过程的“缓存管理技术”，目的是为了优化推理速度、效率和成本。

　　具体来看，UCM是一款以KV Cache为中心的推理加速套件，其融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。

　　现场，华为公司副总裁、数据存储产品线总裁周跃峰表示，UCM推理记忆数据管理器旨在推动AI推理体验升级，提升推理性价比，加速AI商业正循环。同时，华为联手中国银联率先在金融典型场景开展UCM技术试点应用，并联合发布智慧金融AI推理加速方案应用成果。

　　UCM是什么

　　对于上述颇多术语的介绍，我们来拆解一下。

　　首先，什么是KV Cache？

　　据了解，KV Cache是一种用于优化Transformer等模型推理速度的技术，它的核心思想就是把历史 token的Key和Value（矩阵）缓存下来，下次生成时直接用，避免重新算，从而提升推理速度、降低计算成本。代价是会占用更多内存，所以它是一种“用内存换计算”的工程优化手段。

　　换言之，KV Cache是一种存储机制，打个比方，就像是“模型推理过程中的记忆本”，用来临时保存计算中间结果，让后续步骤少做重复工作。

　　那么为什么要推出UCM？因为推理过程中仍存在不少痛点。

　　随着AI产业已从“追求模型能力的极限” 转向“追求推理体验的最优化”，推理体验直接关联用户满意度、商业可行性等。推理体验直接关系到用户与AI交互时的感受，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。

　　资料显示，国外主流模型的单用户输出速度已进入 200 Tokens/s区间（时延 5 ms），而我国普遍小于60 Tokens/s（时延50 – 100 ms），因此，如何解决推理效率与用户体验的难题迫在眉睫。目前，包括华为在内，各大科技企业都会在调度KV Cache基础上，研发优化推理过程的技术。

　　华为最新的UCM就引入融合了更多的算法工具，可以对接不同引擎与算力的推理引擎插件（Connector）、支持多级KV Cache管理及加速算法的功能库（Accelerator）、高性能KV Cache存取适配器（Adapter）三大组件，通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”。

　　比如，华为介绍道，依托UCM层级化自适应的全局前缀缓存技术，系统能直接调用KV缓存数据，避免重复计算，使首Token时延最大降低90%。

　　据悉，在华为与中国银联的联合创新技术试点中，中国银联“客户之声”业务场景下，借助UCM技术及工程化手段，大模型推理速度提升125倍，仅需10秒即可精准识别客户高频问题，促进服务质量提升。

　　为何率先在金融行业应用？金融业天然有数字化属性，也是数字化最早的领域之一，因此金融行业率先落地有数据基础和技术需求，尤其是生成式AI浪潮中，如何用好大模型服务业务是重要课题。同时金融对速度、效率、安全、可靠性等要求高，也是验证技术的标杆场景。

　　未来，中国银联将依托国家人工智能应用中试基地，联合华为等生态伙伴共建“AI+金融”示范应用，推动技术成果从“实验室验证”走向“规模化应用”。

　　华为的差异化路径

　　谈及UCM的差异化，华为数据存储产品线AI存储首席架构师向21世纪经济报道记者表示，当前，业界在分级缓存管理方面已有许多探索与实践，华为UCM在这一领域的最大优势在于将专业存储能力引入其中，引入后在软硬件协同与卸载方面做了大量工作，例如直通加速、KV检索索引与底层文件系统元数据的融合等。同时，在KV Cache生命周期管理方面，UCM具备预热、分级、淘汰等一整套机制，这是UCM在N级缓存管理上的差异化能力之一。

　　其次，上述专家提到，在算法加速库方面，业界现有方案普遍只停留在Prefix Cache这一层面，并未像华为一样，将稀疏全流程算法、后缀检索算法等投入商用，也缺乏多样化的技术手段。相比之下，UCM在这一层贡献了更多、更丰富、更可靠的算法，算法库还在不断扩展完善。

　　此外，UCM的体系更加完整，专家谈道，推理场景多种多样，请求的输入输出变化极大，而目前业界缺乏一套在各种场景下都能普适适用的框架、加速机制与算法。UCM能够在各种长短序列、不同请求条件下，实现自动切换与自适应的平滑优化。

　　“华为希望通过将部分成果开放，促进框架厂商、存储厂商以及算力厂商共同加速这一框架机制的成熟，最终解决当前AI行业落地过程中的效率与成本问题。”专家说道。

　　今天，华为还正式公布了UCM开源计划。UCM通过开放统一的南北向接口，可适配多类型推理引擎框架、算力及存储系统。今年9月，UCM将正式开源，后续逐步贡献给业界主流推理引擎社区，和全产业共同推动AI推理生态的繁荣发展。

　　整体而言，一方面是华为在AI推理技术层面持续进行研发，UCM也是结合华为存储技术的积累进行创新；另一方面，在AI的布局上，华为继续在产业链的各个环节进行升级，实现系统性的提升。

　　业内人士指出，国外领先芯片厂商通过硬件迭代、软件优化、生态绑定构建了推理时代的“铁三角”，短期内难以被代替。中国单点硬件技术，如芯片设计上有所突破，但国产软件及生态适配还有差距，华为等科技厂商也在不断补上生态短板。

　　正如华为专家所言：“大家一定要关注网络、存储、端到端的系统性、成本降低，才能有效的去加速AI的落地。从单点的算力模组转向系统性优化，这是大趋势。”

（文章来源：21世纪经济报道） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》