• 最近访问:
发表于 2026-02-02 16:51:30 股吧网页版
未来智造局|“百万token一分钱” 推理GPU驱动大模型下半场发展
来源:新华财经

  新华财经上海2月2日电(记者高少华)在经历了大模型参数竞赛的上半场后,AI行业正由“训练驱动”迈向“推理驱动”的下半场,推理算力成为决定AI商业化成败的核心要素。

  国产AI芯片企业曦望(Sunrise)近日发布了新一代推理GPU芯片启望S3,提出“百万词元(token)一分钱”的目标,并提出围绕推理场景构建算力体系、共建AI推理平台,探索面向人工智能应用的新型算力服务模式。

  “过去十年,中国互联网的底座是遍布全国的光纤和基站,而未来十年,中国AI时代的底层根基将是规模化、高性价比的推理基础设施。”曦望董事长徐冰表示,曦望将持续围绕推理场景推进芯片、系统和算力服务的协同创新,推动算力基础设施向更加高效、可持续的方向演进,为我国人工智能产业发展提供坚实支撑。

  推理算力成AI下半场核心竞争力

  算力是支撑人工智能运行的“动力引擎”,训练和推理则是人工智能系统运作的两个核心阶段。训练是人工智能的“学习过程”,推理是人工智能的“实战应用”;训练决定了人工智能的上限,而推理决定了人工智能的落地速度。随着大模型逐步走向落地,在人工智能发展从“训练驱动”迈向“推理驱动”的关键阶段,围绕推理算力夯实算力底座、提升算力供给效率,对推动人工智能服务实体经济具有重要意义。

  2026年被业内普遍视为人工智能推理应用爆发元年。德勤预测显示,2026年推理算力占人工智能计算量的比重将达66%,首次超过训练算力的占比,标志着人工智能正式迈入“推理驱动”的下半场。

  中国工程院院士、浙江大学信息学部主任吴汉明表示,过去十年,我国集成电路产业实现了跨越式发展,但随着人工智能进入规模化应用阶段,推理算力正成为制约应用落地和产业深化的重要因素。推理时代的算力竞争不是单点技术比拼,需要构建协同创新、开放融合的产业生态。

  据了解,目前行业内多数推理场景仍沿用训推一体芯片,这类产品以通用计算为设计思路,兼顾训练与推理需求,但训推一体芯片存在成本高昂、供应不稳定、运维投入大等问题,无法匹配行业爆发式需求。

  在国内算力领域,曦望是首家聚焦于推理GPU的芯片企业,公司从2018年开始研发第一代芯片启望S1,2020年实现量产并落地数万片规模;2023年推出第二代芯片启望S2,通过自研通用GPU架构和指令集对标行业头部产品;近日发布了第三代芯片启望S3,该芯片面向大模型推理场景进行定制优化,重点提升推理效率和单位算力经济性,以更好支撑人工智能应用在实际业务场景中的部署需求。

  据徐冰介绍,当前之所以强调推理为先,首先是需求发生了改变,人工智能大模型已经从被训练出来的阶段,走向能被应用起来的实战阶段;其次是场景发生了改变,人工智能体、生成式视频等复杂场景正在加速落地,多模态的推理需求也在爆发;另外成本结构也在改变,推理成本占据人工智能应用的比例已经高达70%,它直接决定了一家人工智能公司能否盈利。

  “只有把推理成本从元级降到分级,人工智能才有机会像水电一样成为普惠的基础设施,这也是行业的未来趋势。”徐冰表示,2025年全球大模型token消耗量增长了近100倍,算力需求的爆发式增长与居高不下的成本之间的矛盾,迫切需要专用推理芯片的突破。

  专用架构重构算力成本底线

  作为新一代专用推理GPU,与传统训推一体芯片不同,曦望此次推出的启望S3从底层架构开始为推理场景重新设计,实现性能、能效与成本的系统性优化,可以满足多模态、智能体等复杂推理需求。

  徐冰表示,启望S3通过芯片架构、存储体系和系统协同的全方位优化,实现了十倍以上的推理性价比提升,公司目标是将推理成本再降一个数量级,推动“百万token一分钱”成为行业新基准。据测算,目前曦望已将每百万token成本降至约0.57元,优于市场平均水平。

  对于算力服务商、人工智能应用开发者而言,Token的成本、能耗表现以及服务稳定性,这三大指标直接决定了企业最终的业务毛利率,并直接影响着终端客户群体的用户体验。

  “如果我们能够让推理成本下降90%,那么就可以助力全行业盈利增收。”徐冰表示,曦望想做的就是站在这层根基上,持续地降低推理成本,让开发者和企业不用再为算力和电费发愁,可以专注于去构建未来的AI爆款应用。

  随着大模型竞争进入下半场,推理token的需求仍会以几十倍的速度增长,专用推理GPU的市场空间将持续扩大。而算力的价值释放,离不开软硬件的协同优化。

  据曦望联席首席执行官王湛介绍,目前整个算力服务面临三大挑战:一是资源利用率低,传统架构下GPU闲置率常超过40%;二是适配效率不足;三是运维复杂,硬件问题中75%与GPU相关。基于此,曦望联合合作伙伴共同推出推理系统级解决方案,通过自研GPU与软硬件全栈优化,从而破解行业痛点,提升算力调度效率。

  在商汤科技董事长兼首席执行官徐立看来,人工智能商业化闭环的形成,离不开芯片与模型的深度联动。目前人工智能模型的推理成本快速下降,过往两年在已知的开源大模型方面,每token的推理成本下降了近280倍。专用推理芯片的技术突破,将加速芯片与模型的协同创新,推动人工智能商业化落地提速。

  协同推动算力资源向实际生产力转化

  国产推理GPU持续迭代,有助于推动算力资源更高效地服务实体经济,为人工智能在各行各业的深入应用奠定基础。

  曦望在发布推理芯片的同时,还提出共建AI推理平台为核心的算力服务新模式,通过与商汤科技、范式智能等合作伙伴协同,面向大模型推理需求提供更加稳定、可预期的算力服务,推动算力资源转化为实际生产力。

  在生态协同方面,曦望与浙江大学共建“智能计算联合研发中心”,聚焦半导体虚拟制造以及人工智能在科学计算等领域的应用。同时,曦望与杭钢数字科技有限公司、浙江算力科技有限公司牵手,将把推理基础设施铺向浙江、辐射全国。此外,曦望还与三一重工、游族网络等十几家企业签约,将推理算力嵌入制造、能源、机器人等具体场景。

  浙江算力科技有限公司董事长钱敏勇认为,“目前市场上推理的百万token价格约1到10元,若成本下降一半,应用将大规模爆发;当价格降至0.1元以下,甚至几分钱时,将引发推理市场全面爆发。”他表示,业界短期内可通过架构、算法优化来降低成本,长期来看,新型硬件创新将带来更深远的影响。

  如今,在国产算力领域,国产芯片的定位正转向“性能与成本兼顾”。在国际上,每当百万token的成本降低一倍,市场上出现的应用程序数量就会增加6到8倍。

  炜烨智算董事长兼首席执行官周韡韡表示,国产推理芯片的性价比优势,将推动中国AI应用实现类似移动互联网时代的爆发式增长,“推理算力成本的降低,将重塑人工智能产业生态。”

  业内人士认为,以推理算力为核心、以 AI推理平台为载体的新型算力模式,正在成为人工智能时代的重要基础设施形态。未来十年,规模化、高性价比的推理基础设施,将成为中国人工智能时代的底层根基,为人工智能产业发展注入源源不断的动力。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500