海外杀疯！阶跃语音模型 CES 出圈后登顶全球第一，听到对话即可思考_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2026-01-16 00:25:00 股吧网页版

海外杀疯！阶跃语音模型 CES 出圈后登顶全球第一，听到对话即可思考

来源：上观新闻

　　全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新，大模型创业公司阶跃星辰原生音频推理模型 Step-Audio-R1.1以96.4%准确率，超越 Grok、Gemini、GPT-Realtime 等主流一线模型，刷新历史最好成绩。目前，阶跃星辰已将这款模型开源，开发者可以下载体验。

　　据了解，该榜单是目前业界评估“原生语音模型”（Native Audio Models）最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力，主要考察维度包括准确率、首包延迟等。

　　根据榜单评测，在性能与速度的综合权衡上，Step-Audio-R1.1 全面碾压同类语音模型。

　　2025年11月，阶跃星辰发布了全球首个开源原生音频推理模型 Step-Audio-R1，可以在不增加额外时延的情况下，端到端理解语音内容，并能够“像人类一样听到对话即可思考”。这次发布的 Step-Audio-R1.1 模型，是Step-Audio-R1的升级版，兼顾更强实时对话和复杂语音推理能力。完整的实时语音API将在2月上线，目前开放的chat模式已搭载Step-Audio-R1.1核心，支持边想边说的流式推理。

　　和大语言模型同理，语音模型同样需要具备强大推理能力，才能提供更高阶智能、更自然交互。基于推理能力，Step-Audio-R1.1不仅能准确识别声音，还可以捕捉到声音背后的情绪和心理状态、言外之意，并能基于环境音推导对物理世界的理解。比如当听到最近爆火网络的“海豹舞”音频时，模型不仅能识别出韩语歌词，更判断出这是典型语言学习或发音练习的音频，而非自然对话。

　　一种行业共识是，语音是终端场景下最主流的交互方式。自2025年发力“AI+终端”战略，阶跃星辰相继发布了业内首个产品级的开源语音交互模型 Step-Audio、端到端语音模型 Step-Audio 2 系列、音频编辑模型 Step-Audio-EditX、全球首个开源原生音频推理模型 Step Audio R1。

　　在刚闭幕的 2026 年国际消费电子展（CES）上，吉利展示了搭载阶跃语音大模型的吉利银河 M9 海外版，凭借极具真人感的交互效果引发海外观众的热议。吉利银河 M9 也是业内首个搭载端到端语音模型的量产车型。

（文章来源：上观新闻） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》