“夫人辅导孩子作业,常抱怨大模型‘拍照搜题’只给出答案,却讲不出错在哪儿。”
4月10日,商汤技术交流日,商汤科技董事长兼CEO徐立在上台演讲前45分钟接受记者专访,却尤为家常地探讨起大模型能否帮助“百姓日用”,如教学辅导、购物比价等。
“过去谈人工智能,从城市治理到探索宇宙本源,叙事宏大。但随着模型通用性越来越强,我发现它更应解决生活中的细分场景。”徐立说。
专访后,他正式发布商汤全新升级的“日日新SenseNova V6”(下称日日新V6)。该大模型体系展示的,正是商汤领先的多模态推理能力执着于生活琐碎并实现价值闭环的可能。

徐立发布日日新V6
跨模态“增智”
预计2028年,语言模型将耗尽人类文本数据。而图灵奖得主认为,纯粹的语言模型难以完整表达人类智能。
因为,大量蕴藏于图像、视频乃至3D等其他模态中的知识,同样是补充人类智能的核心要素。好比人类学习不可能仅限于文本,探物理几何、悟武林秘籍,都须借助其他模态的数据。

人类悟武林秘籍须借助其他模态的数据
那么,人类跨模态的增智路径是否也适用于大模型?
徐立把猜想化为行动。商汤11年前就以计算机视觉起家。去年底,商汤尝试做融合模型,灌入多模态数据3个月后,发现模型的文本推理能力提升50%以上,多模态推理进步更大,阶段性成果即为日日新V6。
尽管只修炼了3个月,日日新V6依旧不凡。此前,V6在家长圈试用时,一位成都的教师家属写来感谢信,原因在于,他妻子再不用熬夜手动总结学生作业的错误点——模型不但能判题,还一语中的隐藏在解题步骤中的错误根源,如一元一次方程里学生每次移项都忘了换符号等。
徐立又展示了多个电商平台上同类抽纸的促销截图,图片布局、显示打折的位置、价格、包装规格等差异很大。日日新V6死磕每张抽纸均价,结合品质等其他因素后给出了最优方案建议。

日日新V6死磕每张抽纸均价
小试牛刀的日日新V6还引来保险巨头关注。将医疗保险理赔材料交给V6审核,其中的乱开药、乱检查、材料缺失或逻辑漏洞等,均被揪出。
如果思路打开,长剧剪辑、游戏解说、商铺运营,这些百姓日用场景,都能托付给多模态融合大模型来推理和执行。
具身智能是徐立尤其看好的高价值场景。他认为,多模态模型技术能融合语音、文字、图像、视频等多种交互方式,让机器人的服务更自然、有温度。事实上,银河、傅利叶等国内头部机器人公司已成为商汤重要客户。

傅利叶机器人是商汤重要客户
拼技术和成本
据全球权威评测,日日新V6的多模态推理能力对标OpenAI o1,数据分析能力大幅领先GPT-4o。V6体系还涵盖国内首个支持10分钟中长视频深度解析的大模型,对标的是谷歌复杂推理混合大模型Gemini 2.5。
这些亮眼实力背后,必有硬核技术加持,包括多模态长思维链合成技术、多模态混合增强学习、长视频统一表征和动态压缩技术等。

日日新V6的多模态推理能力对标OpenAI o1,数据分析能力大幅领先GPT-4o
上述不明觉厉的技术,旨在对齐各模态数据,并突破强推理、强交互、长记忆三大能力,让大模型像人类一样思考交互,甚至理解言外之意。
比如,面对四张描绘“乌龟羡慕长颈鹿脖子长”的连环画,日日新V6能完整讲述故事,并在结尾升华为“长颈鹿有它的优势,但你也有你的价值”。
“我们不过是训练了它3个月,投入了数百B(Billion,即十亿)数据,就已有如此成效。接下去我们会持续构造强化学习算法,期待下半年出现多模态模型的‘涌现’能力。”徐立憧憬道。
但他明白,图片、视频等模态数据较之于文本,token(自然语言处理最小单元)长度有数百倍之差。因此,多模态模型巅峰出道的另一大挑战,在于将模型训练和推理性能做到极致,迈过算力供给成本生死线。
徐立透露,训练方面,商汤采用自动化多维并行等策略,显著提升了算力集群的训练效率,每秒处理token数达1600+,在未做专项优化情况下,该效率已优于DeepSeek的官方成绩。
这意味着,商汤模型的训推成本已击穿业界最低。这个让同行羡慕的性价比,源自商汤在业内少见的“AI基础设施(大装置)-大模型(日日新)-应用三位一体”战略,可实现算力与模型双向联合优化。这一核心优势极大筑高了商汤的护城河。
穿越历史周期
2017年完胜柯洁的阿尔法狗,代表着人工智能1.0,执行的是特定任务。以2022年底生成式人工智能ChatGPT为分水岭,AI跨入2.0阶段,旨在成为通用任务大师。
商汤成立于2014年,“AI 1.0、1.5、2.0,我们全经历了。”徐立说得云淡风轻。
殊不知,无数1.0“前浪”早已在沙滩。而DeepSeek等AI 2.0时代的代表,几乎都创立于2022年后。
11岁的民企商汤,能坚韧地穿越历史周期,这关乎技术,也关乎眼光和战略。
比如,商汤临港AIDC是亚洲最大智算中心之一,其谋划始于2018年。ChatGPT引发全球AI算力激增需求还是4年后的事。

商汤临港AIDC
当年,商汤已在考虑用一个通用模型来覆盖多个场景,以解决每一个AI落地场景都需独立部署算法、数据,以及“人堆人”等不可持续难题。但模型越通用,对算力要求越高。在遍寻不着市场上可大规模互联的AI算力集群后,商汤索性自建。
多年来,外界看不懂大装置派何用场,不明白商汤竟还每年数十亿元往里砸钱,关于“商汤巨亏”的议论不止,但徐立“不响”。
直到2023年商汤财报公布,人们恍然大悟。这年,商汤生成式AI收入达12亿元,是商汤成立以来最快超10亿元体量的新业务。该业务2024年更录得24亿元,在集团中的收入占比已跃升至64%。
眼下,当徐立预判原生多模态模型将走向世界舞台中央,并决意再度大举投入时,如何平衡投入与财报业绩间关系又需要战略。
商汤打法有二。
一是把偏向未来的场景化的东西往外放。徐立介绍,商汤去年底完成了“1+X”结构调整,1为核心业务,即生成式AI及视觉AI;X指垂直领域生态,包括智能汽车“绝影”、智慧医疗等。各生态企业设立独立的CEO,可独立融资。这样的放手,旨在让“1”更专注。而那些被放出去独立奔跑的小将也很争气。今年以来,AI零售商汤善惠完成A轮融资,商汤医疗则完成过亿元Pre-A轮融资。
打法之二,“绑着硬件做收入”。商汤是目前国内市场排名前三的云服务厂商,致力于成为最懂算力的大模型服务商,以及最懂大模型的算力服务商。“我们的推理效率普遍较同行高出15%至25%。尽管我们的算力硬件并非全国最多,但省出的15%至25%对客户而言就是利润,这是客户选择商汤的很大动力。”徐立说。

商汤致力于成为最懂算力的大模型服务商,以及最懂大模型的算力服务商
他坦言,AI的许多新认知往往是反共识的,行业中充满了打脸时刻。比如DeepSeek从基模直接上RL(大规模强化学习),而没有走业界曾奉为真理的基模、SFT(监督微调)、RL三步法。
同样,曾仰望星空的徐立,而今将泰州学派创始人王艮主张的“百姓日用即道”挂在嘴边。敢于迭代认知和持续自我更新,这大概也是商汤始终浪尖弄潮之道。

徐立认为,AI之道,在于百姓之日用