• 最近访问:
发表于 2025-04-11 10:00:50 股吧网页版
日日新更要天天用!商汤发布第六代大模型:中长视频可推理,已用到机器人上
来源:上观新闻

  不得了!“沪牌”大模型,给人形机器人装上大脑、眼睛、耳朵和嘴巴了!

  傅利叶通用人形机器人GRx,能辨别眼前的两瓶饮料,还能根据“想减肥”的需求,给出选择矿泉水而非可乐的建议。

  另一位具身智能机器人“飞燕”,能准确地描述“所见所闻”,包括室内环境如何、人们在做什么。

  这些多模态能力,来自商汤科技最新发布的新一代“日日新SenseNova V6”大模型。

  在10日的商汤技术交流日上,日日新V6风头十足,实现“长思维链+数理能力+推理能力+全局记忆”的能力升级,包括最长64K思维链、大幅领先GPT-4o的数据分析能力、多模态深度推理国内第一、10分钟长视频理解及深度推理等强项。

  “AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”商汤科技董事长兼首席执行官徐立如是说。

自研训练技术“硬啃”多模态能力

  2025年,大模型发展有三大重要技术趋势:效率至上、多模态、深度推理。

  徐立说,有人预计互联网上可用的人类文本数据将在2028年耗尽,但这不代表整个知识都“学完”了——很多知识都蕴藏在大量的图像、视频,甚至3D等其他模态中。

  “从人类学习的路径来讲,即使知识的含量一样,多模态的学习方式效率也会更高。”他指出。

  这也是为什么,商汤要“硬啃”多模态的原因了。

  记者了解到,全新升级的日日新V6原生多模态通用大模型,采用混合专家架构(MoE),拥有6000亿参数,做到三合一:多模态长思维链+多模态强化学习+多模态全局记忆。

  技术交流日上,商汤也展示了日日新V6与OpenAI、谷歌、DeepSeek等先进模型在纯文本、多模态、纯文本推理、多模态推理上的具体分数对比,可以看到纯文本任务综合性能优秀,比肩国际一线模型;多模态性能领先,各方面性能突出;具体分数上略有参差。

  商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华告诉新民晚报记者,日日新V6采用了自研的原生多模态融合训练技术——这是一种能够将多种模态信息在模型架构和训练过程中进行深度融合的AI模型架构。

  “与传统的将语言模型和多模态模型分立的方式不同,它通过桥接技术,如补充训练数据和模态关联机制来实现模态间的协同,避免传统方法中‘跷跷板效应’——增强某一模态能力导致另一模态能力下降。”林达华解释。

视频理解打破限制

  只需“喂”上一段柯南片段,日日新V6就摇身一变成“名侦探”展开剖析——它会对整个视频的内容先做一个总结,再按照秒级,对视频片段做内容上的推演。

  再给日日新V6“喂”上一段《黑神话悟空》的打斗片段,它不仅能将精彩时刻剪辑出来,还会秒变资深解说员……

  技术交流日上,日日新V6在视频理解上的表现,赢得了阵阵掌声。徐立介绍,凭借“全局记忆”能力,它打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。

  “商汤自研技术可将视觉信息、听觉信息、语言信息和时间轴逻辑进行对齐,形成多模态统一时序表征。”徐立解释,“在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到 16K tokens,仍然保留关键语义。”

  林达华透露说,今年商汤将把视频理解支持时长进一步提升到1小时。

  现场演示了给小朋友辅导数学题的场景,传统大模型只会提供千篇一律的标准答案,无法基于不同的解题思路提供指导;而日日新V6不但能识别手写体,还能够提供针对错误点的一对一引导式讲解,并给予精准辅导。

  在家庭场景,很多家长没有时间读绘本,或者得绞尽脑汁地给孩子讲故事——现在也可以由大模型代劳了。日日新V6能实现连续记忆与时序逻辑理解,讲述更完整生动的故事,还能挖掘故事深意,升华主旨。

  泰州学派提出,“圣人之道无异于百姓之日用”。在徐立看来,“AI之道无异于百姓之日用”——在通用人工智能时代,大模型变成了老百姓的日用品,在很多的细分场景中能带来价值闭环。

实现更生动、更智能人机互动体验

  商汤认为,大模型在商业应用上有两个关键价值:融入真实的业务应用,优化与人交互体验。

  真实世界发生的对话,不会像和大模型“沟通”时那般把每个指令都描述得完整清晰,可能随手指着一个东西提问:“那个是啥?”“这有什么用?”

  对应到机器人亦是如此。技术交流日上,商汤还开启了与多家具身智能头部企业的战略合作——多模态大模型可以成为机器人的大脑和眼睛,增强感知能力,像人一样进行深入思考和自然表达,还有更强的记忆力。

  “通过合作,傅利叶GRx实现了更生动、更智能的人机互动体验,显著增强了它在导览咨询、医疗康复、教育培训等多样化应用场景中的表现。”现场展台工作人员表示,伴随大模型技术的进步与演进,GRx也将持续优化机器人本体能力,更好地适应复杂环境,完成更多元任务的能力,加速人形机器人更广泛地融入日常生活。

  上海归墟机器人科技有限公司也把日日新搭载到了“飞燕”机器人上,使其具备全景视界感知、情感交互及心理健康筛查功能。

  值得一提的是,大模型技术的高效落地与规模化应用,离不开高效稳定的算力底座。商汤科技联合创始人、大装置事业群总裁杨帆透露,商汤大装置已经将多模态推理应用的成本降到和大语言模型一样。

  据悉,国产芯片参与了日日新V6的训练,而商汤也将持续对进口及国产芯片做适配和优化,希望能提供市场最优的性价比。

  “日日新”,源自我国古代经典《礼记·大学》中的名句“苟日新,日日新,又日新”。其本意是如果一天能够自新,就该天天自新,持续不断地革新。回过头来看,从V1到V6版本,商汤日日新的发展速度确实做到了“日日新”:平均3—4个月便会有一次迭代。新民晚报记者了解到,当前,商汤正致力于通过基础设施、大模型和应用的协同迭代,成为“最懂算力的大模型服务商”和“最懂大模型的算力服务商”。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500