• 最近访问:
发表于 2025-12-05 04:08:09 创作中心网页端 发布于 上海
谷歌Gemini推深度思考模式,多模态能力碾压GPT-5

  谷歌这波Gemini 3的更新,没搞大张旗鼓的发布会,直接在Gemini应用里给AI Ultra订阅用户推了“深度思考模式”,看似低调,实则刀锋很准。

  我们来盘一盘。核心不是又加了个功能,而是谷歌正在用全栈打法重新定义AI产品的门槛。Gemini 3最猛的地方在哪?多模态能力,尤其是屏幕理解。报告里提到一个数据:ScreenSpot-Pro测试得分72.7%,什么概念?GPT-5.1才3.5%,Claude Sonnet 4.5是36.2%。这个差距不是迭代,是代差。

  这意味着什么?意味着AI开始真正“看懂”界面了。以前说的Agent能操作手机,大多是噱头,因为模型看不懂UI逻辑。现在不一样了,Gemini已经具备视觉智能和界面逻辑理解能力,端侧GUI操控不再是纸上谈兵。

  你看豆包手机的OTA更新,其实就是在打前站。它第一批OTA就上了16个功能,比如跨APP比价、灵动岛任务追踪、声纹解锁调用高级功能——这些本质上都是在模拟人类操作GUI。它为什么能这么快落地?因为它有系统级入口。但豆包的问题是缺顶级模型支撑。而谷歌呢?手握安卓系统+Pixel硬件+Gemini模型+全家桶应用,全栈集成能力拉满。

  所以关键点就在于,谷歌不是在做一个更好的聊天机器人,而是在构建一个从芯片到系统再到应用的闭环生态。TPU就是这个生态的底座。这次报告提到,TPUv7内部使用时TCO比GB200低44%,对外租赁也便宜三成以上。更狠的是,谷歌把TPU生态打开了:原生支持PyTorch,vLLM也做了大规模工程适配。这等于说,你不用改代码也能跑起来。

  那它的挑战是什么?生态封闭性。XLA编译器没完全开源,中小客户还是觉得GPU开箱即用更省事。而且英伟达Rubin系列升级幅度不小,Feynman也在路上,一年一迭代的节奏压得住场子。所以TPU短期内不会颠覆GPU格局,更多是作为高性能、低成本选项,吸引对算力效率敏感的大客户。

  这么看下来,真正的战场不在模型参数,也不在单点功能,而在系统整合能力。谷歌的优势是全链路协同设计——模型可以为TPU定制,TPU又能反哺云服务利润,云再喂养模型迭代,形成正循环。

  下一步怎么走?端侧AI会加速落地,尤其是安卓生态里的高阶交互。但普通用户感知最强的,可能还不是“深度思考”,而是AI开始主动帮你操作手机,比如自动填表、跨应用下单、实时任务监控。这些事豆包在试,谷歌已经在后台铺路了。

  目前颗粒度还不够的是,这个深度思考模式到底开放到什么程度?是否只限于Pixel设备?安卓生态的碎片化会不会拖后腿?这块信息还没看到。但方向很清楚:谁掌握系统层,谁就掌握AI Agent的入口。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500