谷歌Gemini推深度思考模式，多模态能力碾压GPT-5_机器人(300024)股吧

股吧首页 > 机器人吧 > 正文

最近访问：

机器人吧

返回机器人吧>>

- 重要股东股权质押数据全览

若夜财目

发表于 2025-12-05 04:08:09 创作中心网页端发布于上海

谷歌Gemini推深度思考模式，多模态能力碾压GPT-5

谷歌这波Gemini 3的更新，没搞大张旗鼓的发布会，直接在Gemini应用里给AI Ultra订阅用户推了“深度思考模式”，看似低调，实则刀锋很准。

我们来盘一盘。核心不是又加了个功能，而是谷歌正在用全栈打法重新定义AI产品的门槛。Gemini 3最猛的地方在哪？多模态能力，尤其是屏幕理解。报告里提到一个数据：ScreenSpot-Pro测试得分72.7%，什么概念？GPT-5.1才3.5%，Claude Sonnet 4.5是36.2%。这个差距不是迭代，是代差。

这意味着什么？意味着AI开始真正“看懂”界面了。以前说的Agent能操作手机，大多是噱头，因为模型看不懂UI逻辑。现在不一样了，Gemini已经具备视觉智能和界面逻辑理解能力，端侧GUI操控不再是纸上谈兵。

你看豆包手机的OTA更新，其实就是在打前站。它第一批OTA就上了16个功能，比如跨APP比价、灵动岛任务追踪、声纹解锁调用高级功能——这些本质上都是在模拟人类操作GUI。它为什么能这么快落地？因为它有系统级入口。但豆包的问题是缺顶级模型支撑。而谷歌呢？手握安卓系统+Pixel硬件+Gemini模型+全家桶应用，全栈集成能力拉满。

所以关键点就在于，谷歌不是在做一个更好的聊天机器人，而是在构建一个从芯片到系统再到应用的闭环生态。TPU就是这个生态的底座。这次报告提到，TPUv7内部使用时TCO比GB200低44%，对外租赁也便宜三成以上。更狠的是，谷歌把TPU生态打开了：原生支持PyTorch，vLLM也做了大规模工程适配。这等于说，你不用改代码也能跑起来。

那它的挑战是什么？生态封闭性。XLA编译器没完全开源，中小客户还是觉得GPU开箱即用更省事。而且英伟达Rubin系列升级幅度不小，Feynman也在路上，一年一迭代的节奏压得住场子。所以TPU短期内不会颠覆GPU格局，更多是作为高性能、低成本选项，吸引对算力效率敏感的大客户。

这么看下来，真正的战场不在模型参数，也不在单点功能，而在系统整合能力。谷歌的优势是全链路协同设计——模型可以为TPU定制，TPU又能反哺云服务利润，云再喂养模型迭代，形成正循环。

下一步怎么走？端侧AI会加速落地，尤其是安卓生态里的高阶交互。但普通用户感知最强的，可能还不是“深度思考”，而是AI开始主动帮你操作手机，比如自动填表、跨应用下单、实时任务监控。这些事豆包在试，谷歌已经在后台铺路了。

目前颗粒度还不够的是，这个深度思考模式到底开放到什么程度？是否只限于Pixel设备？安卓生态的碎片化会不会拖后腿？这块信息还没看到。但方向很清楚：谁掌握系统层，谁就掌握AI Agent的入口。

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》