《科创板日报》12月10日讯(记者李明明)12月初,字节跳动“豆包手机助手”随联名机型亮相,悄然掀起关于未来手机形态与AI生态的行业探讨,随后该产品因涉及微信、淘宝等应用的适配争议引发关注。时隔一周,大模型独角兽智谱于12月9日正式宣布,将其核心AI Agent模型——AutoGLM全面开源。
此举不仅让围绕手机AI入口的行业探索愈发深入,更将操作手机的核心能力向全行业开放,使这场行业关注的焦点从具体终端产品落地,逐步延伸到关乎未来生态格局的核心技术能力共建。
这一举动,也被外界解读为智谱在“豆包”点燃AI手机热潮后,以截然不同的“开源”策略,强势竞逐下一代人机交互入口控制权的关键落子。那么,在这场决定未来格局的战役中,手握“操作系统级”Agent能力的智谱,能否成功?
智谱AutoGLM部门负责人刘潇告诉《科创板日报》记者,AI手机的发展为移动互联网注入了Agent自主执行带来的新增流量,但新生态与协同关系的构建,仍需依托AI手机普及及与各App生态的深度磨合,尚需时日。
实测AutoGLM
据悉,本次开源的是一套“拿来就用”的完整能力包,包括训练好的核心AI Agent模型、Phone Use能力框架与工具链,目前AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景,其自动化操作能力与日前引发热议的“豆包手机”演示相似。
AutoGLM通过一整套Phone Use能力框架,能在真机上稳定完成一系列操作,诸如发送微信红包、外卖点单、机票预订等。
智谱方面对《科创板日报》记者介绍,智谱自2023年4月开始投入Phone use方向,2025年8月发布AutoGlM2.0即可完成大家所见的豆包手机的功能。
《科创板日报》记者对AutoGLM进行了实测,下达“帮我在美团点一杯冰豆花”指令后,系统通过云端虚拟手机自主完成打开App、搜索店铺、筛选商品、关闭广告弹窗等操作,最终跳转至结账界面,按指南在支付前停止操作,全程耗时约一分半钟。

这一效率较真人手动操作提升较为明显,根据实测,普通用户手动完成同款饮料点单,需经历浏览推荐、确认店铺、选择规格、核对订单等步骤,平均耗时3-5分钟,AutoGLM通过流程自动化将耗时压缩70%以上。通过跨应用操作的连贯性,依托GLM-4.5V视觉推理模型,能识别50余款高频中文应用的UI元素,完成点击、滑动、输入等拟人化操作。
《科创板日报》记者继续加大难度,对AutoGLM下达了商品比价的复杂任务,发出“给我比对32K显示器哪个购物平台便宜,找一个最便宜的下单”,AutoGLM用时1分44秒完成了任务。


综合体验来说,AutoGLM在生活、办公等场景表现亮眼,但成功率层面仍存一定短板。实测中发现,遇到设计特殊的APP界面时,可能出现操作适配不顺畅的情况。
智谱AutoGLM部门负责人刘潇也对《科创板日报》记者分析,从应用形态来看,AutoGLM核心关注点集中于三点:一是操作准确性,这是保障用户体验的基础;二是复杂任务执行能力,鉴于第三方应用内部逻辑通常较为繁琐,市场普遍关注AutoGLM能否高效完成长链路、高复杂度的任务;三是数据安全问题,该模型在实现跨应用操作过程中,数据安全风险也成为行业及用户重点关切的内容。目前,AutoGLM正针对上述核心诉求持续优化,以提升技术适配性与应用安全性。
从“豆包”围城,到人人皆Agent的AI新纪元
智谱在此时开源,与“豆包”此前引发的市场教育和生态冲突密不可分。
12月1日,字节跳动推出的“豆包手机”工程样机,以其系统级权限和跨应用自动化能力,让市场第一次直观感受到“AI Agent手机”的颠覆性潜力。其“所见即可问,所言即可为”的跨应用操作,与AutoGLM的能力描述高度重合。
然而,“豆包”的迅速走红,也瞬间遇到了现有互联网生态的挑战。
周鸿祎此前坦言,这种能绕过App直接完成任务、让服务直达用户的AI助手,会直接冲垮互联网大厂的护城河。很快,用户反馈微信、淘宝等应用出现登录异常或风控提示。迫于压力,豆包团队在12月5日发布公告,对金融支付、刷分激励等敏感场景的AI操作能力进行了规范化限制。
这场风波也揭示了AI手机入口争夺的核心矛盾:系统级AI对现有移动互联网权力结构的根本冲击。一旦跨应用操作被AI统一调度,App 对用户路径、账号安全、业务链路与商业模型的控制将被削弱。
豆包与AutoGLM代表着AI手机发展的两条不同路径。技术架构方面,豆包手机是系统级集成,依赖Android系统权限,AutoGLM是视觉大模型+ADB指令,开源框架;商业模式上,豆包手机为封闭生态,字节亲自下场整合硬件,AutoGLM则为开放生态,赋能全行业开发者。
行业定位上,豆包手机为超级助手/潜在AI操作系统,AutoGLM是行业公共技术底座。
豆包的“封闭嵌入” vs AutoGLM的“开源双部署”,这两种战略背后的底层逻辑是什么?是否源于基因差异?
北京计算机学会AI专委会秘书长、北大人工智能博士张有鱼告诉《科创板日报》记者,豆包(字节跳动)的核心逻辑是抢占入口:移动互联网时代抢App,AI时代抢OS(操作系统)。字节无手机硬件,但手握抖音、头条等C端生态及算法优势,通过“封闭云架构+系统级嵌入”,欲将大模型打造成新OS内核。因头部厂商自研OS防字节,豆包选择与急需差异化的二线厂商(如努比亚)合作,以“寄生突围”策略突破壁垒。
而智谱AutoGLM的核心逻辑是技术极客的“底层赋能”:源自清华系的技术派基因,聚焦“模型+开源”而非流量变现。因无字节级C端生态,难与微信、抖音角逐C端入口,故依托国内顶尖Agent(智能体)技术(如AutoGLM手机操作能力),采用“全能力开源”的安卓式打法——不做封闭生态,而是向硬件厂商、开发者免费开放核心能力,以技术标准定义未来,走差异化技术供应商路线。
AI手机入口争夺战进入新阶段
智谱AutoGLM的开源,标志着AI手机入口之争进入了下半场:从争夺“硬件终端”或“单一入口App”,升级为争夺生态的“核心灵魂”——即那个能真正理解并操作手机的系统级AI能力。
业内热议本次开源是“掀桌子”,核心在于智谱选择了一条让巨头难以防御的技术路径。
技术方面,不同于传统脚本依赖易被封禁的无障碍服务(Accessibility),AutoGLM在底层调用了ADB(Android Debug Bridge)指令,并结合视觉大模型(AutoGLM-Phone-9B)。其运行逻辑是“看屏幕截图 -> 大模型分析 -> 模拟手指点击”。这种基于视觉的“类人操作”,让APP厂商通过简单的代码检测进行防御变得极其困难。只要人眼能看懂界面,AI就能操作。
智谱方面对《科创板日报》记者介绍,目前AI手机卡在模型、手机厂商、系统、APP间的生态话语权战,AutoGLM的开源可以大幅解决玩家由于商业战争导致的AI手机卡点,大幅降低AI手机技术门槛,推动AI手机生态从封闭走向开放共创。AI手机后期产品有望从手机厂商、系统、APP三者间共同加速尝试走向放量。
谈及AutoGLM定位,刘潇告诉《科创板日报》记者,AutoGLM在开发阶段定位为通用多模态理解与操作模型,因此暂未与第三方应用开展深度对接,核心精力集中于技术模型的迭代优化。
刘潇认为,手机的发展为移动互联网注入了Agent自主执行带来的新增流量,其凭借对用户上下文的深度理解,能在更多场景中挖掘App使用新机会,但新生态与协同关系的构建,仍需依托AI手机普及及与各App生态的深度磨合,尚需时日。
Agent发展中,可控性与隐私保护是首要前提,需在算法及技术工程开发初期,融入敏感操作防控与安全栅栏设计;其大规模成熟还依赖行业共识凝聚及国家层面的政策规范引导。
当前Agent落地仍面临两大核心挑战:一是模型能力不足,难以稳定完成数十分钟至数小时的长链路任务,需算法与模型企业持续突破;二是工程应用层需完善AI手机操作系统、硬件适配及Agent身份认证体系,推动行业协同实现生态共赢。
刘潇进一步表示,希望AutoGLM能够使得穿戴式设备,从玩具到可用的改变。以前的穿戴式设备受制于交互方式的限制,几乎难以替代手机的任何功能,而现在通过AutoGLM,几乎绝大多数简单的任务都能轻松完成。“相信 AI 手机和更多原生 AI 硬件会大量涌现,相信安卓生态本身会面对这一诉求发生新的进化和改变。”
张有鱼判断,未来的AI手机市场不会只有一个“豆包”。更可能出现的格局是:手机巨头们拥有自研助手,二三线品牌和新兴设备商采用AutoGLM等开源方案快速跟进,形成多层次、多形态的竞争局面。在这场混战中,智谱通过开源AutoGLM,已经为自己赢得了扮演关键“赋能者”角色的入场券。它或许无法独占入口,但极有可能成为塑造整个入口生态的重要基石之一。
这场关于“灵魂”的争夺,才刚刚开始。