2025年是当之无愧的Agent元年。
从Manus爆火,到各家终端厂商开始推出并迭代端侧AI助手,不难发现,厂商也意识到了这背后的机会。
与曾经的大语言模型不同,AI Agent能做的比聊天更多。
只需要一句自然语言指令,手机就能自动完成点外卖、发红包等曾经需要多步点击的任务。
大部分AI Agent能够代管手机,是使用了安卓系统里特殊的无障碍权限。这个本来是设计给视障人士的功能,能够让手机看到屏幕上的一切,同时,还可以代替用户执行点击、滑动等操作。如今,厂商选择用这个权限来实现AI功能。
但当下,这份便利的背后实际隐藏着风险。在无障碍权限开放的背景下,AI应用基本“全知全能”,应用或许能够读取到包括支付密码、聊天记录在内的敏感信息,也可能可以随意点击。
一个可见的事实是,随着AI Agent技术不断迭代,人类只会越来越习惯被硅基助手们包围的日常。
因此,当下更应该搞清楚AI Agent背后的运行机制,以及未来业界应该选择走向何方,以求在“效率”和“安全”之间找到平衡。
AI Agent的“翻墙”困境
手机端侧大模型已然成为AI时代下争夺新一代流量入口的关键机遇。 Counterpoint预测, 2027年全球AI手机渗透率约40%,出货量有望达5.22亿部。
2024年6月,美国苹果公司发布端侧大模型Apple Intelligence,将其新Siri定位为手机智能助手。国产手机厂商纷纷跟进,推出了小米MiLM、vivo蓝心大模型、OPPO安第斯、荣耀魔方等端侧大模型。
就连AI厂商也开始试水端侧业务,如OpenAI基于GPT大模型推出智能体Operator,智谱也推出手机智能体AutoGLM。
尽管参与者众,攻下这个“兵家必争之地”并非没有难点。从人操纵手机,到AI操纵手机,最核心的问题是如何跨过App间的区隔。
在接受《IT时报》记者采访时,安全团队网络尖刀创始人曲子龙提到,各种App之间为了防止互相读取数据,一般会设置隔离系统,只有接入对应的API(应用程序编程接口)才能调用。
因此,要想实现代替人来操作,AI Agent的第一步,就是要学会“翻墙”。
“目前行业内主要存在两种技术路径。”一位在头部AI公司从事相关工作的技术人员向时代财经介绍,一种是接口模式,手机厂商和应用厂商达成协议,签订意图框架,互通接口来实现操作;另一种,非接口的纯视觉方案,直接调用手机的无障碍权限等系统级权限,不需要经过第三方App允许,就可以实现操作。
对于厂商来说,选择技术路径,有几个痛点需要考虑:一是AI Agent效果如何;二是开发AI功能对企业的效益;三则是用户的数据安全及隐私问题。
前述技术人员告诉时代财经,接口方案避免了直接扫描用户屏幕,足够安全。但一个显著特点是,它太过依赖生态。各厂商都有自己的标准,导致App开发者需要针对不同手机品牌分别做适配,开发成本很高。
调用无障碍权限问题也不少:用户操作慢、准确率不高,同时由于需要实时获取屏幕信息,涉及较多隐私,存在一定的安全风险。“但最大的特点就是开发快、通用性强,不受APP限制。”
但或许是为了加速、低成本地抢占这一庞大市场,大部分端侧AI工具的厂商选择用无障碍权限这一现存的功能模块来实现AI Agent的功能。
“用户跨APP的数据使用,需要得到双重授权,但无障碍权限一旦被开放,就跨过了第三方APP授权的环节。”前述技术人员则向时代财经表示,这样用户数据如果被滥用,很可能将无法追责。
中国社会科学院法学研究所副研究员唐林垚曾提到,实践中,端侧大模型部署环境下存在隐私保护的三大缺陷:知情同意流于形式、多方主体责任划分不清以及用户权利难以实现。
今年,关于无障碍权限与智能体应用如何结合,在行业层面已经推出多项规则。但时代财经注意到,这些规则并非强制,企业采纳与否凭自愿。
权限滥用或成黑灰产温床
开放权限,本来是一件相当审慎的事。
但是随着应用形态越来越多变,功能实现的路径越发复杂,用户对自己的个人信息交付更加无感。
在北京理工大学智能科技法律研究中心王磊研究员看来,尽管有的软件已设置弹窗提示,但在实际使用中,相关提示常被用户忽视或默认接受,导致合规保障机制作用有限。“目前,有部分AI应用运行中对于相关权利人是否知情和授权,没有互动授权机制。”王磊表示。
而屏幕信息被读取,已经对个人财产安全带来极大损失。
新华社在7月报道的一起诈骗案件显示,无障碍权限读屏成非法软件诈骗后门。在报道中,诈骗软件通过“屏幕共享”功能看到事主在手机上的所有操作,甚至看到事主输入的银行卡账号、密码、验证码等,通过“远程控制”甚至能够直接操控事主的手机,最终完成转账诈骗。
而目前,已经有诈骗犯利用用户对AI功能的需求,要求用户向其开放无障碍权限。
2月DeepSeek刚刚爆火时,湖州警方就公布了一起诱导用户授权无障碍服务权限行骗的案件,诈骗分子仿冒DeepSeek官方提示用户“需要应用程序更新”,并在安装所谓“新版DeepSeek”的过程中诱导用户授予其后台运行和使用无障碍服务的权限。
部分AI应用在读屏的时候的确会不加分辨地读取所有屏幕上的信息。
此前,某社交媒体就有用户表示,在使用AI屏幕共享功能辅导孩子写作时,发现经AI润色的作文中竟包含其所在小区的信息。该名用户表示,经排查发现,是AI读取屏幕信息后,并未区分信息的敏感程度,而是全盘读取,进而将其群名称中的信息直接引用到了作文中。
IDC咨询分析称,2025年,AI Agent将迎来规模化落地浪潮,其通过智能化任务处理重构标准化作业流程的潜力备受期待。
市场研究机构Markets and Market预测,AI Agent市场规模将从2024年的51亿美元飙升到2030年的471亿美元,复合年增长率高达44.8%。
随着市场越来越大,安全,已经成为当前AI Agent用户难以忽视的诉求。
对外经贸大学、中国人民大学、蚂蚁集团联合发布的《算法与AI大模型的用户认知调研报告(2024)》显示,超半数的受访者遇到了数据隐私和安全问题,60.09%的受访者认为AI可能会不受控制地收集和处理个人信息。
“现在行业还在摸索阶段,没有完美方案,但我认为接口方向无疑是更可持续的选择。”前述技术人员坦言。
如何拒绝被监视?
面对逐渐扩大的市场和逐渐显形的风险,业界和监管侧应该怎么做?
王磊认为,对于AI风险,事前防范是目前最需要业界关注的焦点。
“厂商需要提高对用户隐私风险的防范意识。”前述技术人员向时代财经提到,苹果推出Apple Intelligence时,特别强调了隐私保护,甚至专门开发了“隐私云计算系统”。
当服务要推向市场时,也可以先采取小范围的测试,以保证功能足够合规、安全。“OpenAI和Anthropic的智能体如果要用截屏功能,也会限定在浏览器或沙盒环境中,不会一开始就大规模推广。”前述技术人员介绍。
在王磊看来,具体而言,企业必须明确界定实现特定功能所必需采集的最小屏幕区域和数据范围。在技术上实现动态、精准的数据收集,避免“全景敞视”式的过度采集。
其次,需建立针对屏幕数据采集的专项数据质量管理规范,明确在采集、传输、存储、处理等环节对数据完整性、准确性和安全性的具体要求。
“没有人比企业更了解功能是如何实现的,同时,企业也是AI Agent接触外界的第一个环节。因此,企业内部应该优先做好自查。”王磊表示。
今年4月,中国软件行业协会发布《移动互联网服务可访问性安全要求》,要求智能体只有在获得用户明确授权后,方可启用无障碍服务。
5月,中国信通院联合荣耀、OPPO、vivo、小米、华为、理想、快手等公司提出《关于共建终端智能体生态的倡议》,开展打通终端智能体与第三方应用、智能硬件其他智能体交互接口等工作。
不过,这些并非强制性约束,是否采用相关标准的选择权在企业。
“对于监管侧,AI产品屏幕共享涉及海量个人信息和潜在商业秘密,对其监管涉及网信、工信、公安、市场监管等多个部门,但各类主体职能较为分散,容易出现监管盲区和重复监管的情况。”王磊建议,监管侧可采取敏捷性治理思路,如发布专项合规指引指导产业实践,快速响应技术迭代带来的潜在新型风险,在保障用户权益与促进创新间寻求动态平衡。