字节跳动旗下AI大模型“豆包”12月1日宣布上线手机助手并与中兴通讯合作推出“豆包手机”——努比亚M153,作为一款拥有系统级权限的手机助手,它能像人类一样操作智能手机,试图重塑人机交互逻辑,这款在AI时代颇具突破性的产品很快成为了舆论焦点。

豆包手机助手官网页面
不过,对于AI手机助手的安全性也随之迅速引发外界讨论。
近日,有报道称,由于担忧网络安全、数据安全以及潜在的竞争问题,监管机构已经约谈字节跳动相关负责人。12月13日,对于上述报道,知情人士向记者回应称,该消息不实。字节跳动多次发布公开声明,对于豆包手机助手的安全性作出解释。
12月13日晚,豆包手机助手发布技术说明:近期有网友发布视频称,“豆包手机助手通过READ_FRAME_BUFFER权限,从GPU渲染的图形缓冲区拿走图像数据,不需要走上层的截图API。还用了CAPTURE_SECURE_VIDEO_OUTPUT权限,可以获取银行安全键盘等受保护的界面内容”。
豆包手机助手表示,这是对豆包手机助手技术实现方式的错误解读。豆包手机助手采用的是原生截屏接口(WindowManagerService.captureDisplay),严格遵循应用声明的Secure标记,无法截屏银行安全键盘等声明受保护的界面内容。需要强调的是,豆包手机助手仅在有用户指令时才会开始截屏,且无法截屏三方应用Secure标记页面。

此外,豆包披露了运行原理:用户下达指令后,系统截屏上传至云端大模型分析(每步间隔约3秒),完成后执行操作。官方强调,截屏仅用于视觉理解和推理,任务完成后不会在云端存储。受限于芯片性能,目前国内多家手机厂商的AI助手产品均采用类似的云端处理原理及系统权限。
这种“截图上云”的模式,其实解答了外界对于AI如何“看懂”手机的疑惑。简单来说,就是把手机屏幕画面像发图片一样,每隔几秒传给云端的超级大脑,让大脑看懂后再指挥手机怎么点。
豆包在说明中坦言,受限于现在的手机芯片性能,还没法直接在手机本地跑通这么复杂的流程,所以这种由“远程大脑”代驾的模式,不仅是他们一家在用,也是目前行业里的通用做法。
至于外界最担心的“银行密码会不会被AI偷看”,这里涉及安卓系统底层的“红线”——Secure(安全)协议。虽然豆包为了实现自动操作,确实申请了较高的系统权限,但这并不意味着它能突破系统的底层防护。按照安卓的规则,只要银行或支付App开启了防截屏保护,AI截取到的画面就是一片漆黑,根本看不见键盘和密码。那些被质疑的特殊权限,实际上是为了让用户自己能看到画面并进行操作,而不是给AI开后门。
12月初,“多家App对豆包手机禁用”还曾登上热搜,微信、淘宝、支付宝以及多家银行App出现了对豆包手机的限制或禁用。

12月5日,豆包手机助手发布《关于调整AI操作手机能力的说明》,称计划在接下来的一段时间,在部分场景,对AI操作手机的能力做一些规范化调整。还强调,将积极与各方沟通,希望推动形成更加清晰、可预期的规则,避免用一刀切的方式否定用户合理使用AI的权利。
相关调整主要涉及三类场景:一是限制在各类App中用于刷分、刷激励的自动操作能力,以尊重厂商鼓励“真实用户主动交互”的初衷;二是进一步限制银行、互联网支付等金融类应用的代操作能力;三是对涉及竞技排名的部分游戏场景暂停开放AI使用,维护公平性。