撞上多家国民级APP的“风控墙”后,豆包助手于12月10日在用户飞书群发布最新消息:阿里系的部分应用陆续解除对设备登录的限制,对等的条件是,豆包助手关闭了对阿里系相关APP的操作能力。
12月1日,由字节跳动与中兴合作打造的豆包手机(努比亚M153)对外销售。手机中内置的豆包助手仿佛拥有了人类的大脑、眼睛和手脚,能听懂人类的指令、看懂屏幕上的信息,再自动点击操作完成任务。虽然仅是小批量发售的“工程样机”,但豆包手机迅速拉动中兴通讯等A股概念股走强。
然而,从发售第二天开始,微信、淘宝、支付宝、美团等诸多国民级APP相继把豆包助手“拉黑”,这款AI智能体无法操作相应APP。对此,豆包助手官方于12月5日对外表示,限制豆包助手刷激励、调用金融类应用等能力,并正积极寻求与各应用厂商的深度沟通,避免用一刀切的方式否定用户合理使用AI的权利。
豆包助手不仅在APP厂商中“一石激起千层浪”,还引发了公众关于隐私安全的激烈讨论:AI智能体读取手机屏幕,像人类一样帮用户点外卖、回消息等等,看似解放了人类双手,但会不会让自己的隐私被暴露而得不偿失?
针对上述问题,12月10日,一位购买豆包手机助手工程机的业内技术人士向南都记者分析,字节跳动此次发售“工程样机”堪称是一次“打样”:不仅可以带动用户对产品的反馈,更重要的是推动行业层面的合作,“这是去跟手机厂商做进一步合作最好的敲门砖”。
面对外界的安全风险担忧,该业内人士谈到,有网友把豆包助手调用的系统级高危敏感权限直接等同于高风险,这是一个很大的误区。他还就手机助手与APP厂商竞争博弈的话题表示,尽管外界担忧手机助手带来流量入口的转移,但豆包手机发售量非常有限,目前对行业的流量格局谈不上任何实质影响。
以下是南都记者(Q)与该业内人士(A)的对话。为方便阅读,做了不改变原意的编辑:
“像人一样去操作手机,才能满足人的所有需求”
Q:豆包助手并非市场上第一款能自主操作APP的手机AI智能体,为什么之前几款AI手机助手的发布,没有引发这么大的热议?
A:如果手机助手只能通过语音交互和语义理解,做一些简单的操作,大家可能并不那么见怪。只有当手机助手真正让你感觉到像是一位“秘书”,可以帮你做各种各样的事情的时候,才能给用户带来使用体验上的跨代际改变。
Q:从你个人使用来看,具体来说,豆包助手能做哪些别家做不了的事情?
A:豆包助手就像我的一个“秘书”一样,既是生活秘书又是工作秘书。比如,我经常会让它给我总结飞书群的消息,或者到雪球论坛、同花顺、东方财富等炒股平台总结热门帖子,并生成投资报告。豆包助手可以操作50步以上的复杂任务。我这些天用下来,它的成功率可能达到80%左右——不一定是一个准确的数,只是自己的感觉。
Q:此前包括智谱AutoGLM第一代版本等手机助手,使用无障碍权限来实现屏幕读取和模拟点击。豆包助手和依靠无障碍权限的AI助手,具体有何不同?
A:最核心的一点在于,使用无障碍权限的手机助手只能在手机前台运行。所有APP都能申请这一权限,不需要与手机厂商合作,但使用该权限会严重影响使用体验——一旦AI助手开始操作手机,用户自己就完全无法使用设备,只能看着它操作。这对用户使用手机是很大的打扰。既然如此,那为什么我们不自己操作呢?而且现在AI助手操作很多任务的效率是比不上人类的。看到它操作你可能会很着急,想上手帮它一把。
但豆包助手能在后台运行,也可以点开看到AI的操作过程。其原理可以理解为,通过手机系统框架创建出一个虚拟屏,也可以理解为是一套“影子系统”。所有任务执行都发生在这个虚拟屏幕之上。
另外,向系统权限发出操作指令,比通过无障碍权限去读屏和模拟点击肯定是要更流畅的。
Q:豆包助手在《应用权限申请与使用情况说明》文档中披露,使用了操作系统级的INJECT_EVENTS(事件注入)权限,来实现操作点击。就你个人观察,这是豆包选择和手机厂商合作的主要目的之一吗?
A:具体情况不了解,不过只有基于合作,豆包助手才能够获得和其他原生手机助手厂商一样的系统权限,才有可能做更多体验。其实大概从十多年前开始,智能手机的AI助手就有使用INJECT_EVENTS权限,但很多厂商都没有对外公开披露。
豆包助手在《应用权限申请与使用情况说明》文档中披露,使用了操作系统级的INJECT_EVENTS(事件注入)权限,来实现操作点击。
Q:豆包助手和其他手机厂商的助手都调用INJECT_EVENTS权限,但产品体验上差异明显,原因是什么?
A:并不是说用了这个权限,就能够在手机上操作各种复杂任务。
之前的手机助手大部分是“剧本式”的。举例来说,当用户需要通过微信发红包,或者在美团点一份外卖时,它已经预先设定了每一步的操作流程,然后再调用INJECT_EVENTS权限去执行操作。结果就是,可用的场景数量非常有限。虽然有些厂商声称能支持几十或更多场景,但也是逐一编写固定脚本、逐一适配的结果。这样的手机助手缺乏真正的泛化能力,智力的天花板很明显,没办法去做复杂的推理规划。
豆包助手自主操作任务背后,依靠模型对屏幕视觉的理解、对屏幕元素的定位、推理执行等方面的能力。作为用户,可以感受到模型能力相比以往的手机助手有了显著的提高。它能比传统手机助手执行更长链路、更多步骤的任务。
Q:市面上还有API接口方案,这些技术路线的可行性如何?
A:API接口等方案也是比较好的实现方式。但是现阶段要想通过API接口去调用第三方APP会面临两大问题:一方面,提供了这些API接口的APP非常有限,需要挨家挨户去谈;另一方面,APP通过API接口愿意开放的能力也非常有限。这很难满足非常泛化和长尾的需求。只有像人一样去操作手机,才能够满足人的所有需求。
“高危敏感权限不等于高风险”
Q:豆包助手使用的INJECT_EVENTS属于系统级的高危敏感权限,引发外界对安全风险的担忧。作为业内人士,你是如何判断其风险程度的?
A:如果把高危敏感权限直接等同于高风险,这是一个很大的误区。正如前面所说,INJECT_EVENTS权限已被多家手机厂商的AI助手使用。系统之所以提供这一权限,正是因为它能够为用户提供丰富的能力,是有价值的。如果它只有危险,那为什么系统里要提供这个权限呢?
INJECT_EVENTS权限的风险取决于是什么应用来使用它。如果一款恶意软件获取了该权限,确实会带来很大风险。但如果是正规厂商,其初衷是为用户提供更好的服务,并且作为合法运营的商业公司,他们拥有这一权限通常不会用于恶意行为。
Q:有观点担心,比如黑客利用这一高权限,会不会劫持手机助手去作恶。
A:这有些离谱。既然黑客能获取到这个权限,为什么不直接用它去模拟点击,偷偷摸摸到银行App转账,而是非要通过AI助手下达指令?一旦经过AI助手,偷偷转账的操作就暴露了。因为手机助手转账一定会通知你,而且支付确认一定要你手动操作。
Q:还有网友担心,豆包助手会不会全天候“监控”用户。
A:我也注意到了这种声音,但如果真的全天候持续监控,手机电量消耗会非常大,同时运营成本也会显著增加:模型的每一步推理,都需要消耗计算资源。
还有声音担忧,豆包助手可能被用于黑灰产或制作外挂。比如,让豆包助手群发1万条消息去诈骗,这其实是由上万个步骤组成的复杂流程,豆包手机助手的任务长度是有限制的,如果实际测试的话,也可以看到恶意的任务会被豆包助手拒绝,肯定有相应的安全机制。
Q:豆包助手的智能程度、跨APP的操作,也引发了用户对个人隐私的担忧。豆包助手在帮用户丝滑完成一项任务的时候,是不是就对用户的个人信息“看在眼里,记在心里”?
A:豆包手机助手的《隐私安全白皮书》披露了本地设备端和云端协同的数据处理方案。端侧处理可以用手机的全局记忆功能举例来说:手机的全局记忆功能默认是关闭的,当我开启之后,就可以让豆包助手记住我的偏好——比如“我喝咖啡时喜欢冰美式不加糖”。下次当我说出“豆包,帮我点杯咖啡”,它就能根据记忆自动选择对应的选项。这些记忆信息均存储在设备端侧。
豆包手机的全局记忆功能。
但给豆包助手布置一个任务后,它需要进行任务规划和推理。任务执行过程中,每一步对屏幕视觉信息的理解,都需要上传到云端进行处理。因为手机本地的算力有限,目前还无法支持这样的复杂推理。根据豆包助手的官方声明,所有屏幕内容和操作过程都不会在服务器端存储,也不会用于模型训练。
Q:近期一段传播甚广的银行App测试视频显示,一台豆包手机上识别的余额信息,会显示在另一台设备的豆包账号中。这是因为读屏的内容会存储在云端的缘故吗?但豆包助手公众号此前发文称,手机助手读取屏幕和操作过程都不会在服务器端留下存储。对此如何理解?
A:模型进行推理时,虽然相关数据会传输到云端并由大模型处理,相当于只是在内存中处理,而并不会存储在硬盘上。后续新任务的数据会不断覆盖之前的内容。
识别银行卡余额那段视频是一个很好的例子,说明屏幕的图像信息并没有被存储。云端存储的是你与豆包的聊天记录,即输入的问题和输出的结果。比如银行卡8万余额这一识别处理后的结果,你在不同设备登录同一豆包账号都能看到,就好像微信聊天记录可以在不同的设备同步一样。但模型处理过程涉及的屏幕原始图像,并没有被保存同步在其他设备上。
Q:网友也关注,用户除了潜在的隐私焦虑,还担心豆包助手是否会完全遵从用户的指令,既不曲解用户真实意愿,也不会“夹带私货”?
A:一定需要靠技术手段来保障。在操作手机时,整个过程需要是可见且可控的:比如手机助手如何拆解你的任务、规划了哪些子步骤,你都能清晰看到,整个过程中不会“夹带私货”。举个例子,如果任务是“去购物网站比价”,豆包助手的推理逻辑中不会内置“必须引导用户到抖音商城购买”这样的规则。
此外,虽然任务主要在后台运行,但你完全可以随时切换到前台监督执行情况,也可以人工接管操作。这种机制有助于建立信任。
这项技术太新了,它不是人们习以为常的一个产品形态。人们对新事物往往需要时间适应和信任,就像如今大家已经习惯使用电子钱包,放心地把钱放在里面。但回到十多年前这一功能刚上线时,有多少人敢轻易尝试呢?
Q:未来提升手机端侧算力,让AI助手完全端侧处理任务,具有可行性吗?
A:现在手机端算力还不足以运行很强的模型。未来随着模型能力不断提升,端侧模型有可能会达到可用的程度。
Q:我们也看到,一些声音外界对AI智能体抱有一定的疑虑,根植于对国内互联网企业固有的不信任感。如何才能提升公众对智能体产品的信任感?
A:不同人有不同的倾向。有的人谨慎,有的人很快就愿意接受。这都是正常现象。我无法准确预测市场接受度会如何发展,但确信这一技术趋势是明确的:AI将越来越深入地渗透到日常生活中,并且人与AI的交互也会变得更加方便。
是否应获得第三方APP授权仍存争议
Q:豆包手机发售第二天,就接连撞上其他APP的“风控墙”,多个国民级APP都无法正常调用。你怎么看?
A:APP厂商的反应这么强烈,有点出乎我的意料。 我刚开始试用豆包手机时一直正常,但在“工程样机”豆包手机正式发布仅仅一天后,一些APP账号就无法正常登录,触发了风控措施。事实上,我从未用豆包助手操作过一些APP。这是因为豆包助手本身的操作行为被风控吗?我认为很可能是一些应用厂商调整了风控策略,将手机设备整体纳入风控范围。
Q:多个拒绝被豆包助手调用的APP都是“国民级”的,如果这些常用APP都没法被AI调用,那豆包助手的所剩价值还有多少?
A:一个应用商店有百万数量级的APP,AI可做的事情实在是太多了。并不是说微信不让操作,支付宝不让操作,手机的AI能力就没用了。如果头部应用不支持,这项功能就失去价值的话,那产品本身就没有价值。实际上,AI助手的价值恰恰在于它覆盖非常长尾的、泛化的需求。
未来有可能会出现这样的局面:一些应用厂商选择继续保持封闭,而另一些则会更开放地拥抱这项技术。往往那些拥抱变化、姿态更开放的APP厂商,其产品反而获得更多被用户使用的可能性。当然,目前还只是“工程样机”阶段,实际发售量也非常有限。因此,它对行业流量格局还谈不上任何实质影响。现阶段谈AI入口话题为时尚早。豆包手机这次发售,主要面向行业人士和极客。
Q:针对标准制定,目前业内对是否要求“双重授权”争议颇大,也就是AI手机助手除了获取用户授权,还需不需要第三方APP的授权?
A:这确实是存在争议的。
一种观点是,数据应该是属于用户的,用户有权去处理数据。AI只不过是将用户处理自己数据的行为自动化了。比如,用户人工把微信聊天记录导出来,输入给ChatGPT去做总结,这需要微信的授权吗?AI助手介入后,是将“导出聊天记录”的过程自动化了。但它仍是按照我的意愿执行的。另一种观点是说,需要第三方APP厂商的授权,经过APP厂商的许可,AI助手才能够按照用户的意愿去完成操作。
但目前,还没有具有强制法律效力的监管规则,法律法规层面并没有禁止AI助手去执行这种任务。
Q:既然如此,怎样理解包括抖音在内的不少多款APP都以平台协议的形式约定,用户不得使用任何自动化程序,获取APP服务及收集或处理其中的信息?
A:这样的条款是针对以前爬虫形式的自动化软件。它背后的主体往往不是普通用户,而可能是非法团伙、黑灰产组织,甚至是恶意软件公司。它们的目的在于抓取你的数据,并不代表手机用户的真实意愿。
但AI助手不同,它实际上是把用户的意愿做了自动化的处理。不过,针对AI替用户去刷激励这种特殊使用场景,豆包助手官方后来也公开表示也做出了限制,这是考虑到APP设计激励机制的初衷是鼓励真人的互动。
采写:南都N视频记者 杨柳
编辑:黄莉玲
更多报道请看专题:当AI接管手机