豆包助手在争议中出圈，业内人士称有系统级权限不等于高风险

南都N视频APP · AI前哨站

原创2025-12-15 18:13

撞上多家国民级APP的“风控墙”后，豆包助手于12月10日在用户飞书群发布最新消息：阿里系的部分应用陆续解除对设备登录的限制，对等的条件是，豆包助手关闭了对阿里系相关APP的操作能力。

12月1日，由字节跳动与中兴合作打造的豆包手机（努比亚M153）对外销售。手机中内置的豆包助手仿佛拥有了人类的大脑、眼睛和手脚，能听懂人类的指令、看懂屏幕上的信息，再自动点击操作完成任务。虽然仅是小批量发售的“工程样机”，但豆包手机迅速拉动中兴通讯等A股概念股走强。

然而，从发售第二天开始，微信、淘宝、支付宝、美团等诸多国民级APP相继把豆包助手“拉黑”，这款AI智能体无法操作相应APP。对此，豆包助手官方于12月5日对外表示，限制豆包助手刷激励、调用金融类应用等能力，并正积极寻求与各应用厂商的深度沟通，避免用一刀切的方式否定用户合理使用AI的权利。

豆包助手不仅在APP厂商中“一石激起千层浪”，还引发了公众关于隐私安全的激烈讨论：AI智能体读取手机屏幕，像人类一样帮用户点外卖、回消息等等，看似解放了人类双手，但会不会让自己的隐私被暴露而得不偿失？

针对上述问题，12月10日，一位购买豆包手机助手工程机的业内技术人士向南都记者分析，字节跳动此次发售“工程样机”堪称是一次“打样”：不仅可以带动用户对产品的反馈，更重要的是推动行业层面的合作，“这是去跟手机厂商做进一步合作最好的敲门砖”。

面对外界的安全风险担忧，该业内人士谈到，有网友把豆包助手调用的系统级高危敏感权限直接等同于高风险，这是一个很大的误区。他还就手机助手与APP厂商竞争博弈的话题表示，尽管外界担忧手机助手带来流量入口的转移，但豆包手机发售量非常有限，目前对行业的流量格局谈不上任何实质影响。

以下是南都记者（Q）与该业内人士（A）的对话。为方便阅读，做了不改变原意的编辑：

“像人一样去操作手机，才能满足人的所有需求”

Q：豆包助手并非市场上第一款能自主操作APP的手机AI智能体，为什么之前几款AI手机助手的发布，没有引发这么大的热议？

A：如果手机助手只能通过语音交互和语义理解，做一些简单的操作，大家可能并不那么见怪。只有当手机助手真正让你感觉到像是一位“秘书”，可以帮你做各种各样的事情的时候，才能给用户带来使用体验上的跨代际改变。

Q：从你个人使用来看，具体来说，豆包助手能做哪些别家做不了的事情？

A：豆包助手就像我的一个“秘书”一样，既是生活秘书又是工作秘书。比如，我经常会让它给我总结飞书群的消息，或者到雪球论坛、同花顺、东方财富等炒股平台总结热门帖子，并生成投资报告。豆包助手可以操作50步以上的复杂任务。我这些天用下来，它的成功率可能达到80%左右——不一定是一个准确的数，只是自己的感觉。

Q：此前包括智谱AutoGLM第一代版本等手机助手，使用无障碍权限来实现屏幕读取和模拟点击。豆包助手和依靠无障碍权限的AI助手，具体有何不同？

A：最核心的一点在于，使用无障碍权限的手机助手只能在手机前台运行。所有APP都能申请这一权限，不需要与手机厂商合作，但使用该权限会严重影响使用体验——一旦AI助手开始操作手机，用户自己就完全无法使用设备，只能看着它操作。这对用户使用手机是很大的打扰。既然如此，那为什么我们不自己操作呢？而且现在AI助手操作很多任务的效率是比不上人类的。看到它操作你可能会很着急，想上手帮它一把。

但豆包助手能在后台运行，也可以点开看到AI的操作过程。其原理可以理解为，通过手机系统框架创建出一个虚拟屏，也可以理解为是一套“影子系统”。所有任务执行都发生在这个虚拟屏幕之上。

另外，向系统权限发出操作指令，比通过无障碍权限去读屏和模拟点击肯定是要更流畅的。

Q：豆包助手在《应用权限申请与使用情况说明》文档中披露，使用了操作系统级的INJECT_EVENTS（事件注入）权限，来实现操作点击。就你个人观察，这是豆包选择和手机厂商合作的主要目的之一吗？

A：具体情况不了解，不过只有基于合作，豆包助手才能够获得和其他原生手机助手厂商一样的系统权限，才有可能做更多体验。其实大概从十多年前开始，智能手机的AI助手就有使用INJECT_EVENTS权限，但很多厂商都没有对外公开披露。

豆包助手在《应用权限申请与使用情况说明》文档中披露，使用了操作系统级的INJECT_EVENTS（事件注入）权限，来实现操作点击。

Q：豆包助手和其他手机厂商的助手都调用INJECT_EVENTS权限，但产品体验上差异明显，原因是什么？

A：并不是说用了这个权限，就能够在手机上操作各种复杂任务。

之前的手机助手大部分是“剧本式”的。举例来说，当用户需要通过微信发红包，或者在美团点一份外卖时，它已经预先设定了每一步的操作流程，然后再调用INJECT_EVENTS权限去执行操作。结果就是，可用的场景数量非常有限。虽然有些厂商声称能支持几十或更多场景，但也是逐一编写固定脚本、逐一适配的结果。这样的手机助手缺乏真正的泛化能力，智力的天花板很明显，没办法去做复杂的推理规划。

豆包助手自主操作任务背后，依靠模型对屏幕视觉的理解、对屏幕元素的定位、推理执行等方面的能力。作为用户，可以感受到模型能力相比以往的手机助手有了显著的提高。它能比传统手机助手执行更长链路、更多步骤的任务。

Q：市面上还有API接口方案，这些技术路线的可行性如何？

A：API接口等方案也是比较好的实现方式。但是现阶段要想通过API接口去调用第三方APP会面临两大问题：一方面，提供了这些API接口的APP非常有限，需要挨家挨户去谈；另一方面，APP通过API接口愿意开放的能力也非常有限。这很难满足非常泛化和长尾的需求。只有像人一样去操作手机，才能够满足人的所有需求。

“高危敏感权限不等于高风险”

Q：豆包助手使用的INJECT_EVENTS属于系统级的高危敏感权限，引发外界对安全风险的担忧。作为业内人士，你是如何判断其风险程度的？

A：如果把高危敏感权限直接等同于高风险，这是一个很大的误区。正如前面所说，INJECT_EVENTS权限已被多家手机厂商的AI助手使用。系统之所以提供这一权限，正是因为它能够为用户提供丰富的能力，是有价值的。如果它只有危险，那为什么系统里要提供这个权限呢？

INJECT_EVENTS权限的风险取决于是什么应用来使用它。如果一款恶意软件获取了该权限，确实会带来很大风险。但如果是正规厂商，其初衷是为用户提供更好的服务，并且作为合法运营的商业公司，他们拥有这一权限通常不会用于恶意行为。

Q：有观点担心，比如黑客利用这一高权限，会不会劫持手机助手去作恶。

A：这有些离谱。既然黑客能获取到这个权限，为什么不直接用它去模拟点击，偷偷摸摸到银行App转账，而是非要通过AI助手下达指令？一旦经过AI助手，偷偷转账的操作就暴露了。因为手机助手转账一定会通知你，而且支付确认一定要你手动操作。

Q：还有网友担心，豆包助手会不会全天候“监控”用户。

A：我也注意到了这种声音，但如果真的全天候持续监控，手机电量消耗会非常大，同时运营成本也会显著增加：模型的每一步推理，都需要消耗计算资源。

还有声音担忧，豆包助手可能被用于黑灰产或制作外挂。比如，让豆包助手群发1万条消息去诈骗，这其实是由上万个步骤组成的复杂流程，豆包手机助手的任务长度是有限制的，如果实际测试的话，也可以看到恶意的任务会被豆包助手拒绝，肯定有相应的安全机制。

Q：豆包助手的智能程度、跨APP的操作，也引发了用户对个人隐私的担忧。豆包助手在帮用户丝滑完成一项任务的时候，是不是就对用户的个人信息“看在眼里，记在心里”？

A：豆包手机助手的《隐私安全白皮书》披露了本地设备端和云端协同的数据处理方案。端侧处理可以用手机的全局记忆功能举例来说：手机的全局记忆功能默认是关闭的，当我开启之后，就可以让豆包助手记住我的偏好——比如“我喝咖啡时喜欢冰美式不加糖”。下次当我说出“豆包，帮我点杯咖啡”，它就能根据记忆自动选择对应的选项。这些记忆信息均存储在设备端侧。

豆包手机的全局记忆功能。

但给豆包助手布置一个任务后，它需要进行任务规划和推理。任务执行过程中，每一步对屏幕视觉信息的理解，都需要上传到云端进行处理。因为手机本地的算力有限，目前还无法支持这样的复杂推理。根据豆包助手的官方声明，所有屏幕内容和操作过程都不会在服务器端存储，也不会用于模型训练。

Q：近期一段传播甚广的银行App测试视频显示，一台豆包手机上识别的余额信息，会显示在另一台设备的豆包账号中。这是因为读屏的内容会存储在云端的缘故吗？但豆包助手公众号此前发文称，手机助手读取屏幕和操作过程都不会在服务器端留下存储。对此如何理解？

A：模型进行推理时，虽然相关数据会传输到云端并由大模型处理，相当于只是在内存中处理，而并不会存储在硬盘上。后续新任务的数据会不断覆盖之前的内容。

识别银行卡余额那段视频是一个很好的例子，说明屏幕的图像信息并没有被存储。云端存储的是你与豆包的聊天记录，即输入的问题和输出的结果。比如银行卡8万余额这一识别处理后的结果，你在不同设备登录同一豆包账号都能看到，就好像微信聊天记录可以在不同的设备同步一样。但模型处理过程涉及的屏幕原始图像，并没有被保存同步在其他设备上。

Q：网友也关注，用户除了潜在的隐私焦虑，还担心豆包助手是否会完全遵从用户的指令，既不曲解用户真实意愿，也不会“夹带私货”？

A：一定需要靠技术手段来保障。在操作手机时，整个过程需要是可见且可控的：比如手机助手如何拆解你的任务、规划了哪些子步骤，你都能清晰看到，整个过程中不会“夹带私货”。举个例子，如果任务是“去购物网站比价”，豆包助手的推理逻辑中不会内置“必须引导用户到抖音商城购买”这样的规则。

此外，虽然任务主要在后台运行，但你完全可以随时切换到前台监督执行情况，也可以人工接管操作。这种机制有助于建立信任。

这项技术太新了，它不是人们习以为常的一个产品形态。人们对新事物往往需要时间适应和信任，就像如今大家已经习惯使用电子钱包，放心地把钱放在里面。但回到十多年前这一功能刚上线时，有多少人敢轻易尝试呢？

Q：未来提升手机端侧算力，让AI助手完全端侧处理任务，具有可行性吗？

A：现在手机端算力还不足以运行很强的模型。未来随着模型能力不断提升，端侧模型有可能会达到可用的程度。

Q：我们也看到，一些声音外界对AI智能体抱有一定的疑虑，根植于对国内互联网企业固有的不信任感。如何才能提升公众对智能体产品的信任感？

A：不同人有不同的倾向。有的人谨慎，有的人很快就愿意接受。这都是正常现象。我无法准确预测市场接受度会如何发展，但确信这一技术趋势是明确的：AI将越来越深入地渗透到日常生活中，并且人与AI的交互也会变得更加方便。

是否应获得第三方APP授权仍存争议

Q：豆包手机发售第二天，就接连撞上其他APP的“风控墙”，多个国民级APP都无法正常调用。你怎么看？

A：APP厂商的反应这么强烈，有点出乎我的意料。我刚开始试用豆包手机时一直正常，但在“工程样机”豆包手机正式发布仅仅一天后，一些APP账号就无法正常登录，触发了风控措施。事实上，我从未用豆包助手操作过一些APP。这是因为豆包助手本身的操作行为被风控吗？我认为很可能是一些应用厂商调整了风控策略，将手机设备整体纳入风控范围。

Q：多个拒绝被豆包助手调用的APP都是“国民级”的，如果这些常用APP都没法被AI调用，那豆包助手的所剩价值还有多少？

A：一个应用商店有百万数量级的APP，AI可做的事情实在是太多了。并不是说微信不让操作，支付宝不让操作，手机的AI能力就没用了。如果头部应用不支持，这项功能就失去价值的话，那产品本身就没有价值。实际上，AI助手的价值恰恰在于它覆盖非常长尾的、泛化的需求。

未来有可能会出现这样的局面：一些应用厂商选择继续保持封闭，而另一些则会更开放地拥抱这项技术。往往那些拥抱变化、姿态更开放的APP厂商，其产品反而获得更多被用户使用的可能性。当然，目前还只是“工程样机”阶段，实际发售量也非常有限。因此，它对行业流量格局还谈不上任何实质影响。现阶段谈AI入口话题为时尚早。豆包手机这次发售，主要面向行业人士和极客。

Q：针对标准制定，目前业内对是否要求“双重授权”争议颇大，也就是AI手机助手除了获取用户授权，还需不需要第三方APP的授权？

A：这确实是存在争议的。

一种观点是，数据应该是属于用户的，用户有权去处理数据。AI只不过是将用户处理自己数据的行为自动化了。比如，用户人工把微信聊天记录导出来，输入给ChatGPT去做总结，这需要微信的授权吗？AI助手介入后，是将“导出聊天记录”的过程自动化了。但它仍是按照我的意愿执行的。另一种观点是说，需要第三方APP厂商的授权，经过APP厂商的许可，AI助手才能够按照用户的意愿去完成操作。

但目前，还没有具有强制法律效力的监管规则，法律法规层面并没有禁止AI助手去执行这种任务。

Q：既然如此，怎样理解包括抖音在内的不少多款APP都以平台协议的形式约定，用户不得使用任何自动化程序，获取APP服务及收集或处理其中的信息？

A：这样的条款是针对以前爬虫形式的自动化软件。它背后的主体往往不是普通用户，而可能是非法团伙、黑灰产组织，甚至是恶意软件公司。它们的目的在于抓取你的数据，并不代表手机用户的真实意愿。

但AI助手不同，它实际上是把用户的意愿做了自动化的处理。不过，针对AI替用户去刷激励这种特殊使用场景，豆包助手官方后来也公开表示也做出了限制，这是考虑到APP设计激励机制的初衷是鼓励真人的互动。

采写：南都N视频记者杨柳

编辑：黄莉玲

更多报道请看专题：当AI接管手机

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者