AI智能体陷技术路线之争，该不该只有一个标准答案？

南都N视频APP · AI前哨站

原创2026-03-12 10:59

两会期间，AI智能体成为热议话题。随着技术发展，AI代劳干活的场景已在手机端逐渐落地，诞生了豆包手机助手和阿里千问等社会认知度高的AI助手。2026年全国两会期间，是否需要在两条技术路线之间“二选一”的话题，进入代表委员的视野。

豆包手机助手采用GUI（图形界面识别）路线，通过读取手机屏幕，再模拟人类点击操作App界面，完成用户下达的指令。与之并存的另一条智能体路线，则通过API（应用程序编程接口）来打通所调用App的服务。

两会期间，部分政协委员站在安全性的视角表达顾虑，也有一些代表委员则呼吁鼓励包括GUI在内的多元技术路线探索。

AI助手的技术路线争议并非最近才出现，但随着智能体的“出圈”和能力迭代，这项争议已从一个小众话题演变为关乎普通行业发展的头部议题。

豆包手机助手是特立独行吗？

2025年12月1日，由字节跳动与中兴合作打造的努比亚M153手机（俗称“豆包手机”）对外销售。这款手机内置的豆包手机助手仿佛拥有了人类的大脑、眼睛和手脚，能听从人类的指令、看懂屏幕上的信息，再点击操作完成任务。尽管定位于不成熟的工程样机，但“豆包手机”发售后一度脱销。

对于AI手机这一软硬融合的智能终端产品形态，北京理工大学公共管理系主任、粤港澳大湾区数字经济与科技协同创新研究院副院长尹西明如是形容：智能体企业提供底层AI模型和智能体技术，相当于是“大脑”；传统App提供服务接口和内容，类似于是“四肢”；手机厂商提供硬件平台和操作系统，是“躯干”。

豆包手机助手并非市面上第一款GUI路线的智能体产品。2024年下半年，荣耀手机的新版YOYO助手以及智谱上线的AutoGLM应用，同样基于屏幕读取和模拟点击的方式来操作App。不过，在可调用的App多样性、完成任务的成功率、操作过程的效率等性能体验维度上，豆包手机助手均有了明显的改进。

今年2月底，GUI阵营再度迎来重磅玩家。三星联手谷歌发布的S26系列旗舰机中，搭载了谷歌旗下的Gemini手机助手。当用户发起订餐、打车等使用需求，Gemini助手会运用其推理能力制定计划，像用户一样查看屏幕，并进行导航。即使App的界面后续发生变化，Gemini仍能判断出该如何操作。

谷歌版的GUI手机助手产品，目前仅支持精选的外卖、杂货和网约车类应用。同时，谷歌未完全依赖GUI方案，而是开发了一套统一的API接口AppFunctions，类似于MCP（模型上下文协议）的技术框架，可以让App厂商主动暴露部分数据和功能，供各种智能体发现和调用。

北京航空航天大学人工智能学院教授沙磊评价说，谷歌的方案好比新能源车行业中的“油电混合”，多元路线并行，比较稳妥，也给市场提供了更灵活的选择。

GUI路线的市场需求在哪里？

沙磊介绍，API接口方案相当于从获取权限后，从内部去访问对应的App；而GUI方案则像人一样，从前端打开App页面，边看边操作。

二者各有优缺点。沙磊说，通过接口去访问App，效率会更高，很多时候也更精准。但GUI智能体每次只能像人类一样，看到一个界面进而再去思考下一步如何行动，效率相对更低，这是GUI方案天然的瓶颈。另外，App页面的元素繁多复杂，增大了GUI智能体识别的难度。这也是GUI方案更考验模型能力高低的原因。

然而，API方案的堵点在于，必须App厂商开放权限，智能体才有机会调用。并且，App厂商愿意多大程度开放权限也难以保证。这些前提条件有可能拖慢API方案的落地进度。GUI方案的优势此时便彰显出来：只要能获取一台手机的前端界面，理论上可以点击操作任何一款App。

“GUI有灵活性。”沙磊将其类比为用户解锁自己的手机后，交给其他人使用，通常来说其他使用者可以不受限地打开各种手机应用。

谷歌开发GUI的技术方案，也是用来弥补API方案的灵活性缺失。一份官方的安卓技术博客中提到，虽然AppFunctions为App与AI助手之间的通信，提供了一个结构化的框架和更强大的控制功能，但并非所有交互都已实现专门的集成。因此谷歌开发了UI自动化框架（即GUI），使得AI助手在用户已安装的App上能智能地执行通用任务。

一位使用过“豆包手机”的业内专家此前向南都记者表示：“（API方案）很难满足非常泛化和长尾的需求。只有像人一样去操作手机，才能够满足人的所有需求。”

安全与创新如何并行？

GUI方案的安全性是一个绕不开的核心话题。这一点也反映在全国两会期间的代表委员在讨论中。

开发GUI智能体的厂商并非没有意识到安全问题的重要性。自手机发售以来，豆包手机助手官方也已多次对外回应外界的隐私风险担忧。这些回应大体上从如下四个维度做了解释：

其一是获取权限授权。AI助手需要用户主动授权，才可以调用系统的底层权限来开启操作；其二是敏感操作人工接管。遇到支付环节、身份验证等敏感环节，AI助手暂停执行任务，交由用户接管。用户也可以随时查看操作状态并中断接管；其三是规范数据传输存储。AI助手读取的屏幕内容以及操作过程，不会在服务器端留下存储，且传输过程加密；其四是限制调用敏感类应用的权限。AI助手下线了操作银行App等金融类应用的能力。

实际上，谷歌对Gemini AI助手所做的安全防护机制，与豆包手机助手有相似之处。据谷歌官网介绍，Gemini AI助手会确保用户的控制权，根据用户的指令启动，并在任务完成后立即停止；同时确保透明度，用户可以通过通知实时监控 Gemini AI助手的执行进度；再者控制访问权限，通过手机上一个安全的虚拟窗口运行所需应用。这意味着Gemini AI助手只能访问被调用的有限App，而无法触及手机设备上的其他应用。

沙磊表示，GUI智能体厂商需要不断研究如何提升安全性。只有确保安全了，才有可能被公众接受。他说，智能体产品的生命力取决于C端用户是否认可。认可某条技术路线的人越多，其生命力就越强，而安全问题是关乎公众认可度的重要组成部分。

德国慕尼黑工业大学软件工程与人工智能教授陈春阳等人近期在一篇关于GUI的论文中写道，智能体必须在明确定义的权限边界内运行，保持透明的操作日志，并具备可审计性。无论是执行内部工作流程还是与第三方应用交互，智能体的可信度都将取决于健全的安全政策、“沙盒化”环境以及细粒度的访问控制。

GUI智能体是否应获取App厂商的授权？

GUI智能体厂商和App厂商卷入博弈，矛盾点出在授权问题：当获取用户的授权之后，智能体是否仍需得到第三方App的同意？

法规政策对此未给出明确意见，甚至行业标准也未能统一：中国软件行业协会在2025年4月和10月公布的两份团体标准，便对“双重授权”意见不一。其中，该协会于10月发布的《智能体行为安全要求》写道：“智能体应确保相关行为能力支持用户自主开启、关闭或随时终止，第三方App不应要求额外授权，妨碍用户自主可控。”

法律问题交织着商业因素。尹西明分析说，头部App依赖用户点击、广告曝光、流量闭环实现盈利，智能体跨App调用直接绕过其流量与变现逻辑，产生商业利益冲突。而且还牵涉生态主导权争夺：头部App也不愿放弃对用户交互与数据的掌控权，担心沦为智能体的附属工具。此外，传统App一般都有安全风控顾虑，智能体系统级模拟操作易触发 App 风控机制，容易被判定为异常操作触发拦截机制。

“这反映了平台经济与AI智能体发展之间的张力。”尹西明说。

赞同“双重授权”的声音认为，这有利于厘清各方在服务质量等方面的责任，或有助于共赢。

但中国社会科学院大学互联网法治研究中心主任刘晓春提醒，如果要求智能体访问第三方App需要经过各App厂商的同意，可能造成交易成本过高，很多平台出于自身利益保护而选择拒绝授权。由此，有可能出现多个相对封闭的生态。这对AI手机助手的开发和应用推广很可能难以形成开放竞争、促进创新的格局。

全国政协委员、国曜琴岛律师事务所首席合伙人、中国民营经济研究会副会长李连祥表示，AI智能体、大模型手机助手的突破，确实会对App原本的生态产生一定影响。但商业利益应该与科技发展相平衡，在创新尝试未对消费者利益造成明显损害的情况下，应当给予科技发展更大的包容空间。

其余反对“双重授权”的声音还认为，智能体访问第三方App，是在用户知情同意的情况下由用户主动发起的行为，是用户意志的延伸。其操作边界仅限于用户自主授权的界面交互，并未获取第三方App的内部功能权限，也未越过第三方App的用户协议执行操作。

监管机构如何直面技术路线争议？

2026年的全国两会上，智能体首次写入被首度写入政府工作报告。报告中明确提出，促进新一代智能终端和智能体加快推广。

此前2025年8月，国务院发布的《关于深入实施“人工智能+”行动的意见》，已为新一代智能终端、智能体等应用普及率设定了明确指标：到2027年，普及率超70%；到2030年，进一步增至90%以上。

当推动智能体落地应用成为人工智能产业政策的一环，监管部门应在当前的智能体技术路线争议中扮演怎样的角色？

沙磊认为，官方要做的事情就是积极拥抱变化和新技术，治理新技术可能会造成的问题，而没有必要在不同技术路径之间“二选一”。“如果现在公开不鼓励某项技术路线，最后却发现这项技术在海外成为趋势，那后续就可能有些被动。”

港区全国人大代表冼汉迪表示，API与GUI两种方案不是非此即彼的技术对立。在严守安全底线的前提下，为抢抓技术迭代红利，应鼓励 GUI、API等多元技术路线并行探索。通过构建安全底座之上、多路径互补的技术创新与产品应用生态，抢占全球智能体产业的先发优势，避免在前沿核心赛道错失引领机遇。

全国政协委员、西南财经大学大数据研究院院长寇纲在接受南都记者采访时亦提出，人工智能的具体发展方向和产品技术路径，不应由政府来主导指定，更多让市场竞争、在不断试错中角逐出最符合用户需求的形态。过度的行政干预可能会导致技术路线僵化，扼杀创新活力。

寇纲说，政府真正的发力点应是“治理”与“底线”，扮演好“生态裁判员”的角色，重点防范智能时代的垄断“回潮”，打破数据孤岛，健全与AI发展相适应的合规与治理体系，在鼓励创新与防范风险之间找到最优的动态平衡。

如果当下推进出台针对AI手机智能体的政策或行业规范，尹西明提出迫切需要解决四大核心问题：一是用户授权机制，需要明确跨 App 操作、数据调用的知情同意规则，规范单次授权、永久授权边界，杜绝强制授权、隐形授权；二是责任认定体系，需要厘清智能体操作失误、数据泄露时，手机厂商、智能体企业、App方的法律责任与赔偿边界；三是数据使用规则，落实数据最小化、本地优先原则，规范跨应用数据传输、存储、使用，严防数据滥用；四是建立智能体安全检测、风险评估机制。

采写：南都N视频记者杨柳樊文扬黄莉玲发自北京

编辑：李玲

更多报道请看专题：智能体破圈

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者