当地时间2月25日,三星在旧金山举行Galaxy Unpacked 2026发布会,正式推出Galaxy S26系列旗舰手机。但真正引爆科技圈讨论的,并非手机硬件本身,而是谷歌安卓生态系统总裁萨米尔·萨马特(Sameer Samat)登台展示的一项新功能——Gemini智能体,能够在后台自动完成订餐、叫车、购物等多步骤复杂任务。

这一幕,对于关注国内AI动态的观众来说,可谓“似曾相识”。

就在三个月前的2025年12月1日,字节跳动豆包团队发布了豆包手机助手技术预览版,展示了几乎完全一致的能力:系统级唤醒、跨应用自动操作、后台任务执行。搭载该助手的努比亚M153工程样机首批3万台一夜售罄,在科技圈引发现象级关注。

如今,全球科技巨头谷歌携手三星推出同样能力的产品,这是否意味着,跟随这一创新,谷歌的“豆包手机”也来了?

智能体AI:手机助手帮你办事

“安卓正从传统操作系统演变为一个真正理解并为你服务的智能系统。”萨马特在发布会上如此定义这次升级的意义。他将这项能力称为Gemini的“下一次进化”,让手机助手从“回答问题”升级为“帮你办事”。

在现场演示环节,萨马特展示了一个贴近日常的场景:一个家庭群聊里,成员们七嘴八舌地讨论晚餐点什么披萨。按照传统方式,用户需要自己阅读消息、记住每个人的口味偏好、打开外卖App、逐一添加菜品、核对地址、等待支付……整套流程下来,至少需要切换三四个应用,耗时数分钟。

而在Galaxy S26上,萨马特只说了一句话:让Gemini帮他处理群聊里的披萨订单。

接下来的场景中,Gemini自动读取群聊内容,分析每个人的偏好,启动外卖应用,导航到对应餐厅,将所有披萨添加到购物车,最后生成订单等待用户确认。整个过程中,用户可以继续使用手机做其他事,也可以随时查看进度、介入调整或直接终止任务。

“行业内称之为智能体AI(Agentic AI),”萨马特说,“我只把它叫做——把事情搞定(Getting stuff done)。”

根据谷歌官方博客介绍,这项功能首批支持的场景包括出行打车(如Uber)、餐饮外卖(如DoorDash、Grubhub)和生鲜杂货配送。用户长按手机侧边电源键即可唤醒Gemini,用自然语言下达指令,比如“帮我叫一辆车回家”“重新点一份上次的外卖”“把买菜清单加到购物车”。

背后技术:虚拟窗口、GUI Agent与多步推理

Gemini智能体是如何实现这些能力的?综合谷歌官方博客和外媒报道,其技术方案可归纳为三个核心要素。

第一是“安全虚拟窗口”机制。当用户发出任务指令后,Gemini会在手机上启动一个独立的虚拟环境来运行目标应用,而非直接控制用户的主界面。谷歌在博客中明确表示,Gemini会在“手机上的安全虚拟窗口中运行应用”,这意味着AI的操作被隔离在“沙盒”中,既保证任务流畅执行,又避免AI直接访问用户的整个系统。

第二是多模态视觉理解能力,业内通常称之为“GUI Agent”(图形界面智能体)。Gemini 3具备强大的视觉语言模型能力,能够像人类一样“看懂”应用界面——识别按钮、输入框、菜单等元素,理解其含义,并模拟点击、滑动等操作。这意味着AI无需依赖应用方提前适配API接口,就能在几乎任何App中完成任务。

第三是多步骤推理与规划能力。面对复杂任务,Gemini会先制定执行计划,再逐步完成。以披萨订单为例,AI需要理解语境、从对话中提取结构化信息(谁要什么口味、多少份、送到哪里),规划“打开外卖App→搜索餐厅→添加菜品→确认地址→生成订单”的执行路径,并在执行过程中处理各种意外情况。三星官方发布会回顾文章中提到,“Gemini 3使用多模态推理来创建计划并逐步执行,将你的意图转化为行动。”

在安全性方面,谷歌做了多重考量:任务必须由用户明确发起,AI不会擅自行动;用户可随时查看进度、介入干预或终止;涉及支付等敏感操作时,系统会提示用户手动完成。

谷歌还在Android开发者博客中披露了一套名为“AppFunctions”的底层框架,类似于当下流行的模型上下文协议(MCP)的本地版本。通过AppFunctions,应用开发者可以定义功能接口,让Gemini更精准地调用;同时,谷歌也在开发“UI自动化框架”,让AI能在没有官方适配的应用上通过视觉识别完成任务。