谷歌的“豆包手机”来了？

当地时间2月25日，三星在旧金山举行Galaxy Unpacked 2026发布会，正式推出Galaxy S26系列旗舰手机。但真正引爆科技圈讨论的，并非手机硬件本身，而是谷歌安卓生态系统总裁萨米尔·萨马特（Sameer Samat）登台展示的一项新功能——Gemini智能体，能够在后台自动完成订餐、叫车、购物等多步骤复杂任务。

这一幕，对于关注国内AI动态的观众来说，可谓“似曾相识”。

就在三个月前的2025年12月1日，字节跳动豆包团队发布了豆包手机助手技术预览版，展示了几乎完全一致的能力：系统级唤醒、跨应用自动操作、后台任务执行。搭载该助手的努比亚M153工程样机首批3万台一夜售罄，在科技圈引发现象级关注。

如今，全球科技巨头谷歌携手三星推出同样能力的产品，这是否意味着，跟随这一创新，谷歌的“豆包手机”也来了？

智能体AI：手机助手帮你办事

“安卓正从传统操作系统演变为一个真正理解并为你服务的智能系统。”萨马特在发布会上如此定义这次升级的意义。他将这项能力称为Gemini的“下一次进化”，让手机助手从“回答问题”升级为“帮你办事”。

在现场演示环节，萨马特展示了一个贴近日常的场景：一个家庭群聊里，成员们七嘴八舌地讨论晚餐点什么披萨。按照传统方式，用户需要自己阅读消息、记住每个人的口味偏好、打开外卖App、逐一添加菜品、核对地址、等待支付……整套流程下来，至少需要切换三四个应用，耗时数分钟。

而在Galaxy S26上，萨马特只说了一句话：让Gemini帮他处理群聊里的披萨订单。

接下来的场景中，Gemini自动读取群聊内容，分析每个人的偏好，启动外卖应用，导航到对应餐厅，将所有披萨添加到购物车，最后生成订单等待用户确认。整个过程中，用户可以继续使用手机做其他事，也可以随时查看进度、介入调整或直接终止任务。

“行业内称之为智能体AI（Agentic AI），”萨马特说，“我只把它叫做——把事情搞定（Getting stuff done）。”

根据谷歌官方博客介绍，这项功能首批支持的场景包括出行打车（如Uber）、餐饮外卖（如DoorDash、Grubhub）和生鲜杂货配送。用户长按手机侧边电源键即可唤醒Gemini，用自然语言下达指令，比如“帮我叫一辆车回家”“重新点一份上次的外卖”“把买菜清单加到购物车”。

背后技术：虚拟窗口、GUI Agent与多步推理

Gemini智能体是如何实现这些能力的？综合谷歌官方博客和外媒报道，其技术方案可归纳为三个核心要素。

第一是“安全虚拟窗口”机制。当用户发出任务指令后，Gemini会在手机上启动一个独立的虚拟环境来运行目标应用，而非直接控制用户的主界面。谷歌在博客中明确表示，Gemini会在“手机上的安全虚拟窗口中运行应用”，这意味着AI的操作被隔离在“沙盒”中，既保证任务流畅执行，又避免AI直接访问用户的整个系统。

第二是多模态视觉理解能力，业内通常称之为“GUI Agent”（图形界面智能体）。Gemini 3具备强大的视觉语言模型能力，能够像人类一样“看懂”应用界面——识别按钮、输入框、菜单等元素，理解其含义，并模拟点击、滑动等操作。这意味着AI无需依赖应用方提前适配API接口，就能在几乎任何App中完成任务。

第三是多步骤推理与规划能力。面对复杂任务，Gemini会先制定执行计划，再逐步完成。以披萨订单为例，AI需要理解语境、从对话中提取结构化信息（谁要什么口味、多少份、送到哪里），规划“打开外卖App→搜索餐厅→添加菜品→确认地址→生成订单”的执行路径，并在执行过程中处理各种意外情况。三星官方发布会回顾文章中提到，“Gemini 3使用多模态推理来创建计划并逐步执行，将你的意图转化为行动。”

在安全性方面，谷歌做了多重考量：任务必须由用户明确发起，AI不会擅自行动；用户可随时查看进度、介入干预或终止；涉及支付等敏感操作时，系统会提示用户手动完成。

谷歌还在Android开发者博客中披露了一套名为“AppFunctions”的底层框架，类似于当下流行的模型上下文协议（MCP）的本地版本。通过AppFunctions，应用开发者可以定义功能接口，让Gemini更精准地调用；同时，谷歌也在开发“UI自动化框架”，让AI能在没有官方适配的应用上通过视觉识别完成任务。