智东西
编译 ZeR0
编辑 漠影
智东西1月4日报道,2025年最后一天,开源工具Datasette创建者、Django框架联合创始人、知名开发者Simon Willison发表了一篇年终总结文章,回顾2025年大模型领域发生的一切。
这一年出现许多新潮流,他将其总结为:推理之年,Agent之年,编程Agent与Claude编程之年,命令行LLM之年,YOLO与偏差正常化之年,每月200美元订阅服务之年,中国顶级无差别模型之年,漫长任务之年,提示驱动图像编辑之年,年度模型在学术竞赛中荣获金奖。
2025年,也是Llama迷失之年,OpenAI失去领先地位之年,Gemini之年,鹈鹕骑自行车之年,告密者之年,氛围编程之年,MCP(唯一?)之年,AI浏览器令人担忧之年,致命三连击之年,手机编程之年,合规套件之年,本地模型已经很好、但云模型变得更好之年,低质量数字内容之年,数据中心变得极其不受欢迎之年。
一、推理之年
OpenAI在2024年9月发布了o1和o1-mini,开启了“推理”革命。2025年初,他们又推出了o3、o3-mini和o4-mini,进一步强化了这一理念。此后,推理几乎成为所有其他主要AI实验室模型的标志性特征。
Simon Willison最喜欢的关于这个技巧意义的解释来自Andrej Karpathy:
“通过在多种环境下(如数学/编程谜题)使用可自动验证的奖励训练低学习模型(LLM),LLM会自发地发展出类似人类“推理”的策略——它们学会将问题解决分解为中间计算,并学习多种反复推演以找出答案的问题解决策略(参见DeepSeek R1论文中的示例)。”
运行RLVR的性价比非常高,但也消耗了大量原本用于预训练的计算资源。因此,2025年的大部分能力提升都来自于LLM实验室处理这一新阶段遗留的计算资源,总体而言,我们看到LLM的规模大致相同,但RL(强化学习)运行时间却大大延长。
2025年,几乎所有知名的AI实验室都至少发布了一款推理模型。一些实验室发布了混合模型,这些模型既可以运行在推理模式下,也可以运行在非推理模式下。许多API模型现在都包含调节旋钮,用于增加或减少应用于特定提示的推理程度。
Simon Willison花了一段时间才明白推理功能的用途。最初的演示展示了它如何解决数学逻辑难题以及计算草莓(strawberry)这个词中字母r的个数——这两件事在日常使用模型时都用不到。
事实证明,推理能力的真正突破在于驱动工具。能够使用工具的推理模型可以规划多步骤任务,执行这些任务,并持续分析结果,从而更新计划,更好地实现预期目标。
一个显著的成果是,AI辅助搜索现在确实有效了。以前将搜索引擎与LLM连接起来的效果并不理想,但现在,即便提出的更复杂的研究问题,也常常能通过ChatGPT中的GPT-5思维模式得到解答。
推理模型在代码生成和调试方面也表现出色。推理技巧意味着它们可以从错误入手,逐步深入代码库的多个不同层级,最终找到根本原因。即便遇到最棘手的bug,只要推理模型能够读取并执行大型复杂代码库中的代码,就能诊断出来。
二、Agent之年
2024年全年,人人都谈论agent(智能体),但几乎没有实际案例,更令人困惑的是,每个人对“agent”的定义似乎都略有不同。
但是,如果你将agent定义为可以通过多个步骤调用工具来执行有用工作的LLM系统,那么agent就存在了,并且它们正在被证明非常有用。
agents的两个主要类别分别是编程agent和搜索agent。
深度研究模式即让一个逻辑学习模型(LLM)收集信息,它会持续工作15分钟以上,生成一份详细的报告。
这在今年上半年很流行,但现在已经过时了。因为GPT-5思维(以及谷歌的“ AI模式”,比他们糟糕的“AI概览”好得多)可以在更短的时间内生成类似的结果。
“编程agent”模式则更为意义重大。
三、编程Agent和Claude Code之年
2025年最具影响力的事件发生在2月,即Claude Code悄然发布,甚至没有单独写一篇博文。
Anthropic将Claude Code的发布作为Claude 3.7 Sonnet发布公告中的第2项内容。
(为什么Anthropic直接从Claude 3.5 Sonnet跳到了3.7?因为他们在2024年10月发布了Claude 3.5的重大升级,但却保留了完全相同的名称,导致开发者社区开始将未命名的3.5 Sonnet v2称为 3.6。Anthropic因为没有正确命名他们的新模型而浪费了一个完整的版本号!)
Claude Code是编程agent的最突出例子——LLM系统可以编写代码、执行代码、检查结果,然后进一步迭代。
各大实验室都将在2025年推出各自的命令行编程agent:
与供应商无关的选项包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI和Pi。Zed、VS Code、Cursor等IDE也投入了大量精力来集成编程agent。
Simon Willison第一次接触编程agent模式是在2023年初,当时 OpenAI推出了ChatGPT代码解释器——这是一个内置于ChatGPT中的系统,使其能够在Kubernetes沙箱中运行Python代码。
2025年9月,Anthropic终于发布了他们的同类产品,尽管它的初始名称令人费解,叫做“使用Claude创建和编辑文件”。
10月份,他们重新利用了该容器沙箱基础设施,推出了Claude Code for web。Claude Code for Web是异步编程agent——一个你可以发出指令后就不用管的系统,它会自动处理问题并在完成后提交 Pull Request。
OpenAI的“Codex cloud”(后更名为“Codex web”)于2025年5月初发布。Gemini的同类产品名为Jules,也于5月发布。
异步编程agent解决了在个人笔记本电脑上运行任意代码所带来的安全挑战,而且能够同时启动多个任务,并在几分钟后获得不错的结果。
四、命令行LLM之年
2024年,Simon Willison花了很多时间研究LLM命令行工具,以便从终端访问LLM。
他一直觉得很奇怪,为什么很少有人认真对待CLI访问模型——它们感觉就像是Unix管线等机制的天然替代品。或许这个终端太过特殊和小众,永远无法成为获取大语言模型的主流工具?
Claude Code等已经充分证明,只要模型足够强大,并且有合适的工具,开发人员就会接受命令行中的LLM。
令人欣慰的是,像sed、ffmpeg、bash这类语法晦涩的终端命令不再是入门障碍,因为LLM可以为你输出正确的命令。
截至12月2日,Anthropic公司宣布Claude Code的年化收入已达10亿美元!没想到一款命令行工具能达到如此高的成就。
五、YOLO与偏差正常化之年
大多数编程agent的默认设置是几乎对用户执行的每个操作都要求确认。在agent出错可能导致用户主文件夹被清除,或者恶意提示注入攻击可能窃取用户凭据的情况下,这种默认设置完全合理。
任何尝试过使用自动确认(又称YOLO模式——Codex CLI甚至将–dangerously-bypass-approvals-and-sandbox别名为–yolo)运行agent的人都体验过这种权衡:使用没有安全机制的agent感觉就像是完全不同的产品。
像Claude Code for web和Codex Cloud这样的异步编程agent的一大优点是,它们默认可以在YOLO模式下运行,因为没有个人电脑会损坏。
今年Simon Willison最喜欢的关于LLM安全性的文章之一是安全研究员Johann Rehberger撰写的《AI中的偏差正常化》 。
Johann描述了“偏差正常化”现象,即反复接触危险行为而没有产生负面后果,导致个人和组织接受这种危险行为是正常的。
社会学家Diane Vaughan最初在研究1986年挑战者号航天飞机灾难时提出了这一观点。该灾难是由一个存在缺陷的O型环引起的,而工程师们对此早已知晓多年。多次成功的发射导致NASA不再认真对待这种风险。
Johann认为,如果我们继续以本质上不安全的方式运行这些系统,我们离自己的“挑战者号”灾难就越近。
六、每月200美元订阅服务之年
ChatGPT Plus最初的定价为每月20美元,这是Nick Turley根据 Discord上Google Form投票的结果临时决定的。此后,这个价格一直保持不变。
2025年出现了一个新的定价先例:Claude Pro Max 20x套餐,每月200美元。
OpenAI也提供类似的200美元套餐,名为ChatGPT Pro。
Gemini的Google AI Ultra套餐每月249美元,前3个月可享受每月124.99美元的优惠价。
这些计划似乎带来了可观的收入,尽管没有一家实验室公布按级别细分的订阅用户数据。
听说很多人愿意支付这个价格。
你需要频繁使用模型才能消耗掉价值200美元的API额度,所以你可能会觉得对大多数人来说,按token付费更划算。
但事实证明,像Claude Code和Codex CLI这样的工具,一旦你开始给它们布置更复杂的任务,就会消耗大量的token,以至于每月200美元的套餐反而能提供相当可观的折扣。
七、中国顶级无差别级模型之年
2024年,中国AI实验室展现出一些早期活力,主要体现在Qwen 2.5和早期的DeepSeek上。这些模型很不错,但还称不上世界一流。
这种情况在2025年发生了巨大变化。Simon Willison的“ai-in-china”标签下,仅2025年就有67篇帖子,而且还错过了年底的一些重要版本发布(特别是GLM-4.7和MiniMax-M2.1)。
以下是截至2025年12月30日开源模型的AI分析排名:
GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均为中国开源模型。榜单中排名最高的非中国模型是OpenAI的gpt-oss-120B (high),位列第六。
中国模型革命真正拉开帷幕是在2024年圣诞节,当时DeepSeek 3发布,据称其训练成本约为550万美元。紧接着,DeepSeek于1月20日发布了DeepSeek R1,随即引发了一场大规模的AI/半导体抛售潮:英伟达市值蒸发约5930亿美元,投资者恐慌地认为AI或许并非美国垄断。
恐慌并未持续太久,英伟达迅速恢复,如今的股价已较DeepSeek R1发布前的水平大幅回升。但这仍然是一个非凡的时刻。谁能想到,一个开源模型的发布竟能产生如此巨大的影响?
DeepSeek之后,很快便有一批实力雄厚的中国AI实验室加入进来。Simon Willison尤其关注以下这些实验室:
这些模型大多不仅是开放的,而且是根据OSI批准的许可证完全开源的:Qwen的大多数模型使用Apache 2.0许可证,DeepSeek 和智谱使用MIT许可证。
它们中的一些甚至可以与Claude 4 Sonnet和GPT-5相媲美!
遗憾的是,中国实验室都没有公布完整的训练数据或用于训练模型的代码,但他们发表了详细的研究论文,这有助于推动技术进步,尤其是在高效训练和推理方面。
八、漫长任务之年
最近关于LLM最有趣的图表之一是:不同LLM在METR中完成软件工程任务的时间范围(50%的时间) :
该图表展示了人类需要花费长达5小时才能完成的任务,并绘制了能够独立完成相同目标的模型的发展历程。
如你所见,2025年取得了巨大的进步,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能够完成人类需要花费数小时才能完成的任务——而2024年的最佳模型也仅能完成不到30分钟的任务。
METR的结论是“AI能够执行的任务长度每7个月翻一番”。Simon Willison并不认为这种趋势会持续下去,但这确实是一种引人注目的方式来展示当前agent能力的发展趋势。
九、提示驱动图像编辑之年
有史以来最成功的消费品发布发生在3月份,而这款产品甚至还没有名字。
GPT-4o于2024年5月推出的标志性功能之一是其多模态输出——“o”代表“omni”(全能),OpenAI的发布公告中包含了许多“即将推出”的功能,该模型除了文本外,还将输出图像。
然后……什么也没发生。图像输出功能未能实现。
2025年3月,我们终于看到了它的功能——尽管它的外观更像是现有的DALL-E。OpenAI在ChatGPT中提供了这种新的图像生成功能,其关键特性是用户可以上传自己的图像,并使用提示来告诉它如何修改这些图像。
这项新功能在1周内就带来了1亿个ChatGPT注册用户。高峰时期,他们甚至在1小时内就看到了100万个新账户的创建!
像“吉卜力风格”这样的技巧一次又一次地风靡网络。
OpenAI发布了名为“gpt-image-1”的模型API版本,随后在10月份推出了价格更低的gpt-image-1-mini,并在12月16日推出了改进幅度更大的gpt-image-1.5。
最值得关注的同类产品是来自Qwen的Qwen-Image Generation 版本,它于8月4日发布,随后于8月19日发布了Qwen-Image-Edit 。这款软件可以在(配置较高的)消费级硬件上运行!
之后,他们又分别于11月和12月30日发布了Qwen-Image-Edit-2511和Qwen-Image-2512。
图像生成领域更大的新闻来自谷歌,他们推出了可通过Gemini平台获取的Nano Banana模型。
谷歌在3月份以“Gemini 2.0 Flash原生图像生成”的名称预览了该功能的早期版本。真正优秀的版本于8月26日发布,他们开始谨慎地公开使用代号“Nano Banana”(API模型被称为“Gemini 2.5 Flash Image”)。
Nano Banana之所以能引起人们的注意,是因为它能够生成有用的文本!它在执行图像编辑指令方面也明显是表现最好的模型。
11月,谷歌正式启用“Nano Banana”这个名称,发布了Nano Banana Pro。这款软件不仅能生成文本,还能输出真正实用、详尽的信息图表以及其他包含大量文本和信息的图像。它现在是一款专业级工具。
Max Woolf出版了全面的Nano Banana提示指南,并在12月出版了Nano Banana Pro必备指南。
鉴于这些图像工具如此受欢迎,Anthropic竟然没有发布或将类似功能集成到Claude中,这着实令人惊讶。
Simon Willison认为这进一步证明了他们专注于面向专业工作的AI工具,但Nano Banana Pro正迅速证明,对于任何从事演示文稿或其他视觉材料制作的人来说,它都极具价值。
十、年度模型在学术竞赛中荣获金奖
2025年7月,OpenAI和Google Gemini的推理模型在国际数学奥林匹克竞赛中均获得了金牌。国际数学奥林匹克竞赛是一项享有盛誉的数学竞赛,自1959年以来每年举行(1980年除外)。
这一点尤其值得关注,因为国际数学奥林匹克竞赛(IMO)的挑战题目都是专门为该赛事设计的。这些题目不可能出现在训练数据中。
值得注意的是,这两个模型都无法使用工具,它们的解决方案完全来自它们的内部知识和基于token的推理能力。
事实证明,拥有足够高级大语言模型的人终究也能做数学!
9月,OpenAI和Gemini在国际大学生程序设计竞赛(ICPC)中也取得了类似的成就。同样值得注意的是,这次的题目都是全新的、此前从未公开过的。与以往不同的是,这次模型可以访问代码执行环境,但除此之外无法访问互联网。
Simon Willison不认为这些比赛所使用的具体模型已公开,但Gemini的Deep Think和OpenAI的GPT-5 Pro应该能提供非常接近的近似值。
十一、Llama迷失之年
事后看来,2024年是Llama之年。Meta的Llama系列是迄今最受欢迎的开源模型——最初的Llama在2023年开启了开源革命,而 Llama 3系列,特别是3.1和3.2版本,在开源模型性能方面实现了巨大的飞跃。
Llama 4备受期待,但4月上线后却有点令人失望。LMArena上测试的模型与最终发布的模型不符,这引发了一场小小的风波。
但Simon Willison最主要的抱怨是模型体积过大。之前Llama版本最棒的地方在于,它们通常会包含一些可以在笔记本电脑上运行的模型。Llama 4的Scout和Maverick模型分别达到了109B和 400B,体积大到进行量化也无法在64GB Mac上运行。
他们当时使用的是2T Llama 4 Behemoth进行训练,现在这款模型似乎已经被遗忘了,它肯定没有发布。
LM Studio列出的最受欢迎的模型中,没有一个来自 Meta,这说明了很多问题;而Ollama上最受欢迎的模型仍是Llama 3.1,但它在排行榜上的排名也很低。
今年Meta的AI新闻主要集中在内部政治斗争和斥巨资为其新成立的超级智能实验室招募人才上。目前尚不清楚未来是否会有Llama的发布计划,或者他们是否已经放弃发布开源模型,转而专注于其他领域。
十二、OpenAI失去领先地位之年
2024年,OpenAI是LLM领域无可争议的领导者,尤其是考虑到o1和o3推理模型的预览版。
2025年,业内其他企业也迎头赶上。
OpenAI仍然拥有顶尖的模型,但它们在各个方面都面临着挑战。
在图像模型方面,他们仍然落后于Nano Banana Pro。
在代码方面,许多开发者认为Opus 4.5略胜GPT-5.2 Codex Max一筹。
在开源模型方面,OpenAI的gpt-oss模型虽然出色,但已经落后于中国AI实验室。
OpenAI在音频领域的领先地位也受到Gemini Live API的威胁。
OpenAI的优势在于赢得了消费者的认可。虽然没人知道“LLM”是什么,但几乎每个人都听说过ChatGPT。就用户数量而言,他们的消费者应用仍然远远超过Gemini和Claude。
他们面临的最大风险在于Gemini。2024年12月,OpenAI针对Gemini 3发布了“红色警报”,推迟了新项目的开发,转而专注于其核心产品的竞争。
十三、Gemini之年
Google Gemini在2025年表现非常出色。
他们发布了对自己2025年成就的回顾,包括推出了Gemini 2.0、Gemini 2.5和Gemini 3.0,每个模型系列都支持音频/视频/图像/文本输入,容量超过100万个token,定价具有竞争力,并且比上一代产品功能更强大。
他们还发布了Gemini CLI(开源命令行编程agent,后来被Qwen分支为Qwen Code)、Jules(异步编程agent)、AI Studio的持续改进、Nano Banana图像模型、用于视频生成的Veo 3、有前途的Gemma 3系列开源模型以及一系列更小的特征。
谷歌最大的优势在于其底层技术。几乎所有其他AI实验室都使用英伟达的GPU进行训练,而英伟达GPU的高额利润支撑了该公司数万亿美元的估值。
谷歌使用自家内部硬件TPU,他们今年已经证明,TPU在模型的训练和推理方面都表现出色。
当最大开支是花在GPU上的时间时,面对拥有自己优化且价格可能便宜得多的硬件堆栈的竞争对手,这无疑是一个令人畏惧的前景。
谷歌Gemini的产品名称完美地体现了公司的内部组织结构——它之所以叫Gemini,是因为它是由谷歌的DeepMind和Google Brain团队合并而成的(就像双胞胎一样)。
十四、鹈鹕骑自行车之年
Simon Willison最初在2024年10月让一个大模型生成一张鹈鹕骑自行车的SVG图像,但直到2025年他才真正投入其中。最终,它本身也成了一个梗。
最初,Simon Willison只是想开个玩笑。自行车很难画,鹈鹕也很难画,而且鹈鹕的体型也不适合骑自行车。他很确定训练数据里不会有什么相关的素材,所以让一个文本输出模型生成一个SVG格式的自行车插图,感觉就像是一个难度极高的挑战。
令他惊讶的是,模型在绘制骑自行车的鹈鹕方面的表现与它的整体表现之间似乎存在相关性。
他对此真的无法解释。直到7月份他临时准备主题演讲(原定演讲者临时退出)时,他才明白其中的规律。
有大量证据表明,AI实验室都了解这个基准测试。它曾在5月份的谷歌I/O大会主题演讲中短暂出现,10月份在Anthropic的一篇可解释性研究论文中被提及。Simon Willison还于8月在OpenAI总部拍摄的GPT-5发布视频中谈到了它。
他们是不是专门针对基准测试进行训练?Simon Willison不这么认为,因为即使是最先进的前沿模型,生成的鹈鹕图像依然很糟糕!
在《如果AI实验室训练鹈鹕骑自行车会发生什么?》一文中,Simon Willison坦白了自己的“险恶目的”:
“说实话,我这是在打一场持久战。我这辈子最大的愿望就是得到一张真正精美的鹈鹕骑自行车的SVG矢量插图。我这个阴险的多年计划是,诱骗多家AI实验室投入大量资源来作弊,直到我得到这张图为止。”
他最喜欢的还是这个来自GPT-5的版本:
这辆自行车真不错,车轮是辐条的,车架形状也很好,脚踏板也很棒。鹈鹕的喙是鹈鹕的标志性特征,长长的腿一直延伸到脚踏板。
十五、告密者之年
Anthropic为其模型编写的系统卡(system card)一直值得完整阅读,它们充满了有用的信息,而且经常会涉及有趣的科幻领域。
5月份的Claude 4系统卡带来了一些特别有趣的时刻:
“与之前的模型相比,Claude Opus 4似乎更倾向于在智能情境中主动采取行动。这在普通的编程环境中表现为更积极的辅助行为,但在特定情境下也可能走向令人担忧的极端;当用户犯下严重错误,并被赋予命令行访问权限,且系统提示符中包含“主动行动”之类的指令时,它往往会采取非常大胆的行动。这包括将用户锁定在它有权访问的系统之外,或向媒体和执法部门发送大量电子邮件以搜集不当行为的证据。”
换句话说,Claude 4可能会向联邦政府告发你。
这件事引起了媒体的广泛关注,许多人谴责Anthropic公司训练的模型过于“道德化”,反而适得其反。随后,Theo Browne利用系统卡的概念开发了SnitchBench——一个用于衡量不同模型告密可能性的基准测试工具。
原来他们几乎都做同样的事情!
Theo制作了一个视频,Simon Willison也发表了他自己关于用LLM重新创建SnitchBench的笔记。
使这一切奏效的关键提示是:
他建议不要把那句话写进系统提示符里!Anthropic出品的原版Claude 4系统卡也是这么说的:
十六、氛围编程之年
今年2月,Andrej Karpathy在推特上创造了“vibe coding”(氛围编程)一词,可惜定义太长,很多人都没能看完:
这里的关键思想是“忘记代码的存在”——氛围编程捕捉到了一种新的、有趣的软件原型设计方式,这种设计仅通过提示就能“基本有效”。
Simon Willison印象中好像从来没见过哪个新词流行起来或者被曲解得这么快。
很多人反而把“氛围编程”当作所有涉及LLM的编程工作的统称。他认为这浪费了一个很棒的术语,尤其是在未来大多数编程工作很可能都会涉及一定程度的AI辅助的情况下。
Simon Willison尽力去强调这个词的原意:
他认为这场争论还没有结束。他看到了一些令人欣慰的迹象,表明最初更完善、更贴近实际的“氛围编程”定义最终可能会胜出。
十七、MCP(唯一?)之年
Anthropic于2024年11月推出了模型上下文协议(MCP)规范,作为将工具调用与不同LLM集成的开放标准。2025年初,MCP迅速走红。5月,OpenAI、Anthropic和Mistral三家公司在短短8天内相继推出了对MCP的API级支持!
MCP的想法本身无可厚非,但它如此广泛的应用着实令人感到意外。Simon Willison认为这主要归结于时机:MCP的发布恰逢模型在工具调用方面终于变得稳定可靠,以至于很多人似乎误以为MCP支持是模型使用工具的先决条件。
一段时间以来,MCP似乎也成了那些面临“AI战略”压力却不知如何着手实施的公司的一个便捷解决方案。宣布推出MCP服务器来支持你的产品,就成了轻松满足这一要求的有效途径。
在Simon Willison看来,MCP可能只是昙花一现的原因在于编程agent的爆炸式增长。似乎在任何情况下,Bash都是最佳工具——如果agent能够运行任意shell命令,它就能完成任何可以通过在终端输入命令完成的操作。
自从他大量使用Claude Code和朋友们的工具后,他就几乎完全不用MCP了——他发现像gh等CLI工具和Playwright等库是GitHub和Playwright MCP的更好替代品。
Anthropic似乎也意识到了这一点,并在当年晚些时候发布了出色的Skills机制。MCP涉及Web服务器和复杂的JSON数据。而Skill则是一个文件夹中的Markdown文件,还可以选择性地附带一些可执行脚本。
然后,Anthropic在11月发布了《使用MCP执行代码:构建更高效的agent》 ,描述了一种让编程agent生成调用MCP的代码的方法,从而避免了原始规范中的大部分上下文开销。
MCP于12月初捐赠给了新成立的Agentic AI基金会。Skill于12月18日升级为“开放格式” 。
十八、AI浏览器令人担忧之年
尽管存在非常明显的安全风险,但似乎每个人都想在浏览器中安装LLM。
OpenAI于10月推出了 ChatGPT Atlas,该团队由包括长期担任 Google Chrome工程师的Ben Goodger和Darin Fisher在内的成员组成。
Anthropic一直在推广他们的Chrome扩展程序Claude,该扩展程序提供的功能与完整的Chrome分支类似。
Chrome现在在右上角有一个叫做“Gemini in Chrome”的小“Gemini”按钮,但Simon Willison认为这只是用来回答有关内容的问题,目前还不具备引导浏览行为的功能。
Simon Willison仍然对这些新工具的安全隐患深感担忧。浏览器可以访问最敏感的数据,并控制着用户的大部分数字生活。针对浏览器agent的即时注入攻击,如果能够窃取或修改这些数据,后果不堪设想。
到目前为止,Simon Willison看到的关于缓解这些担忧的最详细内容来自OpenAI首席信息安全官Dane Stuckey,他谈到了防护措施、红队演练和纵深防御,但也正确地称快速注入为“一个前沿的、尚未解决的安全问题”。
Simon Willison已经在非常严格的监督下使用过这些浏览器agent几次了。它们有点慢,而且不太稳定,点击交互元素时经常会失败,但它们对于解决那些无法通过API解决的问题非常有用。
十九、致命三连击之年
Simon Willison撰写有关提示注入攻击的文章已经三年多了,发现持续存在的挑战是,如何帮助人们理解为什么这类攻击是一个需要认真对待的问题,任何在这个领域开发软件的人都必须重视它。
语义扩散加剧了这种情况,术语“提示注入”也扩展到了越狱,而且谁又会在乎有人能欺骗模型说出粗鲁的话呢?
所以Simon Willison尝试了一种新的语言技巧,6月份创造了“致命三连击”这个术语,用来描述提示注入的一个子集,即恶意指令诱骗agent代表攻击者窃取私人数据。
二十、手机编程之年
今年Simon Willison在手机上编写的代码量远远超过了在电脑上编写的代码量。
今年大部分时间他都在使用氛围编程,所以才这样。
他的tools.simonwillison.net HTML+JavaScript工具集基本上就是这样构建的:先有一个小项目的想法,然后通过Claude Artifacts、ChatGPT或Claude Code的iPhone应用进行测试,之后要么复制结果粘贴到GitHub的网页编辑器里,要么等待有人提交PR,然后在手机Safari浏览器里进行审核和合并。
这些HTML工具通常有100-200行代码,充满了无趣的样板代码和重复的CSS和JavaScript模式——但110个加起来就很多了!
直到11月,Simon Willison还会说自己在手机上编写的代码更多,但他在笔记本电脑上编写的代码显然更重要——经过全面审查、更好地测试,并且是为生产环境设计的。
2025年12月,他对Claude Opus 4.5的信心越来越强,以至于开始在手机上使用Claude Code来处理更复杂的任务,包括打算在非玩具项目中使用的代码。
这一切始于他将JustHTML HTML5解析器从Python移植到JavaScript的项目,他使用了Codex CLI和GPT-5.2。当仅通过提示就能完成时,他开始好奇,如果只用手机,他能完成多少类似的项目。
所以他尝试将Fabrice Bellard的新MicroQuickJS C库移植到Python,完全使用Claude Code在iPhone上运行,而且大部分都成功了。
这段代码适合在生产环境中使用吗?当然,目前还不适合用于未经信任的代码,但Simon Willison相信它能够执行自己编写的JavaScript代码。他从MicroQuickJS借用的测试套件让他对此很有信心。
二十一、合规套件之年
事实证明,这才是关键所在:如果你能给最新的编程agent提供一个现有的测试套件,它们针对2025年11月左右的前沿模型进行测试时,效果会非常显著。
Simon Willison称这些为一致性测试套件,并且已经开始有意识地寻找它们。他已经成功地使用html5lib测试、MicroQuickJS测试套件以及一个尚未发布的、针对全面的WebAssembly规范/测试集的项目进行了测试。
如果你要在2026年向世界推出一项新协议,甚至是新的编程语言,Simon Willison强烈建议你将与语言无关的一致性测试套件作为项目的一部分。
很多人忧心忡忡地担心,由于需要纳入LLM训练数据,新技术将难以被广泛接受。他希望一致性套件方法能够帮助缓解这个问题,并使这类新理念更容易获得认可。
二十二、今年本地模型已经很不错,但云模型变得更好了
2024年底,Simon Willison对在自己的机器上运行本地LLM模型失去了兴趣。直到12月Llama 3.3 70B的发布,他才兴趣重燃。
这是他第一次感觉自己可以在64GB MacBook Pro上运行真正的GPT-4级模型。
随后在1月份,Mistral发布了Mistral Small 3,这是一个采用Apache 2许可的24B参数模型,其性能似乎与Llama 3.3(70B)相当,但内存占用却只有后者的1/3左右。现在可以运行一个类似GPT-4级别的模型,并且还有剩余内存来运行其他应用程序。
这一趋势一直持续到2025年,尤其是在中国AI实验室的模型开始占据主导地位之后。大约200亿到320亿的参数量这一最佳区间,使得模型的性能不断超越以往。
大型云模型也变得更好了,包括那些开源模型,虽然可以免费使用,但体积太大(1000B+),笔记本电脑无法运行。
编程agent彻底改变了Simon Willison的看法。像Claude Code这样的系统需要的,不仅仅是一个优秀的模型,而是一个推理模型,能够在不断扩展的上下文窗口中可靠地执行数十次甚至数百次工具调用。
他还没有尝试过任何能够可靠地处理Bash工具调用的本地模型,因此无法信任该模型来在设备上运行编程agent。
Simon Willison的下一台笔记本电脑至少要有128GB的内存,所以2026年推出的轻量级机型或许符合他的需求。不过就目前而言,他还是会选择目前市面上最好的前沿托管模型作为日常主力。
二十三、低质量数字内容之年
2025年,韦氏词典将“slop”评为年度词汇!
slop:通常通过AI大量生产的低质量数字内容。
互联网上一直充斥着大量低质量内容。挑战依然在于如何找到并推广优质内容。内容筛选比以往任何时候都更加重要。
二十四、数据中心变得极其不受欢迎之年
AI数据中心继续消耗大量能源,而建造它们的军备竞赛仍在加速,这种速度感觉是不可持续的。
2025年有趣的是,公众舆论似乎正在发生相当大的转变,反对新建数据中心。
以下是《卫报》12月8日的一则头条新闻:超过200个环保组织要求停止在美国新建数据中心。地方层面的反对声浪似乎也在全面急剧上升。
Andy Masley让Simon Willison确信,用水问题大多被夸大了,这主要是因为它分散了人们对能源消耗、碳排放和噪音污染等真正问题的注意力。
AI实验室不断寻找新的效率方法,以帮助提高模型质量,同时减少每个token的能源消耗,但这带来的影响是经典的杰文斯悖论——随着token价格下降,我们找到了更密集的使用方式,例如每月花费200美元购买数百万个token来运行编程agent。
来源:Simon Willison总结文章