Anthropic一条推文，引发了全球AI圈同仇敌忾的群嘲。,anthropocene reviewed

昨天，看到了一个特别离谱的事。

特别有意思。

Anthropic（就是做Claude的那家公司）在官网发了一篇博客，标题起的特别正式，叫《检测和防止蒸馏攻击》。

我本来以为是啥学术报告或者新论文，点进去一看，嚯。

内容大意是说，他们发现了三家中国AI公司，分别是DeepSeek、Moonshot（就是Kimi的母公司）和MiniMax，对Claude进行了"工业规模的蒸馏攻击"。

我看到我都懵了，蒸馏攻击，我说实话，这词我第一次知道能这么组合在一起用的。

然后又说，造成了重大国家安全风险。。。

然后他们也发了一个X，直接爆了，现在将近3000万的阅读。

最搞笑的是，这个评论区炸了。

不是那种底下歌舞升平，一片支持Anthropic维护权益的炸。

是那种，你个 Anthropic也有碧莲说别人的炸。

一条推文，引起全网群嘲，我说实话，已经很久没有看到全世界的AI圈联合起来，一起群嘲，同仇敌忾的了。。。

我随手给大家贴几个看看。。。

有人说，你们不也最开始从OpenAI蒸馏的吗。

然后经典的梗图就出来了。。。

真的，底下一堆人骂的。

甚至还有人贴出了Claude Sonnet 4.6 API输出经典问题“你是什么模型”的图，然后发现，Sonnet 4.6说自己是DeepSeek。。。

天下模型一大蒸，你清高你别用当年蒸了DeepSeek的数据去训练啊。

给不太了解技术的朋友解释一下什么叫"蒸馏"。

蒸馏（Distillation）是AI行业一个非常常见的训练技术。

简单说，就是用一个大模型，也就是常说的教师模型的输出来训练一个小模型（也叫学生模型），让小模型能够学到大模型的一部分能力，但体积更小、运行更快、成本更低。

打个比方，你可以简单的把它理解成师傅带徒弟。

徒弟不需要重走师傅几十年的路，只要跟着师傅学，看师傅怎么处理问题，模仿师傅的思路，就能在短时间内获得不错的能力。

至于为什么叫蒸馏，这个词其实是从化学里借来的。

化学上的蒸馏是把混合物加热，让沸点低的成分先变成蒸汽，然后冷凝收集，得到更纯净的物质。

AI里的蒸馏也是类似的意思，从一个复杂的大模型里提取出精华，灌注到一个更小的模型里。

这也是我们常说的，为啥蒸馏的模型大概率整体能力是不如被蒸馏的模型的。

你可能见过一些场景，就比如每次有新模型发布，评论区总有一堆人跑去问"你是什么模型"之类的话。

如果模型回答了"我是GPT-XX"或者"我是Claude XX"，马上就有人截图发帖："你看，套壳吧。"

这个测试方法其实挺扯淡的。

套壳是你直接调用别人的API，包一层皮就说是自己的模型，这是欺骗。

而蒸馏是你用别人的输出作为训练数据，训练出一个全新的模型。

这个模型的权重是你自己的，推理是在你自己的服务器上跑的，跟原模型可以说已经没有任何直接关系了。

所以说，蒸馏这个事，本身其实是很正常的行为。

Anthropic自己也用蒸馏来做Claude的小模型，比如从Opus蒸馏出Sonnet，再从Sonnet蒸馏出Haiku。OpenAI也这么干，Google也这么干，大家都这么干。

问题在于，你蒸馏自己的模型没问题，但如果你蒸馏别人的模型，那就涉及到一个关键问题：

你获取那些训练数据的方式，合法吗？

Anthropic说这三家中国公司创建了24000个假账户来大规模提取Claude的输出，从某种意义上讲，这确实违反了Anthropic它自己的服务条款。

但网友们暴动的原因也特别简单，就是你Anthropic有什么脸说别人？

就像马斯克说的。

2025年9月，Anthropic达成了一项历史性的和解协议，花了15亿美元。

这应该是美国版权诉讼史上最大的和解金额。

Anthropic被发现从盗版网站LibGen和PiLiMi下载了超过700万本书，用来训练Claude。

这些书都是有版权的，作者们没有同意，也没有拿到任何报酬。

对，你没看错， Anthropic从盗版网站下书然后训模型。。。

这个案子的来龙去脉也挺有意思的。

2024年的时候，三位作家，分别是惊悚小说作家Andrea Bartz、非虚构作家Charles Graeber和Kirk Wallace Johnson，这三个大神，把Anthropic告上了法庭。

因为他们发现自己的书被用来训练Claude，但没人问过他们同意不同意。

后来呢，调查发现，Anthropic不只是用了这几个人的书，它建了一个巨大的中央图书馆，目标贼离谱，是收集全世界所有的书，而且要永远保留。

收集方式也很有意思。

一部分是花钱买的，买完以后把书脊拆掉，一页一页扫描，然后销毁原书。

这个操作虽然粗暴，但咋说呢，从法律上说是合法的。

但另一部分就相当呆逼了，从LibGen和PiLiMi这些盗版网站上下载。

LibGen是全球最大的盗版电子书网站，被各国执法机构围追堵截了好几轮，但一直死而不僵。

Anthropic在2021年6月从LibGen下载了大约500万本书，2022年7月又从PiLiMi下载了大约200万本。

法官William Alsup在判决中说了一句很精彩的话：

"你不能仅仅因为声称自己有研究目的，就去拿走任何你想要的教科书。"

有意思的是，法官同时做出了两个判决：

第一，用合法购买的书籍来训练AI模型，属于合理使用，不构成侵权。这个判决对AI行业其实是一个利好消息。

法官说这种使用是"我们这辈子能看到的最具变革性的使用之一"，因为AI模型学习的是模式和规律，不是要复制或取代原作。

第二，用盗版书籍来训练AI模型，不属于合理使用，构成侵权，这是Anthropic输掉的部分。

法官原话是："盗版本身就是侵权，不可救药的侵权，不管你拿盗版的东西去做什么。"

所以从这个判决上，能看出来美国那边司法的态度，就是训练AI本身可以是合法的，但你获取数据的方式必须合法。

按照美国版权法，故意侵权的赔偿金可以高达每部作品15万美元，50万本书乘以15万美元，那就是750亿美元。当然不可能真赔这么多，但Anthropic面临的风险确实也是没法整的级别。

所以它选择了和解，赔了15亿美元，大约是每本书3000美元。

但其实这还没完。

2026年1月，音乐出版商们又对Anthropic提起了新的诉讼，指控它通过BitTorrent下载了超过2万首歌曲来训练Claude，涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"这些经典名曲。

这个案子目前还在审理中，索赔金额据说高达30亿美元。

所以你看，什么叫双标。

这就是双标。

Anthropic一边在说中国公司偷它的模型输出，一边自己在用盗版书籍和歌曲训练模型。

所以啊。。。

说实话，这件事吃完瓜也就算了。

但是，有一个点，我其实还想聊一聊。

就是在AI时代，“偷”这个字，到底意味着什么。

因为我自己是做UI出身的，所以呢，UI圈子里，之前一直有一个很经典的故事。

当年苹果的Mac之所以能有革命性的图形用户界面，也就是GUI，是因为乔布斯参观了施乐的帕洛阿尔托研究中心（PARC），看到了他们开发的图形界面原型，然后就"借鉴"了过来。

施乐的工程师们气得要死，但也没办法。

后来微软的Windows出来了，界面跟Mac长得很像。