昨天,看到了一个特别离谱的事。
特别有意思。
Anthropic(就是做Claude的那家公司)在官网发了一篇博客,标题起的特别正式,叫《检测和防止蒸馏攻击》。
我本来以为是啥学术报告或者新论文,点进去一看,嚯。
内容大意是说,他们发现了三家中国AI公司,分别是DeepSeek、Moonshot(就是Kimi的母公司)和MiniMax,对Claude进行了"工业规模的蒸馏攻击"。
我看到我都懵了,蒸馏攻击,我说实话,这词我第一次知道能这么组合在一起用的。
然后又说,造成了重大国家安全风险。。。
然后他们也发了一个X,直接爆了,现在将近3000万的阅读。
最搞笑的是,这个评论区炸了。
不是那种底下歌舞升平,一片支持Anthropic维护权益的炸。
是那种,你个 Anthropic也有碧莲说别人的炸。
一条推文,引起全网群嘲,我说实话,已经很久没有看到全世界的AI圈联合起来,一起群嘲,同仇敌忾的了。。。
我随手给大家贴几个看看。。。
有人说,你们不也最开始从OpenAI蒸馏的吗。
然后经典的梗图就出来了。。。
真的,底下一堆人骂的。
甚至还有人贴出了Claude Sonnet 4.6 API输出经典问题“你是什么模型”的图,然后发现,Sonnet 4.6说自己是DeepSeek。。。
天下模型一大蒸,你清高你别用当年蒸了DeepSeek的数据去训练啊。
给不太了解技术的朋友解释一下什么叫"蒸馏"。
蒸馏(Distillation)是AI行业一个非常常见的训练技术。
简单说,就是用一个大模型,也就是常说的教师模型的输出来训练一个小模型(也叫学生模型),让小模型能够学到大模型的一部分能力,但体积更小、运行更快、成本更低。
打个比方,你可以简单的把它理解成师傅带徒弟。
徒弟不需要重走师傅几十年的路,只要跟着师傅学,看师傅怎么处理问题,模仿师傅的思路,就能在短时间内获得不错的能力。
至于为什么叫蒸馏,这个词其实是从化学里借来的。
化学上的蒸馏是把混合物加热,让沸点低的成分先变成蒸汽,然后冷凝收集,得到更纯净的物质。
AI里的蒸馏也是类似的意思,从一个复杂的大模型里提取出精华,灌注到一个更小的模型里。
这也是我们常说的,为啥蒸馏的模型大概率整体能力是不如被蒸馏的模型的。
你可能见过一些场景,就比如每次有新模型发布,评论区总有一堆人跑去问"你是什么模型"之类的话。
如果模型回答了"我是GPT-XX"或者"我是Claude XX",马上就有人截图发帖:"你看,套壳吧。"
这个测试方法其实挺扯淡的。
套壳是你直接调用别人的API,包一层皮就说是自己的模型,这是欺骗。
而蒸馏是你用别人的输出作为训练数据,训练出一个全新的模型。
这个模型的权重是你自己的,推理是在你自己的服务器上跑的,跟原模型可以说已经没有任何直接关系了。
所以说,蒸馏这个事,本身其实是很正常的行为。
Anthropic自己也用蒸馏来做Claude的小模型,比如从Opus蒸馏出Sonnet,再从Sonnet蒸馏出Haiku。OpenAI也这么干,Google也这么干,大家都这么干。
问题在于,你蒸馏自己的模型没问题,但如果你蒸馏别人的模型,那就涉及到一个关键问题:
你获取那些训练数据的方式,合法吗?
Anthropic说这三家中国公司创建了24000个假账户来大规模提取Claude的输出,从某种意义上讲,这确实违反了Anthropic它自己的服务条款。
但网友们暴动的原因也特别简单,就是你Anthropic有什么脸说别人?
就像马斯克说的。
2025年9月,Anthropic达成了一项历史性的和解协议,花了15亿美元。
这应该是美国版权诉讼史上最大的和解金额。
Anthropic被发现从盗版网站LibGen和PiLiMi下载了超过700万本书,用来训练Claude。
这些书都是有版权的,作者们没有同意,也没有拿到任何报酬。
对,你没看错, Anthropic从盗版网站下书然后训模型。。。
这个案子的来龙去脉也挺有意思的。
2024年的时候,三位作家,分别是惊悚小说作家Andrea Bartz、非虚构作家Charles Graeber和Kirk Wallace Johnson,这三个大神,把Anthropic告上了法庭。
因为他们发现自己的书被用来训练Claude,但没人问过他们同意不同意。
后来呢,调查发现,Anthropic不只是用了这几个人的书,它建了一个巨大的中央图书馆,目标贼离谱,是收集全世界所有的书,而且要永远保留。
收集方式也很有意思。
一部分是花钱买的,买完以后把书脊拆掉,一页一页扫描,然后销毁原书。
这个操作虽然粗暴,但咋说呢,从法律上说是合法的。
但另一部分就相当呆逼了,从LibGen和PiLiMi这些盗版网站上下载。
LibGen是全球最大的盗版电子书网站,被各国执法机构围追堵截了好几轮,但一直死而不僵。
Anthropic在2021年6月从LibGen下载了大约500万本书,2022年7月又从PiLiMi下载了大约200万本。
法官William Alsup在判决中说了一句很精彩的话:
"你不能仅仅因为声称自己有研究目的,就去拿走任何你想要的教科书。"
有意思的是,法官同时做出了两个判决:
第一,用合法购买的书籍来训练AI模型,属于合理使用,不构成侵权。这个判决对AI行业其实是一个利好消息。
法官说这种使用是"我们这辈子能看到的最具变革性的使用之一",因为AI模型学习的是模式和规律,不是要复制或取代原作。
第二,用盗版书籍来训练AI模型,不属于合理使用,构成侵权,这是Anthropic输掉的部分。
法官原话是:"盗版本身就是侵权,不可救药的侵权,不管你拿盗版的东西去做什么。"
所以从这个判决上,能看出来美国那边司法的态度,就是训练AI本身可以是合法的,但你获取数据的方式必须合法。
按照美国版权法,故意侵权的赔偿金可以高达每部作品15万美元,50万本书乘以15万美元,那就是750亿美元。当然不可能真赔这么多,但Anthropic面临的风险确实也是没法整的级别。
所以它选择了和解,赔了15亿美元,大约是每本书3000美元。
但其实这还没完。
2026年1月,音乐出版商们又对Anthropic提起了新的诉讼,指控它通过BitTorrent下载了超过2万首歌曲来训练Claude,涉及的歌曲包括"Wild Horses"、"Sweet Caroline"、"Bennie and the Jets"、"Eye of the Tiger"这些经典名曲。
这个案子目前还在审理中,索赔金额据说高达30亿美元。
所以你看,什么叫双标。
这就是双标。
Anthropic一边在说中国公司偷它的模型输出,一边自己在用盗版书籍和歌曲训练模型。
所以啊。。。
说实话,这件事吃完瓜也就算了。
但是,有一个点,我其实还想聊一聊。
就是在AI时代,“偷”这个字,到底意味着什么。
因为我自己是做UI出身的,所以呢,UI圈子里,之前一直有一个很经典的故事。
当年苹果的Mac之所以能有革命性的图形用户界面,也就是GUI,是因为乔布斯参观了施乐的帕洛阿尔托研究中心(PARC),看到了他们开发的图形界面原型,然后就"借鉴"了过来。
施乐的工程师们气得要死,但也没办法。
后来微软的Windows出来了,界面跟Mac长得很像。
乔布斯暴跳如雷,说比尔盖茨偷了苹果的东西。
比尔盖茨的回应贼经典:
"我们都有一个有钱的邻居叫施乐,我闯进他家想偷电视,结果发现你已经偷走了。"
传统意义上的偷,是你拿走了东西,别人就没有了,你偷了我的钱包,我的钱包就不见了,这是一个零和游戏。
但数据不一样,我复制了你的数据,你的数据还在那儿,没有减少一个字节。
从物理意义上说,什么都没有丢。
所以,这就引出了一个非常老的问题。
知识产权到底是不是一种真正的财产?
有一派观点认为,知识产权是人类社会为了激励创新而人为创造的制度,本质上是一种垄断权。
托马斯杰斐逊之前说过一句话,大概意思就是,思想就像火焰,我用你的火点燃我的蜡烛,你的火不会变小。
如果按这个逻辑,"偷"知识产权这个说法本身就是有问题的,因为你并没有拿走任何东西。
但另一派观点认为,创作者付出了时间、精力和天赋来创造作品,他们理应获得回报。
如果任何人都可以免费使用他们的作品,那谁还愿意创作?从这个角度说,"偷"知识产权就是偷走了创作者本应获得的收益。
这两种观点坦诚的讲,我自己作为一个创作者,我认为都有道理,人类争论了几百年也没有定论。
但AI的出现把这个问题推到了一个新的极端。
有人可能会说,那不还是侵犯了版权吗?没错,但这里面有一个很微妙的悖论。
AI公司用盗版书籍训练模型,这是违法。
AI公司用合法购买的书籍训练模型,这是合法。
有人用AI公司的模型输出训练自己的模型,违反服务条款。
有一个很老的笑话:
一个人偷了另一个人的钱包,然后钱包又被第三个人偷走了。第一个小偷报警说自己的钱包被偷了,警察问他:"你自己的钱包???"
19世纪的美国,是全球最大的盗版国家。当时美国不承认外国作品的版权,英国作家的书在美国被疯狂盗印,狄更斯每次访问美国都要骂一通。美国出版商就非常理直气壮,说,知识应该属于全人类,凭什么要付钱给英国人?
后来美国自己的文化产业发展起来了,好莱坞成了全球电影中心,美国突然就变成了全世界最积极的知识产权捍卫者。
历史总是惊人地相似。
我不是说谁对谁错,我只是觉得这种我可以你不行的态度,确实也挺抽象的。
坦率的讲,AI行业现在面临的版权问题,其实是整个技术史上反复出现的老问题的新版本。
印刷机发明的时候,手抄圣经的修士们抗议过,录音技术发明的时候,现场音乐家们抗议过,录像机发明的时候,好莱坞抗议过。
每一次,都有人说新技术会毁掉创作者。
但每一次,最后都找到了某种平衡。
但这次的新问题在于。
AI不只是复制和分发内容,它也在学习如何创造新内容。
这就触及到了另一个更根本的问题,人类的创造力本身是可以被复制的吗?
我自己写公众号三年多了,说实话,我写的每一篇文章,都是我读过的所有书、看过的所有电影、聊过的所有天的某种"蒸馏"。
我没有付钱给每一个影响过我的作者和创作者。
但没人会说我"偷"了他们。
因为我是人类,学习和创作是人类的基本权利。
那AI呢,AI学习人类的作品,创造新的内容,这算"偷"吗?
这就像望远镜之于人眼。
望远镜让人类能看到肉眼看不到的东西,但我们不会说望远镜偷了星星的光。
AI让人类能处理和学习肉脑处理不了的信息量,那我们为什么要说AI偷了数据呢?
当然,这个类比也不完美。望远镜不会直接输出跟星星一模一样的东西,但AI有时候会输出跟训练数据很像的内容。
乱糟糟的说了这么多,有点乱。
但我想表达的是,关于AI和版权的争论,不应该简化成"偷"或"不偷"的二元对立。
这里面有太多的灰色地带,需要法律、伦理、技术等多个领域的专家一起来讨论。
而某些公司打着保护版权的旗号,更需要警惕一下。
如果只有少数几家公司可以训练大模型,而且这些公司还都在美国,那对全世界的其他国家来说,意味着什么?
这个问题。
答案我相信大家都懂。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com