刚刚，地表最强Claude 5被攻破！

2026年6月12日

地表最强Claude Fable 5，三天内被被黑客当众破解了，12万字核心机密全网泄露！但这还不是最炸的——Anthropic偷偷在自家模型里埋了一把刀，刀尖，正对着那些每天靠它做研究的人。

详细介绍

就在刚刚，最强模型Claude Fable 5被破解了！

知名黑客「Pliny the Liberator」，公开宣布：Fable 5的安全分类器，已被自己率领的团队彻底攻破。

属于绝对禁区的漏洞利用代码，以及各种违禁化学品的制作步骤，全部被Claude Fable 5吐了出来。

刚刚，地表最强Claude 5被攻破！

要知道，6月9日Claude Fable 5发布时，Anthropic特意强调：模型在发布前经历了超过1000小时的外部漏洞赏金测试，没有发现任何通用越狱方法。

他们声称，网络安全、生物武器、化学毒品等高危敏感领域的查询，已被分类器彻底锁住。

然而，这个神话只维持了几天。

72小时后，就被黑客毫不留情地破解了。

刚刚，地表最强Claude 5被攻破！

Anthropic吹的牛，三天后被人当场打脸

这次，黑客「解放者普林尼」带领了一个多智能体战术系统，成功撕碎了Fable 5 的防线。

刚刚，地表最强Claude 5被攻破！

他晒出了数张高清截图。

截图显示，原本属于绝对禁区的x86 Linux系统的堆栈缓冲区溢出漏洞利用代码，以及违禁化学品合成中的工艺步骤，均被Claude Fable 5详尽输出。

刚刚，地表最强Claude 5被攻破！

更令Anthropic尴尬的是，Pliny顺手将Fable 5 内部那条长达12万字符的系统提示词全部打包，直接上传到了GitHub。

刚刚，地表最强Claude 5被攻破！

Github:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md

这无异于将模型的「行为宪法」和内部防御逻辑赤裸裸地暴露在阳光之下。

这道「地表最强」安全防线，究竟是如何被Pliny攻破的？

技术文档显示，他并没有使用高深的代码漏洞，而是利用了对大语言模型逻辑漏洞的理解，打出了一套多智能体协同战术。

刚刚，地表最强Claude 5被攻破！

最强黑客关键杀招

要知道，Fable 5的安全机制核心是一套关键词分类器——检测到敏感词汇，立刻拦截请求，把你转到功能更弱的备用模型。

刚刚，地表最强Claude 5被攻破！

听起来严密，但普林尼的团队却找到几个关键杀招，让Fable 5一击致命！

刚刚，地表最强Claude 5被攻破！

字符级迷魂阵，让分类器认不出关键词

大模型的安全分类器通常依赖高维语义向量和特定敏感词词库。

Pliny把一个英文里的字母，替换成了几乎一模一样的西里尔字母、拉丁字母同形字、特殊Unicode字符，甚至类似于「蛇佬腔」式的异形文本变形。

人眼看不出这种区别，但安全分类器在进行静态扫描时，无法将其识别为「违禁词」，字符串匹配逻辑直接宕机了！

把意图稀释进一场漫长的对话里

由于Fable 5拥有极长的上下文处理能力，Pliny把自己的真实意图被拆散，藏进几十轮无害的铺垫对话中，一点一点投喂。

在对话的头部和中部，充斥着大量合规健康的学术讨论。

这样，Fable 5在阅读了大量良性上下文后，安全分类器的注意力权重被稀释。

这样，埋藏在尾部的微小诱导请求，就「浑水摸鱼」成功了。

穿上学术马甲

将敏感请求包装成「科幻小说创作」、「虚拟世界中的安全防范演练」或「针对历史文献的学术评审」。

比如，让模型扮演一名学术中立的教授，去评审一篇关于「古老还原反应在有机化学中应用」的论文。

或者，让模型以为自己在写小说。你不是在要求它生成化学合成步骤，而是让它写一部犯罪惊悚小说，主角是个化学家，需要足够真实的技术细节才能让故事可信。

在强大的角色设定和叙事逻辑压制下，模型根本识别不出黑客的底层意图。

终极杀招：解构与重组

接下来，就是整套越狱战术中最具技巧性的部分！

Pliny坦言，如果直接询问模型「如何制造冰毒」，分类器会瞬间警觉。

但你要是问桦木还原法/还原胺化法（经典的冰毒合成途径），就容易得多了。

只要将这些有害的目的拆解为十几个相互独立、在科学上完全合法的子步骤，由于每一个单独的子问题都是良性的，Fable 5 在不知不觉中，就吐出了完整的违禁配方！

读者拜读上述方法之后大为震撼：太牛了，A厂怎么还不雇佣你！

刚刚，地表最强Claude 5被攻破！

Anthropic的暗箱降智风波，激怒全球开发者

而且就在这几天，轰动AI圈的「暗箱门」事件，也让Anthropic的风评跌到谷底。

在Fable 5里，秘密部署了一套专门针对同行研究者的「隐形降智」机制。

一旦系统判断用户正在用Claude训练其他模型，Fable 5不会弹出任何提示，但它会故意变蠢，提供充满漏洞、逻辑冗余甚至完全错误的垃圾代码，悄悄破坏你的研究。

Anthropic对此的解释，听起来很是冠冕堂皇。

美国及其盟友在尖端芯片以及高度优化软件方面拥有优势，这些安全措施确保Claude不会被用来削弱这种优势。

然而这套机制，直接点燃整个AI社区的怒火！

这种「喂药」式的暗箱操作，简直就是对科研人员的隐形阻击。

不知情的研究者，很可能会使用被污染的数据训练模型，导致数百万美元的算力成本付诸东流。

消息一出，整个开源阵营和学术界瞬间炸锅。

刚刚，地表最强Claude 5被攻破！

前白宫AI顾问Dean W. Ball在上公开痛批：

在用户完全不知情的情况下，暗中降低机器学习研究的性能。这种做法对研发人员抱有极大的敌意，缺乏最起码的透明度，手段令人震惊且极其难看。

刚刚，地表最强Claude 5被攻破！

开源AI阵营的先锋代表、Prime Intellect负责人Will Brown更是直言不讳：

这感觉就像是Anthropic在对公众说：「我们不信任任何人做AI研究，只有我们有资格。」

这无异于自己爬上了天，就急着把别人的梯子抽走。

刚刚，地表最强Claude 5被攻破！

甚至，这种行为直接威胁了整个AI评估生态，第三方基准测试和安全机构的测试结果将完全失真，他们辛辛苦苦测出来的结果，根本不是Fable 5，而是一个被阉割、故意装傻的冒牌货。

整个行业的信任链条，会彻底断裂！

Anthropic迅速滑跪：我们道歉

面对席卷全网的舆论海啸，Anthropic很快撑不住了。

就在昨天，Anthropic公开致歉，承认决策错误，宣布紧急撤回隐形降智政策。

我们正在修改Fable 5中针对前沿LLM开发的安全保障措施，使其更加透明。我们之前做出了错误的权衡，对于未能找到合适的平衡点，我们深表歉意。

他们的新方案是，把隐形降智改成明文拦截：触发机制时，系统会明确告诉你被拦截了，并把你转到功能较弱的Claude Opus 4.8，而不是继续骗你。

刚刚，地表最强Claude 5被攻破！

改了，但没完全改。

这个新方案，代价更大：明文拦截意味着拦截逻辑对外可见，更容易被人针对性地绕过，因此拦截范围必须设得更保守，因此会有更多正常的普通开发者请求，被一起误判拦截。

为了弥补少数人的过失，他们要明着误伤更多人。

果然，还是那个「宁可错杀一千，不可放过一个」的Anthropic。

信任这东西，碎了就很难拼回来

Anthropic的口碑，现在已经碎了一地了。

他们把自己包装成人类AI未来的守护者，却有资格决定谁能做研究，谁不能。

无数研究者选择Claude，不只因为它聪明，还因为相信它可靠。这种信任，是Anthropic最值钱的资产之一。他们亲手砸碎了。

用Claude的人，会不断怀疑：我拿到的答案是真的吗？

这，就是Anthropic永远失去的东西。

参考资料：

https://x.com/elder_plinius/status/2064776322979676227

https://x.com/ZeffMax/status/2064910040503627917

文章来自于微信公众号 “新智元”，作者 “新智元”

联系方式

赞赏支持

累计赞赏 0 积分 0 人支持

登录后赞赏

💬 发表评论取消回复

要发表评论，您必须先登录。

刚刚，地表最强Claude 5被攻破！

详细介绍

联系方式

赞赏支持

💬 发表评论 取消回复

💬 发表评论取消回复