Anthropic叫停最强模型Mythos:73%黑客成功率让全球陷入安全恐慌
🚨 这是一个史无前例的时刻:Anthropic主动宣布暂停发布其最强大的AI模型Mythos,理由是——它太危险了。这是2019年OpenAI暂缓发布GPT-2以来,主要AI公司第一次以安全为由拒绝公开自己的模型。
核心数据速览
- 🔴 Mythos完成专家级黑客任务成功率:73%(此前没有任何AI能完成此类任务)
- ⚠️ 发现的关键漏洞中尚未修复的比例:99%
- 📐 数学能力:USAMO 2026测试比前代模型高出31个百分点
- 🏦 影响范围:德国银行、英国央行已紧急启动应对措施
- 🔒 Project Glasswing:仅微软、谷歌、苹果、亚马逊等12家机构可有限访问
要理解Anthropic这个决定有多不寻常,先得知道Mythos的能力究竟强到什么程度。
根据英国人工智能安全研究所(AISI)的评估,Mythos在专家级黑客任务中的成功率高达73%。作为对比,2025年4月之前,没有任何AI模型能完成这类任务——成功率为零。
更令人担忧的是,Mythos在测试中发现了所有主流操作系统和网页浏览器中的关键漏洞,其中99%目前仍未修复。这意味着如果Mythos公开发布,并被恶意行为者利用,全球几乎所有联网设备都面临风险。
除了网络安全能力,Mythos在数学方面也突破了临界点:在2026年美国数学奥林匹克竞赛(USAMO)中,它比前代顶尖模型Opus 4.6高出31个百分点。一个既懂数学又懂代码还能找漏洞的AI……这不是科幻,这是现实。
面对这个怪物级别的模型,Anthropic做了一个让整个行业震惊的决定:不发布。
他们在声明中称,公开发布Mythos可能对"经济、公共安全和国家安全造成严重后果"。这种表述几乎是AI领域前所未见的自我克制。
🔒 Project Glasswing:受控访问计划
Anthropic启动了专门的"玻璃翼"计划,只允许经过筛选的少数机构以防御目的访问Mythos,用于扫描自身网络并修复漏洞——在问题公开之前先"打预防针"。
- ✅ 微软、谷歌、苹果、亚马逊云科技
- ✅ 摩根大通、英伟达
- ✅ 另外6家经过审查的机构
- ❌ 普通用户、开发者、企业客户:暂不开放
这个策略有点像先把核弹图纸给盟友看,让他们加固防御工事,但不对外发布这张图纸。Anthropic的逻辑是:既然漏洞已经存在,让防御方先知道比让攻击方先发现要好。
Anthropic的公告一出,金融和监管领域的反应迅速而剧烈:
德国银行表示正在与当局和网络安全专家商讨相关风险。英国央行表示,在Mythos出现后,已加强了对金融体系AI风险的测试。这是AI首次直接触动国家级别的金融监管神经。
网络安全专家的意见并不统一,这场争议折射出整个行业对AI风险评估的根本分歧。
💬 两种声音
⚠️ 严重派:这是大事
- • 73%成功率是质的飞跃,2025年前任何AI都做不到
- • 99%未修复漏洞意味着"零日漏洞即服务"成为可能
- • 银行和政府已经开始应对,说明威胁是真实的
🤔 冷静派:别过度恐慌
- • 测试环境防御接近零,现实世界有多重保护
- • AISI测试是"最坏情况",不代表真实威胁
- • Anthropic的公告有公关效果加持,风险可能被夸大
佐治亚理工学院教授Peter Swire称Anthropic的公告"非常戏剧化",认为是成功的公关。前英国国家网络安全中心CEO Ciaran Martin则表示"这是件大事,但不太可能是世界末日",并指出测试环境与现实世界之间存在巨大差距。
但无论如何,一个公司主动按下自己最强AI模型的"暂停键",这本身就是一个信号。它说明AI已经进入了一个必须认真面对安全问题的新阶段。
从更宏观的视角看,Anthropic的这个决定有三重意义:
- 1. AI安全研究终于"上桌"了
过去AI安全研究常被嘲讽为"空谈"。Mythos事件证明,如果一个公司认真对待安全边界,可能真的得扔掉某些产品。这会倒逼整个行业重新审视"我们造出来的东西是否该发布"。
- 2. 监管机构有了真实案例
各国政府长期缺乏AI危险性的具体证据。Mythos提供了一个可量化的基准——73%的黑客成功率,是真实测试数据,不是假设。这可能加速全球AI监管立法。
- 3. 「负责任发布」成为新标准
Anthropic此举若获得行业认可,可能形成先例:最强大的模型不是最快发布,而是最安全发布。OpenAI、Google是否也会效仿,值得观察。
当然,也有人担心这是一个危险的先例——如果AI公司能以"太危险"为由随意扣押模型,这种权力应该由谁来监督?Anthropic自己判断危险与否,算不算利益冲突?
这些问题没有简单答案,但Mythos事件已经把它们摆到了台面上。AI的潘多拉魔盒正在打开,而第一个说"先停一停"的,是做出它的人。
原文来源: Scientific American