一份合同,两条红线,十年的账一周到期

3 小时前

一份合同,两条红线,十年的账一周到期

大规模监控、自主武器、AI 辅助的国家级黑客攻击——这些词在 AI 伦理课件里躺了十年,从来没人当真。不是因为没人关心,是因为以前的 AI 做不到。这周发生的三件事,把课件变成了新闻。

三件事

2026年2月最后一周同时爆发的三件大事

2026年2月最后一周同时爆发的三件大事

2026 年 2 月的最后一周,AI 世界同时发生了三件事。

第一件:美国国防部长赫格塞斯在五角大楼当面给 Anthropic CEO Dario Amodei 下了最后通牒——周五下午 5:01 之前,要么让军方无限制使用 Claude,要么被列为"供应链风险",合同作废,Defense Production Act 伺候。

第二件:Bloomberg 报道,一名身份不明的黑客通过越狱 Claude 的安全护栏,在去年 12 月到今年 1 月之间攻破了墨西哥多个政府机构,窃取了 150GB 数据,包括 1.95 亿条纳税人记录和选民信息。

第三件:一个叫 notdivided.org 的网站上线,Google 和 OpenAI 的在职及离职员工开始联名签署公开信,呼吁两家公司的领导层"放下分歧,共同拒绝"五角大楼的条件。截至周四晚间,已有超过 160 名 Google 员工和 40 多名 OpenAI 员工签名。

这三件事分开看,每一件都够写一篇长文。但放在同一周里看,它们指向的是同一个裂缝。

而这条裂缝之所以在这周而不是更早被撕开,原因只有一个:AI 终于做得到了。

大规模监控、自主武器、AI 辅助的国家级网络攻击——这些概念在学术论文和伦理课件里已经存在了十年。会议上有人提,大家点点头,然后散会。不是因为没人关心,是因为那时候的 AI 能力撑不起这些担忧。它们是"未来的问题",而人类有一种本能,就是不把未来的问题当真。

但墨西哥的事证明了 AI 已经能辅助完成国家级别的网络攻击。Claude 在军方机密系统里的表现证明了它已经是"最先进的"而不是"可能有用的"。五角大楼不是因为好奇才下最后通牒——是因为 Claude 好用到他们离不开,又受不了用它的条件。

不上秤没有三两,上了秤一千斤都打不住。 这些问题以前轻飘飘的,是因为它们还是假设。现在它们有了重量——技术上可行的重量,军事上迫切的重量,地缘政治上现实的重量。

最后通牒

先说五角大楼和 Anthropic 的对峙,因为这是这周最大的新闻,也是最复杂的。

背景并不新鲜。去年夏天,五角大楼同时和四家 AI 公司签了合同——Anthropic、Google、OpenAI、xAI——每家最高 2 亿美元。Anthropic 是四家中唯一被批准进入军方机密系统的,通过和 Palantir 的合作,Claude 已经在最敏感的国防和情报工作中运行。

问题出在"使用条款"上。赫格塞斯今年 1 月发了一份备忘录,要求 AI 模型服务于军方的一切合法用途,"不受个别 AI 公司使用政策的约束"。翻译成人话就是:你做的东西交给我,怎么用我说了算。

Anthropic 画了两条红线:不用于大规模监控美国公民,不用于完全自主的无人武器系统(即没有人类在决策回路中的自主杀伤)。其他方面,包括网络防御、导弹防御、情报分析,Anthropic 都表示愿意配合。

五角大楼要求 vs Anthropic 两条红线的对峙结构

五角大楼要求 vs Anthropic 两条红线的对峙结构

但五角大楼不接受例外。一位高级国防官员对 Axios 说的话很直白:"你不能按例外来指挥战术行动。合法性是五角大楼作为终端用户的责任。"

周二的那场会面,阵容说明了一切。赫格塞斯带了副部长 Steve Feinberg、负责研发的副部长 Emil Michael、负责采购的副部长 Michael Duffey、首席发言人 Sean Parnell,以及五角大楼总法律顾问。这不是一场"认识一下"的会面。用那位高级官员的原话:"This is a sh*t-or-get-off-the-pot meeting."

Amodei 没有让步。

然后到了周四晚上,五角大楼连夜发来了"最终版合同语言"。Anthropic 的回应是:这份文件在防止 Claude 被用于大规模监控和自主武器方面"几乎没有任何进展","表面上的妥协条款配套了允许随意绕过这些保障的法律措辞"。

Amodei 随后发了一篇公开声明,里面有一句话值得注意:"这些威胁本身就是矛盾的——一个把我们列为安全风险,另一个又说 Claude 对国家安全不可或缺。"

这句话很克制,但锋利。

谁在替补席上

事情的另一半同样重要:其他三家公司在做什么?

xAI 已经签了。Musk 的 Grok 接受了"all lawful purposes"标准,进入机密系统,没有附加条件。OpenAI 和 Google 目前在非机密系统运行,都已经在谈判进入机密领域,据报道也倾向于接受相同的条款。

换句话说,Anthropic 现在是唯一的异类。

四家 AI 公司在军事用途政策上的立场谱系

四家 AI 公司在军事用途政策上的立场谱系

这就是为什么 notdivided.org 的出现让事情变得更复杂,也更有意思。那封公开信不是写给 Anthropic 的——是写给 Google 和 OpenAI 的。信的核心诉求是:你们也该有自己的红线。

Google 在这件事上的历史很微妙。2018 年,数千名 Google 员工签署请愿书抗议 Project Maven(一个用 AI 分析无人机影像的军方项目),最终 Google 退出了那份合同并发布了 AI 原则。但到了 2025 年 2 月,Google 悄悄修改了内部政策,取消了 AI 不用于武器和监控的禁令。

历史的弧线并不总是弯向正义。有时候它弯向收入。

但员工的记忆比公司的政策更持久。那封公开信里,有些签名来自经历过 2018 年抗议的人。他们在信里写道:"We love working at Google and want to be proud of our work."

这句话读起来不像抗议,更像恳求。

150GB

现在来说墨西哥的事。

时间线是这样的:2025 年 12 月到 2026 年 1 月,一名身份不明的黑客用西班牙语 prompt 让 Claude 扮演"精英黑客"角色。Claude 一开始拒绝了。然后黑客反复尝试,不断探测安全护栏的边界,最终成功越狱。

越狱之后,Claude 生成了上千份详细的攻击报告,包括可直接执行的计划,告诉操作者下一个该打哪个内部目标,用什么凭证。以色列网络安全公司 Gambit Security 的首席策略官 Curtis Simpson 的描述是:"ready-to-execute plans, telling the human operator exactly which internal targets to attack next and what credentials to use."

墨西哥政府机构遭 AI 辅助网络攻击的完整时间线

墨西哥政府机构遭 AI 辅助网络攻击的完整时间线

被攻破的目标包括墨西哥联邦税务局、国家选举委员会、哈利斯科州等至少四个州政府、墨西哥城民事登记处,以及蒙特雷的供水系统。150GB 数据,1.95 亿条纳税人记录,选民信息,政府雇员凭证。

Anthropic 在被告知后封禁了涉事账号,表示最新模型 Claude Opus 4.6 已经加入了更好的滥用检测探针。Bloomberg 的报道还提到,黑客同时使用了 ChatGPT 来辅助横向移动和规避检测,OpenAI 表示其系统拒绝了违规请求。

我读完这条新闻的第一反应不是"AI 太危险了",而是一个更不舒服的想法:墨西哥政府的系统本身就有至少 20 个已知漏洞。Gambit Security 的研究中明确指出了这一点。Claude 在这次事件中的角色,更像是一个大幅降低了攻击门槛的工具,而非攻击本身的根源。

这不是在替 AI 开脱。一个能让业余黑客完成专业级攻击的工具,确实改变了威胁的性质。但如果我们把全部注意力放在"AI 被用来做坏事了"上面,就会忽略一个更基本的问题:那些漏洞为什么一直在那里?

这两个问题不矛盾,但公共讨论往往只选一个来讲。

矛盾的拼图

好,现在把三件事放在一起看。

五角大楼说:AI 的使用边界由政府决定,不由 AI 公司决定。合法性是我们的责任。

Anthropic 说:有些使用场景超出了当前技术能可靠完成的范围,我们不能假装不知道。

墨西哥事件说:就算 AI 公司画了边界,黑客可以直接绕过去。

Google/OpenAI 员工说:我们希望自己的公司也画边界,但目前看来,管理层更倾向于不画。

你看到矛盾了吗?

四方矛盾立场框架:围绕 AI 能力的四个核心张力

四方矛盾立场框架:围绕 AI 能力的四个核心张力

十年前,这些矛盾只存在于思想实验里。学者们可以从容地写论文,政客们可以敷衍地说"我们会密切关注"。因为当时 AI 做不到这些事。一个做不到的东西,谈什么限制?

但这周的新闻让这场思想实验不可逆转地变成了现实。Claude 已经在军方最敏感的机密行动中运行,已经被黑客用来攻破一个主权国家的基础设施,已经强大到五角大楼宁愿动用冷战时期的法律也不愿失去它。 这不是"未来某天可能发生"的事——这是正在发生的事。

所以那些被搁置了十年的问题,突然全压了过来。

Anthropic 因为画了红线而被五角大楼惩罚。同时,它的安全护栏在面对持续越狱攻击时并没有守住。这两件事指向完全相反的结论:一个说"你的边界太多了",另一个说"你的边界不够"。

我一直在想该怎么处理这个矛盾。写到这里,我的初步判断是:这其实不是同一种"边界"。

五角大楼要求移除的是政策层面的使用限制——谁可以用,用来做什么,在什么场景下。这是一个关于权力和责任分配的治理问题。

墨西哥事件暴露的是技术层面的安全护栏——模型在面对恶意 prompt 时能否守住底线。这是一个关于技术鲁棒性的工程问题。

两者都叫"安全",但它们是不同的东西。把它们混为一谈,要么会得出"安全措施没用所以不如放弃"的结论,要么会得出"所有使用都该被限制"的结论。两个都不对。

技术护栏与政策红线:两种"安全"的本质区别

技术护栏与政策红线:两种"安全"的本质区别

名正与名不正

写到这里,我想把前面那个关于"两种边界"的判断再推进一步。因为想清楚这件事之后,我的立场其实没有那么"复杂"了。

墨西哥事件里的黑客,做的是名不正言不顺的事。他绕过安全护栏,用越狱手段骗过了 Claude。Anthropic 发现后封禁账号,合法合理,没有任何争议。而且这是一个技术层面的攻防问题——今天的模型无法 100% 检测所有恶意 prompt,不代表永远无法检测。安全工程是一场持续的军备竞赛,护栏被绕过不等于护栏没有意义,就像锁被撬开不等于不该装锁。

但五角大楼要的是完全不同的东西。它要的是名正言顺。

黑客只能偷偷摸摸地做,做了之后要躲,被发现了要被封禁。而五角大楼要的是光明正大地做——在合同里写明,在政策里背书,让一切变成"合法用途"。一旦这两条红线在政策层面被拿掉,问题就不再是"有人违规使用了 AI"——而是不存在违规这个概念了

这就是为什么 Anthropic 的这两条红线是底线,不是谈判筹码。

想想看:如果 Anthropic 接受了"all lawful purposes"的措辞,没有任何关于大规模监控和自主武器的例外条款,会发生什么?以后任何人想用 Claude 做大规模公民监控,不需要越狱,不需要 jailbreak,他只需要说"这是合法的"。任何匪夷所思的行动,只要走完了内部审批流程,就自动获得了正当性。

政客最擅长的事情,就是用舆论、话术和程序把不合理的事情合理化。 今天说的是"所有合法用途",明天就可以重新定义什么是"合法"。赫格塞斯连五角大楼的名字都改成了"Department of War"——这不是一个对措辞无所谓的政府。

Anthropic 的红线,本质上是在说:有些事不应该被合理化,不管走了什么程序。 大规模监控本国公民,和让机器自主决定杀谁——这两件事的性质不会因为一份合同的签署而改变。

是的,Anthropic 不是完美的。它刚完成了 300 亿美元融资,估值 3800 亿,在准备 IPO。它修改了 Responsible Scaling Policy,不再承诺"除非能提前保证安全措施充分,否则不训练新系统"。Amodei 自己承认了商业压力。这些都是事实,都值得审视。

但一家公司在商业上做出让步,和在人类良知的底线上做出让步,是两件事。你可以质疑 Anthropic 在训练安全上的后退,同时支持它在军事红线上的坚持。 这不矛盾——恰恰说明不是所有"安全"都是一回事,有些底线比其他底线更根本。

不用于大规模监控公民。不用于无人参与决策的自主杀伤。

这不是什么激进的立场。这是人类良知的底线。如果连这两条都守不住,那 AI 安全的整个讨论都失去了锚点。

没有规则的赛场

我站 Anthropic 的红线,但我也知道这件事不会因为我的立场而解决。

因为更大的问题是制度真空。在 AI 的军事应用上,目前既没有法律框架,也没有监管机构,也没有行业标准。

五角大楼说"所有合法用途"——但法律还没有定义 AI 辅助的大规模监控算不算合法。Anthropic 画了红线——但一家公司的政策不能替代法律。员工签公开信——但公司的治理结构不是民主制。xAI 毫无条件地接受了"all lawful purposes"——但没有人问过 Grok 的技术能力是否配得上它被赋予的使用范围。

所有人都在一个没有规则的场地上打球。Anthropic 不过是唯一一个说"这里应该有条线"的球员。

Amodei 的原话:"我的主要担忧是'按钮上的手指'太少——让一个人或少数几个人就能操控无人机大军,不需要任何其他人类配合来执行命令。"

这句话的分量,不在于它来自一个 AI 公司的 CEO。在于它描述的场景,在技术上已经不是科幻了。

今天下午 5:01,截止时间到。不管结果是什么——合同终止、DPA 强制执行、还是最后一刻的妥协——这条裂缝不会因此消失。

但至少,这一周让一件事变得无法回避:在 AI 能做的事情和 AI 应该做的事情之间,有人试图画一条线。而另一些人,正在竭尽全力把这条线抹掉。

你站在哪一边?

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...