AI 最激烈的战场，可能最不重要 - 灯塔笔记 (Dante's Beacon)

2026 年 2 月，7 个重大 AI 模型同月发布。所有人都在这一层拼命。但写了三层物理基础设施之后，我开始怀疑：最热闹的这一层，可能不是决定胜负的那一层。

所有人都在这里拼命

2 月 5 日，Anthropic 发布 Claude Opus 4.6。ARC-AGI-2 抽象推理得分 68.8%——比上一代翻了将近一倍。SWE-bench 真实世界编程 80.8%。GDPval-AA 知识工作排行榜登顶，领先 GPT-5.2 整整 144 个 Elo。发布二十分钟后，OpenAI 扔出 GPT-5.3 Codex——Terminal-Bench 2.0 得分 77.3%，反超 Opus 的 65.4%。同一天，两家公司同时发布旗舰模型。

五天后，2 月 10 日，ByteDance 的 Seedance 2.0 上线——AI 视频生成，音视频联合架构，多项评测超过 Sora 2。

第二天，2 月 11 日，智谱 AI 发布 GLM-5。744B 参数，全部在华为 Ascend 芯片上训练，零 NVIDIA 依赖，SWE-bench 77.8%，MIT 开源。当天股价涨了 28.7%。

再过一天，2 月 12 日，MiniMax 发布 M2.5。性能逼近 Opus 4.6，价格只有它的 1/20。

2 月 16 日，Alibaba 发布 Qwen 3.5。397B 参数 MoE 架构，只激活 17B，声称在多项基准上超过 GPT-5.2 和 Claude Opus 4.5。开源，Apache 2.0 协议，201 种语言。

2 月 17 日，Anthropic 发布 Claude Sonnet 4.6。SWE-bench 79.6%——距离自家旗舰 Opus 4.6 只差 1.2 个百分点，价格便宜 5 倍。在实际开发者测试中，70% 的人更偏好它而非上一代旗舰 Opus 4.5。

2 月 26 日，Google 放出 Gemini 3.1 Pro 预览版。ARC-AGI-2 得分 77.1%——反超 Opus 4.6 的 68.8%。

三周之内，每隔两三天就有一个模型刷新某项纪录，然后被下一个模型超过。月之暗面的 Kimi K2.5 在 1 月 26 日已经抢跑。没有人能安全地坐在榜首超过一周。

Google DeepMind 的 CEO Hassabis 在 1 月说中国最好的模型和美国"只差几个月"。RAND 在 2026 年初的研究更具体：中国大模型平台的网站访问量在两个月内增长了 460%，全球市场份额从 3% 跳到 13%。而且头部中国模型的崛起没有蚕食彼此的流量——Qwen、Moonshot、智谱 AI 同期都在增长。

这就是 2026 年 2 月的模型层。所有人都在这里拼命。但拼了三层物理基础设施之后再看这一层，我看到了一个反直觉的现象。

逆袭

下面三层，中国的处境是逐层递减的。

第一层电力——不可蒸馏的优势。全球第一的装机容量，西部的水电和风电为数据中心提供全球最低成本的电力。

第二层芯片——三面墙。EUV 光刻机、台积电先进制程、CUDA 软件生态，每一面都是硬性制约。Ascend 910C 的推理性能只有 H100 的六成。

第三层云——放大器。有独特性但没有明确优势，芯片层的裂缝和电力层的优势在这里同时被放大。

按这个趋势，到了第四层模型层，中国应该更弱才对——芯片更少、算力更贵、训练集群更小。

但事实恰好相反。

模型层是中国追赶速度最快、差距最小的一层。Qwen 和 DeepSeek 在全球开源模型排行榜上长期占据前列。GLM-5 完全在国产芯片上训练却在多项基准上逼近 GPT-5.2 和 Claude Opus 4.5。

但这个反弹需要诚实地限定范围。

前沿依然在美国手里

追赶最快不等于追上了。

开场列的那些基准数字，仔细看会发现一个规律：中国模型在刷新纪录的同时，美国前沿模型也在刷新纪录。Opus 4.6 在 GPQA Diamond 上拿了 91.3%，ARC-AGI-2 上 68.8%——而 Gemini 3.1 Pro 三周后就把 ARC-AGI-2 刷到了 77.1%。前沿的速度比追赶的速度更快。

中国没有对等的闭源前沿模型。

Qwen 3.5 和 GLM-5 在开源世界很强，在多项基准上确实逼近了 GPT-5.2 和 Claude Opus 4.5（上一代）。但和 Opus 4.6 比，差距依然明确。尤其是在需要深度推理、复杂代码工程、长链条多步骤任务这些"最后 5%"的能力上——这恰恰是企业愿意付高价买单的能力。

Opus 4.6 也很贵。但对于华尔街的对冲基金、硅谷的 AI 创业公司、全球 500 强的内部工具来说，贵不是问题，能力才是。这部分高端市场，中国模型目前进不去。

这里有一句暴论：Opus 4.6 是 2026 年最强的模型，也是 2026 年最弱的模型。这两句话同时为真。 最强，因为此刻没有任何模型在综合前沿能力上能超过它。最弱，因为它是这个时间点的天花板——而 AI 模型的天花板每隔几个月就被刷新一次。今天的"一骑绝尘"，半年后就是基准线。

但"高端市场进不去"不等于"大部分市场进不去"。

Token 就像人的时间——有的人时间值 50/小时，但绝大多数工作不需要 $1000/小时的人来做。笔者的公司有 AI 翻译的 API，大多数场景下 Qwen 就够用了。语音转文字、内容摘要、客服对话——这些占企业 AI 使用量 80% 以上的场景，根本没有上 Opus 4.6 的必要。用 Opus 4.6 做日常翻译，就像请一个诺贝尔奖得主来批改小学作业。

这意味着什么？前沿模型的能力天花板在不断升高，但大部分真实业务场景的需求天花板并没有同步升高。 当"够用"的模型越来越便宜甚至免费，前沿模型的优势就被压缩到越来越窄的高端场景里。中国模型不需要在所有维度上追平 Opus 4.6——只需要在 80% 的场景里"够用且便宜"，就能拿走大部分市场。

不过，有一个领域中国确实撕开了一角：视频生成。

ByteDance 的 Seedance 2.0 在 2 月 10 日发布，音视频联合生成、导演级镜头控制、多镜头叙事——在多个评测中超过了 Sora 2 和 Veo 3.1。这不是"追平"，是局部领先。ByteDance 做短视频出身，TikTok/抖音的内容生态提供了其他竞争对手无法复制的反馈回路。

但 Seedance 2.0 有一个耐人寻味的细节：全球 API 迟迟没有开放。 原定 2 月 24 日的全球 API 发布推迟了，目前只在中国市场的"即梦"平台上可用。官方说法涉及版权争议，但更深层的原因可能是——生成视频消耗的算力远超文本，而算力瓶颈从芯片层一路传导上来。模型做出来了，但没有足够的算力大规模服务全球用户。

这恰好呼应了前几篇的判断：芯片层的裂缝不会消失。它沿着蛋糕向上传导，在每一层打折扣。 模型层的性能可以通过效率创新追近，但模型层的产能——能同时服务多少用户、能多快响应——仍然受制于下面两层。

所以模型层的图景比"中国追上了"更复杂：开源模型追平甚至局部领先，高端闭源模型差距依然明显，产能受芯片层制约。 这三件事同时为真。

理解了这个背景，再来看中国模型为什么能追得这么快。

约束催生效率

答案藏在约束本身里。

芯片受限，意味着中国团队不能用"堆算力"的方式暴力训练。他们必须在有限资源下把效率拧到最高。这种约束反而逼出了一系列工程创新。

MoE（混合专家架构）：MoE 不是中国发明的，但中国团队在资源受限下把它用到了极致。DeepSeek-V3 有 671B 参数，但每个 Token 只激活 37B——不到总参数的 6%。相当于你有一栋 100 层的大楼，但每次只开 6 层的灯。推理计算成本大幅降低，性能却接近全参数模型。

蒸馏：用大模型的输出来训练小模型。这就像一个学生不需要从零自学，而是直接学习一个优秀老师的解题思路——学习成本低得多，但考试成绩可以很接近。DeepSeek 早期靠这个方法以极低成本做出了接近 GPT-4 水平的模型，后续的 V3 更是把蒸馏和自研架构结合到了新高度。

强化学习优化：DeepSeek 率先在推理模型上大规模使用强化学习，让模型学会"思考过程"而不只是记住答案。这个方法论上的突破不依赖硬件规模，而依赖算法设计。

在资源约束下被逼出来的系统性工程优化。中国 AI 团队把"每单位算力能产出多少智能"这个效率指标推到了全球前列。

Stanford HAI 的数据显示，自 2022 年以来，AI 推理成本下降了 280 倍以上。中国团队是这个趋势的主要推动者之一。

蒸馏悖论

但蒸馏这条路有一个深层矛盾。

蒸馏的逻辑是：用已有的强模型的输出来训练新模型。DeepSeek 用 OpenAI 的 o1 来生成推理数据，再用这些数据训练自己的模型。OpenAI 已经在美国国会正式指控 DeepSeek 蒸馏其模型——"DeepSeek 的下一个模型应该在其持续搭便车的背景下被理解。"

这里面有两个问题。

第一，天花板问题。 学生可以通过学习老师的解题思路来提高成绩，但很难超过老师。蒸馏模型可以在特定基准上追平甚至超过教师模型（通过专项优化），但在通用能力的前沿——比如发明下一个 Transformer 级别的架构突破——蒸馏做不到。Hassabis 的判断很关键："中国能在基准测试上追平，但还没有证明他们能超越前沿。"

第二，路径依赖问题。 如果蒸馏依赖前沿闭源模型的存在，那当 OpenAI、Anthropic、Google 进一步收紧 API 访问、加强输出水印、在法律上追究蒸馏行为——这条路可能被堵。OpenAI 已经明确禁止用其输出来训练"模仿前沿 AI 模型"。

当然，蒸馏只是中国模型崛起的一个因素，不是全部。MoE 架构创新、强化学习方法论、数据工程效率——这些不依赖蒸馏。DeepSeek 的 V3 模型在预训练阶段就展示了独立的技术突破。一旦开源模型足够强，蒸馏的"教师"可以是开源模型本身，不再依赖闭源 API。

蒸馏悖论的结论不是"中国模型全靠抄"，也不是"蒸馏完全没问题"。而是：这条路径有真实的效率优势，也有真实的天花板和风险。它能让你追平前沿，但不一定能让你定义前沿。

Android 打法

如果说蒸馏是追平性能的手段，开源就是抢占市场的战略。

中国模型几乎全部走开源路线。Qwen 3.5 用 Apache 2.0，DeepSeek 用 MIT License，GLM-5 也是 MIT License。对比之下，OpenAI 的核心模型闭源（虽然后来也发布了 gpt-oss 系列），Anthropic 和 Google 的前沿模型也是闭源为主。

这像极了 Android vs iOS 的剧本。

iOS（闭源模型）：体验更好、更安全、但贵，且开发者被锁在生态里。 Android（开源模型）：免费、可定制、可本地部署，开发者自由度高。

Android 最终拿了全球 70%+ 的智能手机份额。不是因为它比 iOS 更好，而是因为它更便宜、更灵活、更容易适配不同硬件和市场。

中国开源模型正在走同样的路。HuggingFace 趋势榜上，中国模型（DeepSeek、Qwen、GLM）长期占据主导。a16z 说 80% 的美国 AI 创业公司不再用 OpenAI 或 Anthropic 的模型。RAND 报告显示，中国模型在发展中国家和与中国关系紧密的国家渗透率最高——30 个国家超过 10%，11 个国家超过 20%。

但 Android 打法也有 Android 的问题。很多企业不敢用中国开源模型——不是性能问题，是信任问题。

这个信任问题的本质比大多数人以为的更深。

表面上看是数据安全。中国模型带有审查偏向（敏感话题的回避），开放权重不等于完全透明，无法排除模型输出被刻意调控的可能性。但 Qwen 是开源的，你可以下载权重、本地部署，数据不出你的服务器——理论上没有数据安全问题。企业还是不敢用。为什么？

因为合规不是技术判断，是政治判断。一个美国银行的 CTO 选了中国模型，出了任何事——哪怕和模型完全无关——他面对的第一个问题就是"你为什么选了中国的"。没有人会因为选了 AWS 上的 Claude 被问责，但选了阿里云上的 Qwen 就要写报告。这不是性能差距，是选择的政治成本不对称。

再深一层：数据合规框架本身就是地缘政治工具。GDPR、美国的 CLOUD Act、中国的数据出境安全评估办法——这些法律表面上保护公民数据，实际效果是把数据主权和技术栈绑定在一起。你用了哪国的模型，就隐性地接受了那国的数据治理逻辑。

所以数据合规不是技术壁垒，是信任壁垒。而信任壁垒的底层是主权壁垒。 它和芯片制裁是同一件事的两面——芯片制裁卡的是供给侧（你不能造），数据合规卡的是需求侧（你不敢用）。中国模型在性能上可以追平，在价格上可以更低，但在信任上——这个成本是写在国旗上的，工程优化解决不了。

在受监管的行业（金融、医疗、政府），这个信任成本足以抵消所有价格优势。在不那么敏感的行业和发展中国家市场，价格优势仍然可以压过信任成本——这也是为什么 RAND 报告显示中国模型在发展中国家渗透率最高。

开源的全球份额在扩大，但闭源在高价值客户中的地位也没有动摇。两条路径可能长期共存，就像 Android 和 iOS 今天仍然共存一样——但分界线不是性能，是信任；不是技术，是主权。

不过，Android 的类比还藏着一层更深的含义。

中国没有办法禁用 Android。不是因为信任 Google，是因为整个移动生态——应用、开发者、供应链——已经长在 Android 上了。禁用的成本远大于信任的风险。当一个开源标准渗透到足够多的开发者工具链、企业内部系统、和基础设施里，它就从"可选项"变成了"事实标准"。到了那个临界点，信任成本不是被解决了，而是被"没得选"覆盖了。

中国开源模型正在走这条路。Qwen 已经是 HuggingFace 上下载量最大的开源模型家族。当越来越多的东南亚开发者在 Qwen 上训练自己的垂直模型、越来越多的非洲创业公司用 DeepSeek API 构建产品、越来越多的中东企业在阿里云上跑 Qwen——生态依赖就在形成。一旦形成，切换成本就会逐渐超过信任成本。

信任壁垒是真实的，但它不是永恒的。解法不是去说服别人信任你，而是让你的标准变成事实标准，让"不用你"的成本比"信任你"的成本更高。

商品化的终局

前面说了两件看似矛盾的事：前沿模型越来越强也越来越贵（Opus 4.6），同时大部分场景根本不需要前沿模型。这两件事合在一起，指向一个结论。

模型层正在快速商品化。

Token 价格的证据最直接：2023 年初，使用大模型的成本是 0.00014/千个输入 Token。两年跌了 99%。

这个趋势的驱动力是多方面的：MoE 降低推理成本、蒸馏降低训练成本、开源模型消除授权费、硬件效率持续提升。所有力量都指向同一个方向——模型的价格趋向于零。

Constellation Research 的分析师直说了："模型的可能价格是免费。"

如果模型趋向于免费，那"谁的模型更好"就不再是竞争的核心问题。当所有人都能获得 GPT-4 级别甚至更强的模型能力——通过开源下载或者极低价 API——差异化就不在模型本身了。

差异化在哪？回到了下面三层。

谁能最便宜地运行这些模型？——回到电力层。Token 的边际成本归根到底是电费。中国的水电优势在这里再次出现。

谁能以最低延迟把推理结果交付给用户？——回到云层。数据中心的地理位置、网络带宽、部署效率。

谁能把模型嵌入用户每天使用的产品里？——往上看应用层。这才是锁定用户的地方。

模型层是五层蛋糕里最热闹、最受关注、竞争最激烈的一层。但恰恰因为竞争太激烈、迭代太快、开源太普及——它可能是价值捕获最少的一层。

最不性感的地方

写模型层的过程中，有几个想法不断浮现，和模型本身无关，但可能比任何基准测试都重要。

第一，世界不止有欧美。 很多分析把目光锁死在硅谷和欧洲，好像只有发达国家市场才值得争。但 RAND 的数据已经说明了——中国模型渗透最快的是发展中国家，30 个国家超过 10% 的份额。东南亚、中东、拉美、非洲——这些地方加在一起，是全球大多数人口。它们的消费能力在增长，数字化速度不比发达国家慢，而且它们对"美国标准"没有天然的忠诚。忽略这些市场，就像只看一楼的客厅却忘了整栋大楼有二十层。

第二，从人类发展的角度看，每一条阻碍效率的墙最终都会被拆掉。 芯片制裁、数据合规壁垒、蒸馏封锁——这些都是真实的墙，但历史上没有哪堵技术封锁的墙是永恒的。只是历史并不总是线性发展。它不是一条直线向上的斜坡，而是螺旋式上升的结构——有回退，有绕路，有看似倒退的弯道，但长期方向是效率更高、成本更低、覆盖更广。

第三，也是最想说的一句：世界上最难走的路，可能不是那条泥泞挣扎的崎岖小路，而是康庄大道上，草丛边藏着一个又一个的诱惑。 中国模型目前面临的最大风险不是"追不上"——蒸馏、MoE、开源已经证明追得上。最大的风险是在份额快速扩张的过程中，被短期增长的诱惑带偏：为了市场份额牺牲模型安全、为了政治正确扭曲模型输出、为了国内审查习惯而失去全球开发者的信任。这些诱惑不会一次性出现，而是一个接一个地藏在路边，每一个看起来都很合理，但累积起来就偏离了方向。

四层写下来，一个规律变得越来越清楚：越热闹的层越难建立护城河，越不起眼的层越可能决定终局。

电力最不性感，但它决定了 Token 的边际成本下限，谁也绕不过去。模型最热闹，但它正在变成自来水——打开水龙头就有，没人在意水是从哪条管道来的。

上面还有最后一层：应用。

如果模型是免费的，那价值在哪里？在把模型变成十亿人每天使用的产品里。搜索、电商、社交、办公、支付——谁能把 AI 嵌入这些高频场景，谁就锁定了用户。

这恰恰是中美各自最强的领域。中国有微信、支付宝、抖音、淘宝。美国有 Google、Apple、Microsoft、Meta。

下一篇，最后一层。五层蛋糕的顶部。