被卡脖子的 AI 芯片层，正在发生三件没人说的事

三面墙、三条绕路、一个所有人忽略的新变量。芯片层的故事，"卡脖子"三个字装不下。

一笔让我重新审视芯片层的交易

昨天 AMD 宣布了一笔交易：和 Meta 签了一份多年期协议，部署定制版 AMD GPU 和 CPU，为 Meta 下一代 AI 数据中心供电。

规模是 6 个吉瓦的电力容量——大约相当于 600 万户家庭的用电量——全部用于 AMD 芯片。路透社估算合同价值约 600 亿美元。

这是 Meta 在 NVIDIA 之外押注第二个芯片供应商。就在一周前，Meta 刚和 NVIDIA 签了部署数百万颗 GPU 的协议。现在又锁定了 6 吉瓦的 AMD 产能。Meta 今年的资本开支指引是 1150-1350 亿美元，它有能力同时养两个供应商。

同一天，NVIDIA 发布了 Q4 财报，季度收入 861.3 亿美元，较去年同期成长73%，而且远高于分析师预测的657亿美元。依然是怪物级别的数字。但市场的注意力已经不只在 NVIDIA 身上了。

TrendForce 的数据显示：2026 年，云厂商自研 ASIC 芯片的出货增速预计达到 44.6%，而 GPU 的增速是 16.1%。

拐点已经出现了。

AI芯片市场格局转变：GPU增速16.1% vs ASIC增速44.6%，从NVIDIA一家独大走向多元竞争

黄仁勋的五层蛋糕

去年底，黄仁勋在华盛顿 CSIS 的一场对谈中提出了一个框架：AI 产业是一个五层蛋糕。

从底到顶：能源、芯片与计算基础设施、云基础设施与云服务、AI 模型、应用。

他做了一件很有意思的事——逐层给中美两国打分。在能源层，他直接说"中国的能源储量是美国的两倍"。在芯片层，他的判断则是美国占据绝对优势。

我前面几篇文章一直在聊第一层——电力。核心判断是：Token 的边际成本最终回归电费，电力是 AI 竞争中最不可蒸馏的变量。

现在往上走一层。

芯片层是五层蛋糕里中国看起来被卡得最死的一层。EUV 光刻机买不到，台积电最先进制程用不上，CUDA 软件生态绕不开。三面墙，看起来密不透风。

但最近半年，我越来越觉得这个判断需要修正。并不是墙不在了，而是墙的位置在变。

芯片层的权力正在分散

先看全球趋势。

AMD-Meta 的 600 亿美元交易只是一个信号。更大的趋势是：AI 芯片正在从"NVIDIA 一家独大"走向"多元竞争"。

Google 有 TPU，已经用自研芯片训练 Gemini，不依赖 NVIDIA 硬件。Amazon 有 Trainium 和 Inferentia。Microsoft 在做 Maia。OpenAI 和 Broadcom 合作设计自研芯片，计划 2026 年量产。华为有 Ascend 系列和达芬奇架构。

每一家超大规模厂商都在做同一件事：减少对 NVIDIA 的单一依赖。

这个趋势的底层逻辑是什么？

AI 芯片正在经历和计算机行业一样的"通用→专用"转变。

GPU 本质上是一个通用并行计算器。它什么都能算，但什么都不是最优的——为了兼容图形渲染和其他通用计算，GPU 保留了大量 AI 不需要的电路。当 AI 推理占总计算量的比重越来越高，为推理场景定制的 ASIC 就越来越有吸引力：更高效、更省电、更便宜。

这和我第二篇写 Taalas 的逻辑一脉相承：当一个计算模式足够稳定，它最终会从通用硬件沉降到专用硬件。 Taalas 是极端版本（整个模型刻进芯片），ASIC 是温和版本（为特定计算模式设计芯片），但方向是同一个。

三面墙

芯片层的全球趋势是分散化和专用化。但对中国来说，这个趋势叠加了一个独特的约束条件：制裁。

第一面墙：光刻机。 ASML 的 EUV 光刻机是制造 7nm 以下芯片的关键设备，中国买不到。这意味着中国无法在单芯片层面追上最先进制程。NVIDIA 的 Blackwell 用的是台积电 4nm，华为被限制在 7nm 左右。单论晶体管密度，这是一个代际差距。

第二面墙：代工。 即使中国能设计出先进芯片，制造也要依赖台积电或三星。台积电的 CoWoS 先进封装产能 2026 年预计 100 万片晶圆，绝大部分已被 NVIDIA、AMD、Apple 等锁定。中国芯片公司很难拿到产能。

第三面墙：软件生态。 NVIDIA 的 CUDA 生态经过 17 年的积累，几乎所有 AI 框架（PyTorch、TensorFlow）都针对 CUDA 深度优化。AMD 的 ROCm 至今仍在追赶。对中国来说，CUDA 既是技术锁定也是生态锁定——即使硬件追上了，软件开发者也习惯了在 CUDA 上写代码。

三面墙，看起来密不透风。

但我最近注意到的一些动向，让我觉得中国半导体行业并没有在正面硬撞这三面墙。它在绕。

绕路一：搭乐高

既然在指甲盖大小的硅片上刻不出 3nm 电路，那换一种思路：用成熟工艺（7nm 甚至 14nm）造出多个小芯片，然后像搭乐高积木一样，通过先进封装技术把它们"粘"在一起。

这个路径叫 Chiplets（芯粒）。业界称之为 More than Moore——不追求摩尔定律的纵向微缩，而是通过横向拼接来获取性能。

核心逻辑是：竞争的焦点从"光刻精度"转向"互联密度"。 只要封装技术（2.5D/3D Bonding）足够好，多个 7nm 芯片组合后的整体性能可以逼近单颗 5nm 或 3nm 芯片。

这正是中国半导体产业目前投入最疯狂的领域。长电科技、通富微电这些本土封装巨头在全力攻克类 CoWoS 的 2.5D/3D 封装技术。华为的 Ascend 910B 和传闻中的 910C，很大程度上就依赖这种"以面积换性能"的策略。

一个有意思的细节：CoWoS 的产能瓶颈其实说明了一件事——即使是 NVIDIA 和 AMD，也在受封装产能的制约。 2026 年全球 100 万片 CoWoS 晶圆需求，供不应求。这意味着先进封装不仅仅是中国的专属困境，而是全行业的瓶颈。

谁先解决封装问题，谁就在芯片层获得一个不对称优势——不是因为你的单芯片更强，而是因为你能把更多芯片更高效地组合在一起。

绕路二：光进铜退

Chiplets 解决了"造不出最强单芯片"的问题，但引入了一个新问题：芯片堆多了，它们之间怎么通讯？

传统方案是铜线互联。但当你把几十甚至上百个小芯片封装在一起，铜线的带宽和功耗就撞墙了。信号衰减、发热、延迟——铜线在高密度互联场景下正在接近物理极限。

绕路的方案是 CPO——Co-Packaged Optics，光电共封装。把光模块直接封装在芯片旁边，甚至芯片内部，用光子代替电子来传输信号。

光子的优势在于：带宽更高、功耗更低、距离更远。 在数据中心内部，如果芯片之间的通讯从电信号切换到光信号，整个系统的互联效率会上一个台阶。

这里藏着一个中国的结构性优势。

中国在全球光通信产业链上的地位，远比芯片制造强得多。中际旭创、光迅科技这些企业在全球光模块市场上占有率极高。光模块的制造不需要 EUV，不需要台积电，中国的供应链完全自主可控。

如果 AI 计算基础设施的瓶颈从"单芯片性能"转向"系统级互联效率"，那中国在光通信上的产业链优势就可以转化为芯片层的竞争力。 这是一条用自己的长板弥补短板的路径。

更大的图景是：中国提出的"算力网络"战略，本质上就是把分散在全国各地的数据中心通过高速光网络连接起来，让整个网络变成一台超级计算机。单个节点的芯片可能不是最强的，但节点之间的互联如果足够快，整体算力可以超过由最强单芯片组成的孤立集群。

绕路三：不玩 CUDA 的游戏

前两条路解决的是硬件问题。但 NVIDIA 最深的护城河不是硬件——是 CUDA。

CUDA 用 17 年建立了一个开发者生态。全球绝大多数 AI 研究者和工程师写代码时默认使用 CUDA。PyTorch 对 CUDA 的支持远比对任何替代方案的支持成熟。这是一个典型的生态锁定：不是因为 CUDA 技术上不可替代，而是因为迁移成本太高。

中国的绕路策略不是在 CUDA 生态内追赶（AMD 的 ROCm 已经证明这条路有多难），而是在 CUDA 之外建一个平行生态。

华为的 CANN 框架配合达芬奇架构，百度的 PaddlePaddle 深度学习框架，加上中国庞大的内需市场（互联网大厂、政务云、央企数字化）——行政力量和市场规模结合，强行"堆"出一个不依赖 CUDA 的生态。

这条路很像当年 Android 对 iOS 做的事情。Android 从来没有在单设备体验上超过 iOS，但它用开放性和市场规模建立了一个平行生态，最终全球市占率远超 iOS。

华为最近的动作也在印证这一点。Ascend 芯片配合 UB 2.0 互联协议（对标 NVIDIA 的 NVLink），并且宣布向合作伙伴开放。阿里牵头成立 ALS 联盟（对标 AMD 的 UALink）。这些都是在构建一个不以 NVIDIA 为中心的生态系统。

NVIDIA 的 NVLink Fusion 策略——把 NVLink 接口作为 IP 授权给客户——恰恰说明 NVIDIA 也感受到了生态分裂的压力。 它在用"开放一点硬件接口，换取绑定更多客户到 CUDA 生态"的策略来对抗分散化。

生态战争不像芯片性能竞赛那样有一个清晰的胜负标准。它的结局更可能是"两个平行世界"——CUDA 生态和非 CUDA 生态长期共存，各自服务不同的市场。对中国来说，关键不是打败 CUDA，而是确保国产生态能自立运转。

但这里我必须说一个让我不太舒服的对冲观点。

AI 正在加速生态锁定，而不是打破它。

想想 AI 编程助手——Copilot、Claude、Cursor——它们是用什么训练的？GitHub 上的代码、Stack Overflow 的问答、技术文档。这些训练数据里，CUDA 代码的数量和质量远远超过 ROCm、CANN 或任何替代框架。

结果是：AI 写 CUDA 代码写得非常好，写国产框架的代码写得很一般。

这就形成了一个反身性循环：CUDA 生态越大 → AI 对 CUDA 的支持越好 → 开发者用 AI 辅助编程时选择 CUDA 效率更高 → 更多人选择 CUDA → 产生更多 CUDA 代码进入训练数据 → AI 对 CUDA 的支持进一步增强。

AI 不是一个中立的工具。它会放大既有生态的优势。

输入越标准化，AI 的输出质量越高。CUDA 是当前最"标准"的 AI 编程接口，所以 AI 对 CUDA 的加持最大。这意味着 CUDA 的护城河不是在被 AI 时代侵蚀——它在被 AI 时代加固。

对国产生态来说，这个反身性的含义很严峻：开发者体验的差距不只是当前状态的问题，它可能在 AI 辅助编程时代被加速拉大。CANN 上的代码越少，AI 写 CANN 代码的能力越差，开发者越不愿意用 CANN，CANN 上的代码就越少。

国产生态的时间窗口可能比想象中更窄。 如果不能在 AI 编程助手全面普及之前积累足够的代码量和开发者社区，这个正反馈循环会让追赶变得越来越困难。

Android 当年面对 iOS 时没有这个问题——那个时代还没有 AI 编程助手来放大生态差距。中国的芯片生态战争，面对的是一个前人没有遇到过的新变量。

一个更大的赌注

三条绕路放在一起看——Chiplets 以面积换性能，CPO 以光子换铜线，DSA 以专用换通用——它们有一个共同的底层逻辑：

把竞争的维度从"单芯片的晶体管密度"拉到"系统级的协同效率"。

这是一个赌注。

风险很明确。功耗会很大——多芯片封装的总功耗必然高于单颗先进制程芯片。良率初期会很低——2.5D/3D 封装的工艺成熟度远不如传统封装。生态孤岛的风险——如果国产框架的开发者体验和 CUDA 差距太大，开发者会用脚投票。

但机会也在这里。

摩尔定律正在减速。从 7nm 到 5nm 到 3nm，每一代的性能提升越来越小，成本越来越高，物理极限越来越近。TSMC 的 2nm 可能是传统光刻微缩的最后几代之一。

如果物理极限真的到来——晶体管密度不再是决定性变量——那"系统级互联"能力就会取代"先进制程"成为新的竞争焦点。

率先掌握了 Chiplets + CPO + DSA 这套组合拳的一方，在后摩尔定律时代可能不是追赶者，而是定义规则的人。

这当然是一个很大的"如果"。我不确定这个拐点什么时候来，也不确定中国的封装技术能不能在那之前成熟。但方向是清楚的。

回到五层蛋糕

写到这里，我想起黄仁勋在 CSIS 那场对谈里说的一句话：任何一层的优势或短板，都会沿着链条向上传导。

芯片层是第二层。它上面还有三层：云基础设施、模型、应用。

单看芯片层，中国确实是劣势。三面墙都在，绕路的每一条都有风险。

但放在五层结构里看，结论可能不一样。

第一层——电力——中国有明确优势，而且这个优势不可蒸馏，前几篇已经分析过了。第二层——芯片——中国在绕路，方向清晰但结果未定。第三层往上——云基础设施、模型、应用——中国有全球最大的应用市场和互联网基础设施。

一个五层蛋糕，底层最厚实（电力），中间有裂缝（芯片），上面几层有自己的优势。

这到底是一个致命弱点，还是一个可以被上下层弥补的瓶颈？

下一篇，往上再走一层。