一、根本逻辑

通过堆叠足够多的数据和算力,神经网络可以涌现出接近人类的语言理解和推理能力。这一发现称为 Scaling Law,是当前 AI 基础设施扩张的理论基础。

Scaling Law
模型越大越强
算力需求爆发
需要海量 GPU
大规模基建
科技巨头建数据中心
硬件供不应求
GPU·存储·电力紧缺
资金流向:终端用户付费 应用公司 云厂商 硬件厂商

大模型生命周期

训练一个 ChatGPT / Claude 级别的大语言模型,整个流程耗时约一年,花费数亿美元。

1-2 月

准备期:数据 + 基建

数据侧:爬取数十 TB 原始数据 → 去重 → 过滤 → 分类 → Tokenization
基建侧:搭建数千张 GPU 分布式训练集群,配置 InfiniBand 互联

3-8 月

预训练 Pre-training

数万亿 token,数千张 GPU 24/7 运行。成本达数千万到数亿美元。最烧钱的阶段。

9-10 月

后训练 Post-training

SFT(监督微调)→ RLHF(基于人类反馈的强化学习)→ 安全对齐

11 月

评估与测试

Benchmark → 人类盲测 A/B → 红队安全测试 → 长上下文压力测试

12 月

部署上线

推理优化(量化、KV Cache、批处理)→ 部署到推理集群 → API + 产品

对硬件需求的直接解释

  • 预训练需要数千张 GPU 持续运算数月 → 消耗 GPU + HBM + 电力
  • 训练数据以 PB 计 → 消耗 NAND 存储
  • 多卡协同需要超高速互联 → 消耗网络设备

二、生产链

从底层原材料到终端应用的完整生产链。点击节点查看说明,红框 = 关键瓶颈。

三、重要节点解析

AI 数据中心

超大规模算力工厂,功耗可达数百 MW 到 1 GW+,相当于一座小型城市。

计算层

GPU / AI 加速器、CPU、HBM、DDR5、AI 服务器整机

IT 侧成本最大头。GPU 占数据中心总成本 30-60%,NVIDIA 份额 >90%。CoWoS 封装和 HBM 产能是出货瓶颈。

存储层

SSD (NAND Flash)、HDD 冷数据归档、分布式存储系统

PB 级容量。AI 训练数据集(文本+图像+视频)持续膨胀,企业级 SSD 需求增速快于消费级。

网络层

高速交换机、400G/800G 网卡、光模块 + 光纤

决定多卡训练效率。光模块 800G→1.6T 升级中,以太网方案正在侵蚀 InfiniBand 份额。

电力系统

变电站、UPS、柴油发电机、配电系统

扩张首要瓶颈。新建电力基建需 2-4 年,可用电力已成选址决定性因素。

冷却系统

液冷系统(刚需)、冷水机组、精密空调

GPU 单卡 700W+ 超出风冷极限,液冷已从可选变为标配。冷却用电占总用电 30-40%。

基础设施

土地 + 建筑、消防、安防、环境监测 (DCIM)

超大规模园区占地数十至数百英亩,建筑需承重楼板、防震、防火设计。

成本结构

GPU / 加速器
55%
服务器整机
15%
电力系统
10%
网络设备
8%
存储
7%
冷却 + 建筑
5%

训练 vs 推理

  • 训练:花大钱建一次(数千张 GPU 集中运算数月)
  • 推理:花更多钱永远运行(每一次用户对话都消耗算力)
  • 推理正在成为主力,2026 年预计占总 AI 算力的 2/3

基础大模型

通过海量数据和算力训练出通用 AI 能力。单次前沿模型训练成本 $10M-$100M+,周期数月。

训练算力

数千-数万张 GPU 集群、InfiniBand / 以太网互联、分布式训练框架

成本占比最大。数万张 H100/B200 持续运行 3-6 个月,单次训练电费可达数百万美元。

训练数据

互联网文本、书籍、代码、图像、视频、合成数据

数据质量决定模型上限。高质量自然语言数据正趋于稀缺,合成数据和多模态数据成为新方向。

后训练 / 对齐

SFT 监督微调、RLHF 强化学习、安全对齐、红队测试

使模型输出符合人类偏好。需大量人工标注,数据标注公司是隐性供应链环节。

推理优化

量化、蒸馏、推测解码、KV Cache 优化、批处理

降低推理成本是商业化关键。推理效率约每 18 个月提升 2 倍,直接影响模型服务定价。

模型评估

Benchmark 评测、人类盲测 A/B、长上下文压力测试

评测体系尚不成熟,跑分与实际能力存在差距。自建评测能力是竞争壁垒之一。

人才与研究

AI 研究科学家、训练工程师、数据工程师

全球顶级 AI 研究人才不足万人,人才争夺激烈。薪资成本占模型公司运营开支的重要部分。

前沿模型训练成本构成

GPU 算力
60-70%
数据采集与标注
10-15%
人才薪酬
10-15%
基础设施
5-10%

竞争格局

  • 闭源:OpenAI、Anthropic、Google DeepMind — 商业化领先,通过 API 变现
  • 开源:Meta (Llama)、Mistral — 以开源换生态,降低行业算力门槛
  • 模型能力趋同,竞争焦点正从「模型大小」转向「推理效率」和「应用生态」

云服务厂商 (CSP)

将硬件算力打包为按需使用的云服务。CSP 的 Capex 指引是上游硬件订单的最强领先信号。

GPU 算力集群

大规模 GPU 部署、训练/推理算力、按小时或按 token 计费

核心产品。数千至数万颗 GPU 通过高速网络互联,面向企业和模型厂商提供弹性算力。

AI 平台服务

Azure AI、Bedrock、Vertex AI、模型市场、微调工具

将模型能力 API 化。MaaS(模型即服务)是推理需求增长的直接载体,按 token 计费。

自研芯片

Google TPU、Amazon Trainium / Inferentia、Microsoft Maia

减少对 NVIDIA 的依赖,降低推理成本。TPU 已迭代至 v6,Trainium2 开始规模部署。

数据中心

自建超大规模 DC、租赁 Colo 空间、全球区域扩展

土地 + 电力 + 网络是核心资源。新建周期 2-3 年,电力获取是首要瓶颈。

云存储与数据

对象存储、块存储、数据湖、数据传输服务

支撑 PB 级训练数据和模型检查点。高吞吐低延迟的存储是大规模训练的基础保障。

调度与编排

集群资源调度、任务队列、容错重启、多租户隔离

大规模训练稳定运行依赖高效调度。GPU 利用率直接影响云厂商利润率。

CSP AI Capex 构成

服务器 (GPU)
55-60%
网络设备
~15%
数据中心建设
~15%
电力 + 冷却
~10%

CSP Capex 是最强领先指标

  • 四大 CSP(Microsoft、Amazon、Google、Meta)年度 AI Capex 合计 $200B+
  • Capex 指引上调 → 硬件订单增长 → 芯片/服务器/网络厂商营收加速(领先 2-3 个季度)
  • 自研芯片比例上升是长期变量:短期不影响总 Capex,但改变上游受益结构

四、产业链传导路径

需求侧(从下往上传导)

AI 应用变现
验证 Capex 回报
CSP Capex 指引
最强需求信号
GPU / ASIC 订单
芯片厂营收
服务器出货
整机厂营收
数据中心扩建
IDC / 电力需求

供给侧(从上往下约束)

半导体设备
晶圆代工产能
先进封装 (CoWoS)
芯片出货瓶颈
存储 (HBM) 产能
GPU 配套瓶颈
网络 / 光模块 / 散热
集群部署瓶颈

关键领先指标(按领先时间排序)

  1. CSP Capex 指引变动 — 领先 2-3 个季度
  2. 半导体设备订单 backlog — 领先 1-2 个季度
  3. 存储合约价拐点 — 领先 1 个季度
  4. 芯片厂营收加速/减速 — 同步指标
  5. AI 应用收入增速 — 滞后验证指标

五、关键公司速查

硬件层 · 芯片设计与制造

公司Ticker角色要点
NVIDIANVDAGPU 设计 + 网络AI GPU 绝对垄断者,H100/B200 + InfiniBand
TSMC 台积电TSM芯片代工先进制程(3nm/5nm)几乎全部由台积电生产
AMDAMDGPU + CPUAI GPU 市场第二,MI300X
BroadcomAVGO网络芯片 + 定制 ASIC以太网交换芯片主导,为 Google 等定制 AI 加速器

硬件层 · 存储芯片

公司Ticker角色要点
SK Hynix韩股HBM + DRAM + NANDHBM 份额 #1,NVIDIA 首选
Samsung韩股HBM + DRAM + NAND + 代工最大存储厂,HBM 良率追赶中
MicronMUHBM + DRAM + NANDHBM 2026 产能全部售罄
SanDiskSNDKNAND2025 从西部数据分拆,纯 NAND 标的

硬件层 · 网络与服务器

公司Ticker角色要点
Arista NetworksANET网络交换机高端数据中心以太网交换机领导者
DellDELLAI 服务器AI 服务器整机供应商
SMCI 超微SMCIAI 服务器AI 服务器整机 + 液冷方案

基础设施层 · 云厂商

公司Ticker角色要点
MicrosoftMSFTAzure + OpenAICopilot 覆盖 Office、GitHub、Windows
AmazonAMZNAWS + Trainium全球最大云服务商,Bedrock 多模型平台
GoogleGOOGLGCP + DeepMind + TPU模型 + 云 + 自研芯片三线并进
MetaMETA自建 AI 基础设施不对外卖算力,全部自用
OracleORCLOCIAI 云基础设施快速增长

电力与冷却

公司Ticker角色要点
VertivVRT电力 + 冷却UPS、配电、液冷解决方案
EatonETN电力配电系统
Quanta ServicesPWR电力基建北美最大电力基础设施承包商
EquinixEQIX数据中心 REIT全球最大数据中心运营商