AI 产业链全景

一、根本逻辑

▼

通过堆叠足够多的数据和算力，神经网络可以涌现出接近人类的语言理解和推理能力。这一发现称为 Scaling Law，是当前 AI 基础设施扩张的理论基础。

Scaling Law
模型越大越强

→

算力需求爆发
需要海量 GPU

→

大规模基建
科技巨头建数据中心

→

硬件供不应求
GPU·存储·电力紧缺

资金流向：终端用户付费 → 应用公司 → 云厂商 → 硬件厂商

大模型生命周期

训练一个 ChatGPT / Claude 级别的大语言模型，整个流程耗时约一年，花费数亿美元。

1-2 月

准备期：数据 + 基建

数据侧：爬取数十 TB 原始数据 → 去重 → 过滤 → 分类 → Tokenization
基建侧：搭建数千张 GPU 分布式训练集群，配置 InfiniBand 互联

3-8 月

预训练 Pre-training

数万亿 token，数千张 GPU 24/7 运行。成本达数千万到数亿美元。最烧钱的阶段。

9-10 月

后训练 Post-training

SFT（监督微调）→ RLHF（基于人类反馈的强化学习）→ 安全对齐

11 月

评估与测试

Benchmark → 人类盲测 A/B → 红队安全测试 → 长上下文压力测试

12 月

部署上线

推理优化（量化、KV Cache、批处理）→ 部署到推理集群 → API + 产品

对硬件需求的直接解释

预训练需要数千张 GPU 持续运算数月 → 消耗 GPU + HBM + 电力
训练数据以 PB 计 → 消耗 NAND 存储
多卡协同需要超高速互联 → 消耗网络设备

二、生产链

▼

从底层原材料到终端应用的完整生产链。点击节点查看说明，红框 = 关键瓶颈。

三、重要节点解析

▼

AI 数据中心

超大规模算力工厂，功耗可达数百 MW 到 1 GW+，相当于一座小型城市。

计算层

GPU / AI 加速器、CPU、HBM、DDR5、AI 服务器整机

IT 侧成本最大头。GPU 占数据中心总成本 30-60%，NVIDIA 份额 >90%。CoWoS 封装和 HBM 产能是出货瓶颈。

存储层

SSD (NAND Flash)、HDD 冷数据归档、分布式存储系统

PB 级容量。AI 训练数据集（文本+图像+视频）持续膨胀，企业级 SSD 需求增速快于消费级。

网络层

高速交换机、400G/800G 网卡、光模块 + 光纤

决定多卡训练效率。光模块 800G→1.6T 升级中，以太网方案正在侵蚀 InfiniBand 份额。

电力系统

变电站、UPS、柴油发电机、配电系统

扩张首要瓶颈。新建电力基建需 2-4 年，可用电力已成选址决定性因素。

冷却系统

液冷系统（刚需）、冷水机组、精密空调

GPU 单卡 700W+ 超出风冷极限，液冷已从可选变为标配。冷却用电占总用电 30-40%。

基础设施

土地 + 建筑、消防、安防、环境监测 (DCIM)

超大规模园区占地数十至数百英亩，建筑需承重楼板、防震、防火设计。

成本结构

GPU / 加速器

55%

服务器整机

15%

电力系统

10%

网络设备

8%

存储

7%

冷却 + 建筑

5%

训练 vs 推理

训练：花大钱建一次（数千张 GPU 集中运算数月）
推理：花更多钱永远运行（每一次用户对话都消耗算力）
推理正在成为主力，2026 年预计占总 AI 算力的 2/3

基础大模型

通过海量数据和算力训练出通用 AI 能力。单次前沿模型训练成本 $10M-$100M+，周期数月。

训练算力

数千-数万张 GPU 集群、InfiniBand / 以太网互联、分布式训练框架

成本占比最大。数万张 H100/B200 持续运行 3-6 个月，单次训练电费可达数百万美元。

训练数据

互联网文本、书籍、代码、图像、视频、合成数据

数据质量决定模型上限。高质量自然语言数据正趋于稀缺，合成数据和多模态数据成为新方向。

后训练 / 对齐

SFT 监督微调、RLHF 强化学习、安全对齐、红队测试

使模型输出符合人类偏好。需大量人工标注，数据标注公司是隐性供应链环节。

推理优化

量化、蒸馏、推测解码、KV Cache 优化、批处理

降低推理成本是商业化关键。推理效率约每 18 个月提升 2 倍，直接影响模型服务定价。

模型评估

Benchmark 评测、人类盲测 A/B、长上下文压力测试

评测体系尚不成熟，跑分与实际能力存在差距。自建评测能力是竞争壁垒之一。

人才与研究

AI 研究科学家、训练工程师、数据工程师

全球顶级 AI 研究人才不足万人，人才争夺激烈。薪资成本占模型公司运营开支的重要部分。

前沿模型训练成本构成

GPU 算力

60-70%

数据采集与标注

10-15%

人才薪酬

10-15%

基础设施

5-10%

竞争格局

闭源：OpenAI、Anthropic、Google DeepMind — 商业化领先，通过 API 变现
开源：Meta (Llama)、Mistral — 以开源换生态，降低行业算力门槛
模型能力趋同，竞争焦点正从「模型大小」转向「推理效率」和「应用生态」

云服务厂商 (CSP)

将硬件算力打包为按需使用的云服务。CSP 的 Capex 指引是上游硬件订单的最强领先信号。

GPU 算力集群

大规模 GPU 部署、训练/推理算力、按小时或按 token 计费

核心产品。数千至数万颗 GPU 通过高速网络互联，面向企业和模型厂商提供弹性算力。

AI 平台服务

Azure AI、Bedrock、Vertex AI、模型市场、微调工具

将模型能力 API 化。MaaS（模型即服务）是推理需求增长的直接载体，按 token 计费。

自研芯片

Google TPU、Amazon Trainium / Inferentia、Microsoft Maia

减少对 NVIDIA 的依赖，降低推理成本。TPU 已迭代至 v6，Trainium2 开始规模部署。

数据中心

自建超大规模 DC、租赁 Colo 空间、全球区域扩展

土地 + 电力 + 网络是核心资源。新建周期 2-3 年，电力获取是首要瓶颈。

云存储与数据

对象存储、块存储、数据湖、数据传输服务

支撑 PB 级训练数据和模型检查点。高吞吐低延迟的存储是大规模训练的基础保障。

调度与编排

集群资源调度、任务队列、容错重启、多租户隔离

大规模训练稳定运行依赖高效调度。GPU 利用率直接影响云厂商利润率。

CSP AI Capex 构成

服务器 (GPU)

55-60%

网络设备

~15%

数据中心建设

~15%

电力 + 冷却

~10%

CSP Capex 是最强领先指标

四大 CSP（Microsoft、Amazon、Google、Meta）年度 AI Capex 合计 $200B+
Capex 指引上调 → 硬件订单增长 → 芯片/服务器/网络厂商营收加速（领先 2-3 个季度）
自研芯片比例上升是长期变量：短期不影响总 Capex，但改变上游受益结构

四、产业链传导路径

▼

需求侧（从下往上传导）

AI 应用变现
验证 Capex 回报

↑

CSP Capex 指引
最强需求信号

↑

GPU / ASIC 订单
芯片厂营收

↑

服务器出货
整机厂营收

↑

数据中心扩建
IDC / 电力需求

⇄

供给侧（从上往下约束）

半导体设备
晶圆代工产能

↓

先进封装 (CoWoS)
芯片出货瓶颈

↓

存储 (HBM) 产能
GPU 配套瓶颈

↓

网络 / 光模块 / 散热
集群部署瓶颈

关键领先指标（按领先时间排序）

CSP Capex 指引变动 — 领先 2-3 个季度
半导体设备订单 backlog — 领先 1-2 个季度
存储合约价拐点 — 领先 1 个季度
芯片厂营收加速/减速 — 同步指标
AI 应用收入增速 — 滞后验证指标

五、关键公司速查

▼

硬件层 · 芯片设计与制造

公司	Ticker	角色	要点
NVIDIA	NVDA	GPU 设计 + 网络	AI GPU 绝对垄断者，H100/B200 + InfiniBand
TSMC 台积电	TSM	芯片代工	先进制程（3nm/5nm）几乎全部由台积电生产
AMD	AMD	GPU + CPU	AI GPU 市场第二，MI300X
Broadcom	AVGO	网络芯片 + 定制 ASIC	以太网交换芯片主导，为 Google 等定制 AI 加速器

硬件层 · 存储芯片

公司	Ticker	角色	要点
SK Hynix	韩股	HBM + DRAM + NAND	HBM 份额 #1，NVIDIA 首选
Samsung	韩股	HBM + DRAM + NAND + 代工	最大存储厂，HBM 良率追赶中
Micron	MU	HBM + DRAM + NAND	HBM 2026 产能全部售罄
SanDisk	SNDK	NAND	2025 从西部数据分拆，纯 NAND 标的

硬件层 · 网络与服务器

公司	Ticker	角色	要点
Arista Networks	ANET	网络交换机	高端数据中心以太网交换机领导者
Dell	DELL	AI 服务器	AI 服务器整机供应商
SMCI 超微	SMCI	AI 服务器	AI 服务器整机 + 液冷方案

基础设施层 · 云厂商

公司	Ticker	角色	要点
Microsoft	MSFT	Azure + OpenAI	Copilot 覆盖 Office、GitHub、Windows
Amazon	AMZN	AWS + Trainium	全球最大云服务商，Bedrock 多模型平台
Google	GOOGL	GCP + DeepMind + TPU	模型 + 云 + 自研芯片三线并进
Meta	META	自建 AI 基础设施	不对外卖算力，全部自用
Oracle	ORCL	OCI	AI 云基础设施快速增长

电力与冷却

公司	Ticker	角色	要点
Vertiv	VRT	电力 + 冷却	UPS、配电、液冷解决方案
Eaton	ETN	电力	配电系统
Quanta Services	PWR	电力基建	北美最大电力基础设施承包商
Equinix	EQIX	数据中心 REIT	全球最大数据中心运营商