通过堆叠足够多的数据和算力,神经网络可以涌现出接近人类的语言理解和推理能力。这一发现称为 Scaling Law,是当前 AI 基础设施扩张的理论基础。
训练一个 ChatGPT / Claude 级别的大语言模型,整个流程耗时约一年,花费数亿美元。
数据侧:爬取数十 TB 原始数据 → 去重 → 过滤 → 分类 → Tokenization
基建侧:搭建数千张 GPU 分布式训练集群,配置 InfiniBand 互联
数万亿 token,数千张 GPU 24/7 运行。成本达数千万到数亿美元。最烧钱的阶段。
SFT(监督微调)→ RLHF(基于人类反馈的强化学习)→ 安全对齐
Benchmark → 人类盲测 A/B → 红队安全测试 → 长上下文压力测试
推理优化(量化、KV Cache、批处理)→ 部署到推理集群 → API + 产品
从底层原材料到终端应用的完整生产链。点击节点查看说明,红框 = 关键瓶颈。
超大规模算力工厂,功耗可达数百 MW 到 1 GW+,相当于一座小型城市。
IT 侧成本最大头。GPU 占数据中心总成本 30-60%,NVIDIA 份额 >90%。CoWoS 封装和 HBM 产能是出货瓶颈。
PB 级容量。AI 训练数据集(文本+图像+视频)持续膨胀,企业级 SSD 需求增速快于消费级。
决定多卡训练效率。光模块 800G→1.6T 升级中,以太网方案正在侵蚀 InfiniBand 份额。
扩张首要瓶颈。新建电力基建需 2-4 年,可用电力已成选址决定性因素。
GPU 单卡 700W+ 超出风冷极限,液冷已从可选变为标配。冷却用电占总用电 30-40%。
超大规模园区占地数十至数百英亩,建筑需承重楼板、防震、防火设计。
通过海量数据和算力训练出通用 AI 能力。单次前沿模型训练成本 $10M-$100M+,周期数月。
成本占比最大。数万张 H100/B200 持续运行 3-6 个月,单次训练电费可达数百万美元。
数据质量决定模型上限。高质量自然语言数据正趋于稀缺,合成数据和多模态数据成为新方向。
使模型输出符合人类偏好。需大量人工标注,数据标注公司是隐性供应链环节。
降低推理成本是商业化关键。推理效率约每 18 个月提升 2 倍,直接影响模型服务定价。
评测体系尚不成熟,跑分与实际能力存在差距。自建评测能力是竞争壁垒之一。
全球顶级 AI 研究人才不足万人,人才争夺激烈。薪资成本占模型公司运营开支的重要部分。
将硬件算力打包为按需使用的云服务。CSP 的 Capex 指引是上游硬件订单的最强领先信号。
核心产品。数千至数万颗 GPU 通过高速网络互联,面向企业和模型厂商提供弹性算力。
将模型能力 API 化。MaaS(模型即服务)是推理需求增长的直接载体,按 token 计费。
减少对 NVIDIA 的依赖,降低推理成本。TPU 已迭代至 v6,Trainium2 开始规模部署。
土地 + 电力 + 网络是核心资源。新建周期 2-3 年,电力获取是首要瓶颈。
支撑 PB 级训练数据和模型检查点。高吞吐低延迟的存储是大规模训练的基础保障。
大规模训练稳定运行依赖高效调度。GPU 利用率直接影响云厂商利润率。
| 公司 | Ticker | 角色 | 要点 |
|---|---|---|---|
| NVIDIA | NVDA | GPU 设计 + 网络 | AI GPU 绝对垄断者,H100/B200 + InfiniBand |
| TSMC 台积电 | TSM | 芯片代工 | 先进制程(3nm/5nm)几乎全部由台积电生产 |
| AMD | AMD | GPU + CPU | AI GPU 市场第二,MI300X |
| Broadcom | AVGO | 网络芯片 + 定制 ASIC | 以太网交换芯片主导,为 Google 等定制 AI 加速器 |
| 公司 | Ticker | 角色 | 要点 |
|---|---|---|---|
| SK Hynix | 韩股 | HBM + DRAM + NAND | HBM 份额 #1,NVIDIA 首选 |
| Samsung | 韩股 | HBM + DRAM + NAND + 代工 | 最大存储厂,HBM 良率追赶中 |
| Micron | MU | HBM + DRAM + NAND | HBM 2026 产能全部售罄 |
| SanDisk | SNDK | NAND | 2025 从西部数据分拆,纯 NAND 标的 |
| 公司 | Ticker | 角色 | 要点 |
|---|---|---|---|
| Arista Networks | ANET | 网络交换机 | 高端数据中心以太网交换机领导者 |
| Dell | DELL | AI 服务器 | AI 服务器整机供应商 |
| SMCI 超微 | SMCI | AI 服务器 | AI 服务器整机 + 液冷方案 |
| 公司 | Ticker | 角色 | 要点 |
|---|---|---|---|
| Microsoft | MSFT | Azure + OpenAI | Copilot 覆盖 Office、GitHub、Windows |
| Amazon | AMZN | AWS + Trainium | 全球最大云服务商,Bedrock 多模型平台 |
| GOOGL | GCP + DeepMind + TPU | 模型 + 云 + 自研芯片三线并进 | |
| Meta | META | 自建 AI 基础设施 | 不对外卖算力,全部自用 |
| Oracle | ORCL | OCI | AI 云基础设施快速增长 |
| 公司 | Ticker | 角色 | 要点 |
|---|---|---|---|
| Vertiv | VRT | 电力 + 冷却 | UPS、配电、液冷解决方案 |
| Eaton | ETN | 电力 | 配电系统 |
| Quanta Services | PWR | 电力基建 | 北美最大电力基础设施承包商 |
| Equinix | EQIX | 数据中心 REIT | 全球最大数据中心运营商 |