最近，大家都在关注LK-99是否可以被复现成功，是否能够引来新一轮的产能升级，降低内卷的程度。但其实Nvidia最近推出了一款针对AI而推出的大内存DGX GH200 “超级芯片”，也是划时代的。

直接把大模型的天花板直接向上推进了10倍，底层的突破，势必会引起AI的进一步的发展。

就比如说，目前GPT-3 模型在技术上分为了 96 个层次（layer），每个层次都包含了注意力机制（attention mechanism）和前馈神经网络（feed-forward neural network）。随着单机大内存的提升，模型的层次再提升一倍不是问题。

内部结构

虽然，官方叫它DGX GH200 AI 超级计算机，但他和以往的DGX是不同的。它不是单个节点，而是一个完整的多机架计算集群 — 因此 NVIDIA 又将其称为“超级计算机”。

从较高层面来看，DGX GH200 AI 超级计算机是一个完整的 256 个Grace Hopper节点堆叠的 GH200 集群。

GH200超级芯片使用NVIDIA NVLink-C2C芯片互连，将基于Arm的NVIDIA Grace CPU与NVIDIA H100 Tensor Core GPU整合在一起，从而不再需要传统的CPU至GPU PCIe连接。与PCIe技术相比，这将GPU和CPU之间的带宽提高了7倍，将互连功耗减少了5倍以上。

单个 DGX GH200 就跨越约 24 个机架，包含 256 个 GH200 芯片，即 256 个 Grace CPU 和 256 个 H100 GPU，以及互连系统运行所需的所有网络硬件。将节点链接在一起的是一个围绕 NVLink 构建的两层网络系统。96 个本地 L1 交换机提供 GH200 刀片之间的即时通信，而另外 36 个 L2 交换机则提供将 L1 交换机连接在一起的第二层连接。GH200还使用了256块单口400Gb/s InfiniBand互联芯片，256个双口200Gb/s InfiniBand芯片。

我们来计算下，它的性能与存储，看看有多炸裂。

性能数据

NVIDIA DGX GH200 中的每个 NVIDIA Grace Hopper Superchip 都有 480 GB LPDDR5 CPU 内存和 96 GB 的快速 HBM3 。

存储 = 256 * （480 + 96）= 144T的共享存储；

注意，这里的存储是可以CPU和GPU是可以共用的。DGX GH200 中的每个 GPU 都可以 900 GBps 访问其他 GPU 的内存和所有 NVIDIA Grace CPU 的扩展 GPU 内存。

CPU算力 = 256 * 72 = 18432 CPU Core

性能 = 1 exaFLOPS

H100每个卡的功耗约500w, 这里我们增加了内存和CPU，我们按1000w进行估算。

功耗 = 256 * 1000w = 256kw 功耗

此外，由于板卡与板卡之间NVLink Switch相连，对外表现为一块好像一块超级芯片一样，一个超算芯片相当于20多个标准家庭的用电量。

场景

对于那些可以百G基本的训练，可以在NVIDIA DGX H100上进行训练，而对于具有 TB 级嵌入式表的推荐训练模型就可以使用DGX GH200来训练。

目前在TB基本训练数据的DLRM上，可实现 4 至 7 倍的加速。

如果觉得这篇文章对你有所帮助，

请点一下赞或者在看，是对我的肯定和支持~

Nvidia DGX GH200到底有多炸裂？

内部结构

性能数据

场景