Nvidia DGX GH200到底有多炸裂?

最近,大家都在关注LK-99是否可以被复现成功,是否能够引来新一轮的产能升级,降低内卷的程度。但其实Nvidia最近推出了一款针对AI而推出的大内存DGX GH200 “超级芯片”,也是划时代的。

直接把大模型的天花板直接向上推进了10倍,底层的突破,势必会引起AI的进一步的发展。

就比如说,目前GPT-3 模型在技术上分为了 96 个层次(layer),每个层次都包含了注意力机制(attention mechanism)和前馈神经网络(feed-forward neural network)。随着单机大内存的提升,模型的层次再提升一倍不是问题。

内部结构

虽然,官方叫它DGX GH200 AI 超级计算机,但他和以往的DGX是不同的。它不是单个节点,而是一个完整的多机架计算集群 — 因此 NVIDIA 又将其称为“超级计算机”。

从较高层面来看,DGX GH200 AI 超级计算机是一个完整的 256 个Grace Hopper节点堆叠的 GH200 集群。

GH200超级芯片使用NVIDIA NVLink-C2C芯片互连,将基于Arm的NVIDIA Grace CPU与NVIDIA H100 Tensor Core GPU整合在一起,从而不再需要传统的CPU至GPU PCIe连接。与PCIe技术相比,这将GPU和CPU之间的带宽提高了7倍,将互连功耗减少了5倍以上。

单个 DGX GH200 就跨越约 24 个机架,包含 256 个 GH200 芯片,即 256 个 Grace CPU 和 256 个 H100 GPU,以及互连系统运行所需的所有网络硬件。将节点链接在一起的是一个围绕 NVLink 构建的两层网络系统。96 个本地 L1 交换机提供 GH200 刀片之间的即时通信,而另外 36 个 L2 交换机则提供将 L1 交换机连接在一起的第二层连接。GH200还使用了256块单口400Gb/s InfiniBand互联芯片,256个双口200Gb/s InfiniBand芯片。

我们来计算下,它的性能与存储,看看有多炸裂。

性能数据

NVIDIA DGX GH200 中的每个 NVIDIA Grace Hopper Superchip 都有 480 GB LPDDR5 CPU 内存和 96 GB 的快速 HBM3 。

存储 = 256 * (480 + 96)= 144T的共享存储;

注意,这里的存储是可以CPU和GPU是可以共用的。DGX GH200 中的每个 GPU 都可以 900 GBps 访问其他 GPU 的内存和所有 NVIDIA Grace CPU 的扩展 GPU 内存。

CPU算力 = 256 * 72 = 18432 CPU Core

性能 = 1 exaFLOPS

H100每个卡的功耗约500w, 这里我们增加了内存和CPU,我们按1000w进行估算。

功耗 = 256 * 1000w = 256kw 功耗

此外,由于板卡与板卡之间NVLink Switch相连,对外表现为一块好像一块超级芯片一样, 一个超算芯片相当于20多个标准家庭的用电量。

场景

对于那些可以百G基本的训练,可以在NVIDIA DGX H100上进行训练,而对于具有 TB 级嵌入式表的推荐训练模型就可以使用DGX GH200来训练。

目前在TB基本训练数据的DLRM上,可实现 4 至 7 倍的加速。

如果觉得这篇文章对你有所帮助,
请点一下或者,是对我的肯定和支持~


请使用浏览器的分享功能分享到微信等