关键字: [ 亚马逊云科技中国峰会2024, Amazon EC2 instances, 大规模集群, Gpu 实例, 生成式Ai 应用, 前沿Ai 模型, 深度学习训练]
本文字数: 2600, 阅读完需: 13 分钟
导读
在亚马逊云科技中国峰会2024 上, 黄碧阳和赵斌先生分享了” 通过GPU 实例和大规模集群构建前沿生成式AI 应用” 的主题。他们讨论了生成式AI 的发展趋势, 如大模型参数量不断增长、微调基础模型、开源势头等; 以及客户关注的性能、成本、可扩展性、易用性和能效等关键需求。亚马逊云科技提供了多种GPU 实例选择, 如P 系列、G 系列等, 以及相关的软硬件解决方案, 帮助客户构建高性能、高性价比的生成式AI 应用。他们还分享了利用GPU 集群加速训练和推理的实践案例, 如气象预报、视频生成、虚拟陪伴等, 展现了生成式AI 在各行业的广阔应用前景。
演讲精华
以下是小编为您整理的本次演讲的精华,共2300 字,阅读时间大约是12 分钟。
在当今时代, 生成式人工智能(AI) 已经成为一股不可阻挡的浪潮。随着大型语言模型参数量的不断增长, 训练和推理这些模型对GPU 资源的需求也与日俱增。亚马逊云科技云计算服务专家黄碧阳女士指出, 从前几年NLP 模型只有千万级别的参数, 而现在大语言模型已经到万亿级别的参数量, 每年都是指数倍的增长。这对底层AI 基础设施提出了更高的要求和期待。
面对这一趋势, 亚马逊云科技收到了客户在性能、成本、可扩展性、易用性和能效五个方面的关键需求。客户询问是否可以提供更快的训练时间、加速以及减少推理延迟。黄女士举例说, 对于一个生成式AI 应用, 如果上线时延迟可能是几十毫秒, 而客户希望把这几十毫秒缩短到十几毫秒, 亚马逊云科技可以从硬件和软件两个维度提供解决方案。在硬件方面, 客户可以使用更高规格的GPU 来获得更快的速度, 提高更高的算力密度。在软件方面, 亚马逊云科技技术人员会深入了解客户工作负载, 并根据工作负载提供相应的加速方案和建议。
在成本方面, 随着大模型对GPU 需求越来越多, 而GPU 卡价格非常昂贵, 如何优化训练成本以及提升每月的推理吞吐量, 也是每个客户非常关心的问题。黄女士指出, 优化训练成本这件事情, 不能仅仅去看每个GPU 每小时的费用, 而是要更多地关注整个GPU 的有效训练时间。有效训练时间会与底层基础设施的稳定性和GPU 利用率息息相关。亚马逊云科技在底层基础设施的稳定性和GPU 利用率上都做了相关的优化, 提供更稳定、安全可靠的云服务。
第三个需求是可扩展性。黄女士表示, 很多客户在随着大模型的增长, 需要快速地从白卡扩展到千卡, 甚至从千卡扩展到万卡, 这对集群训练基础设施提出了非常高的要求。亚马逊云科技推出了Ultra Cluster 2.0 解决方案, 相比第一代, 单集群最多可以串联多达2 万个H100 GPU, 通过把网络连接更加扁平化的设计, 并减少网络路由之间的跳数, 实现更大规模的互联, 降低了近15% 的网络延时, 为客户提供更高性价比和更稳定安全可靠的AI 基础设施。同时, 亚马逊云科技在全球105 个可用区提供GPU 实例, 为客户在各个区域提供全球推理服务的足迹, 帮助客户快速落地应用。
易用性方面, 硬件是一个方面, 软件也不可忽视。黄女士指出, 所有的深度学习都依托于各种开源框架的软件, 除了像PyTorch 和TensorFlow 这样大家非常知名的框架之外, 比如英伟达的Megatron 对于大模型的分布式训练也提供了软件支持。亚马逊云科技上面也提供了相应的软件包, 方便客户在使用EC2 的时候可以开箱即用, 去方便部署他们的各种应用和服务。
最后是能效方面的需求。 黄女士强调, 亚马逊云科技一直都是致力于全球的节能减排的相关努力, 所以一直在优化每个实例和每个地区的功耗比, 来帮助推动全球的节能减排的相关计划。
为满足上述需求, 亚马逊云科技与英伟达建立了13 年的深度合作关系。黄女士介绍说, 英伟达的各种GPU, 比如从高端卡的H100 、A100, 然后到高性价比的A10 、T4, 都已经在亚马逊云科技上可用。包括今年4 月4 号已经上线的L4, 英伟达的L4 也都在亚马逊云科技上可用。
除了英伟达之外, 亚马逊云科技也与英特尔、AMD 、高通的自研芯片建立了合作关系, 这些芯片也同样可以在亚马逊云科技上找到相应的实例类型, 方便客户去选择除英伟达之外的其他丰富的实例类型。
此外, 亚马逊云科技还给客户提供了一种更高性价比的选择, 也就是亚马逊云科技的Trainium 和Inferentia 。黄女士表示, 亚马逊云科技的自研芯片, 包括基于ARM 的CPU Graviton, 都是给客户在除了这些通用芯片选择上有一个更高性价比的选择。
除了底层的EC2 实例之外, 亚马逊云科技也有非常针对深度学习训练高效的网络实例, 比如Amazon FSx for Lustre, 然后也有为了保证这些实例的低延迟和高吞吐率的EFA 网络接口, 还有各种编排和机器学习框架和开源框架的支持, 满足客户对训练时间、成本以及可扩展性的要求。
接下来, 黄女士分享了如何针对不同工作负载选择合适的实例类型。对于大语言模型的预训练和微调, 由于它是一个计算密集型的场景, 且对显存和带宽有非常高的要求, 亚马逊云科技推荐使用P5 实例( 搭载H100) 和P4D E 实例( 搭载A100) 。但是对于推理而言, 很多客户都会把大模型给剪枝量化, 把它变成更小的模型。当模型变小之后,P4D(A100) 、G5 和A10G 这种高性价比的选择就可以成为推理的首选实例类型。
对于视觉或多模态任务, 虽然模型不会和大语言模型那么大, 但它的前处理以及图片的精度都会使数据集的内存占用在训练时非常大, 所以在训练的时候, 亚马逊云科技同样推荐使用H100 系列作为训练的首选实例选择。但是推理而言, 当数据集变得没那么大时,G5 、G4DN 甚至G6 都可以作为推理的选择。
至于推荐系统, 如果客户是做推荐搜索广告这个业务, 那肯定会遇到Embedding 表格尺寸非常大的问题。黄女士表示, 在训练时, 由于Embedding 表格尺寸巨大, 亚马逊云科技会推荐使用显存和网络带宽都比较好的P4D E 和P4D 这种高端实例。但是在推理时, 由于Embedding 表格已经离线存储固化, 只需单纯跑模型, 所以这时G5 就是一个比较优的选择。
黄女士最后强调, 亚马逊云科技在全球已经有105 个可用区, 为客户在各个区域提供各种GPU 实例, 来帮助客户快速落地和尝试真正生成式AI 应用的扩展, 提供更加安全可靠的解决方案。
接下来, 无限光年公司赵斌先生分享了他们基于GPU 集群构建前沿AI 应用的经验和探索。赵先生首先介绍了传统数值天气预报存在的瓶颈。他指出, 传统方法所描述的大气物理过程是有限的, 因为发现一条物理计算规律, 耗费的时间和精力是很大的。同时, 计算过程中的使用误差也是无法避免的, 这种累积误差的放大会导致越往后预测越不精准。
如果要提升预报的分辨率, 传统方法需要的算力会呈指数级增长。赵先生举例说, 欧洲气象中心把全球划分为1440*720 个网格点, 如果要每隔10 分钟预测10 天天气, 就需要迭代1440 次, 乘以全球网格的经纬度乘积, 整个计算量大概是15 亿次。而欧洲气象中心作为全球最权威气象中心之一, 拥有104 万核超算集群, 每天预测天气也需耗费3 个小时, 同时还要执行一个月和半年的预测。
综上, 传统数值天气预报的预测准确率、扩展性受到限制, 预测成本也很高。而基于Transformer 的AI 天气预报模型可以克服这些问题。无限光年及合作伙伴对AI 天气预报进行了产业化实践, 提供基础模型、区域模型微调、高分辨率模型、极端天气预测和长周期预测等服务。AI 天气预报能力支持全球范围最长42 天的季节预测, 最短可做到公里级15 分钟后的精确预测, 并可接入各种气象数据源, 支持极端天气变化预测。
在同级别的预报算力对比中,AI 天气预报只需一张低端GPU 就可以做到与传统超算中心相当的预报周期, 且推理耗时从几小时降至几分钟, 精确度也有所提升。利用亚马逊云科技的H100 集群, 无限光年将反演训练周期从几个月降至几十天, 将0-14 天全球气候变化推理时间降至A10G 芯片上的十几分钟,H100 芯片上仅几分钟。
这种更新频率对航运、航空、电力、陆运、旅游和农业等行业产生了深远影响。在航运领域,AI 天气预报可用于远洋运输航线网络规划, 避开恶劣天气, 优化航线省油。无限光年与国内大型航空公司探索了区域短视临近预测、全球气象预测和客流预测等场景应用。
在航空领域,AI 天气预报可预测航空颠簸、机场湍流和风切变等, 提高航空安全和乘客体验。无限光年与航空公司合作, 预测航线网络气象变化情况。赵先生举例说, 前阵子新加坡有一个航班遇到颠簸, 导致人员受伤和死亡, 各家航空公司对航空安全都非常重视。
在电力领域,AI 天气预报可预测水力、风力和太阳能发电量, 辅助电网调度, 制定储能和电价交易策略。无限光年与金风电力公司合作, 预测新能源场景下的发电功率、风通量、辐照度和极端天气, 优化储能和交易策略。
在陆运领域,AI 天气预报可用于长途卡车气象导航、户外活动天气预测和灾害预警等。在旅游领域, 它可规划旅游产品, 预测景区天气, 减少航班中转失败率等。无限光年与亚马逊的合作伙伴在做中转连乘航班失败率降低的课题。在农业领域,AI 天气预报与农产品产量、交易和再保险等紧密相关。赵先生指出, 据了解, 某地区每升高1 到2 摄氏度, 对芒果、糖或榴莲的产量就会有巨大影响。
除气象大模型外, 无限光年还基于亚马逊云科技的GPU 集群, 探索了视频生成和虚拟陪伴等前沿AI 应用。他们利用H100 集群将视频生成模型训练时间从3 个月降至21 天, 大幅降低训练成本。视频生成模型目前支持动态分辨率, 最高可生成16 秒1080P 视频和图像。
在虚拟陪伴领域, 无限光年使用Amazon Web Services ByteRock 服务扩充语料数据集, 在SageMaker 和EC2 上分别训练不同模型, 利用H100 集群将单次反训练时长从4 小时降至十几分钟, 支持多路并行训练, 加快调模型效率。他们大量运用了GPU 的弹性扩展特性, 根据用户访问量动态扩缩服务规模。同时还针对特定场景, 混合使用H100 、A100 和A10 集群, 前期使用高端实例确保响应速度, 后期使用性价比实例服务聊天用户, 权衡性能和成本。赵先生指出, 对于虚拟陪伴领域, 他们发现不仅年轻人需要情感支持和陪伴, 老人、聋哑儿童福利院等也有这种需求, 提供虚拟陪伴具有重要的社会意义, 可用于心理健康、疗愈、儿童陪伴等场景, 甚至中年人也需要心理陪伴来缓解压力。
总的来说, 这个视频全面介绍了亚马逊云科技在GPU 实例和大规模集群方面的实力, 以及客户如何利用这些资源构建前沿的生成式AI 应用。通过实例分析和客户案例分享, 视频深入探讨了AI 发展趋势、GPU 选型策略、集群优化技术等热点话题, 为观众提供了宝贵的见解和经验。
下面是一些演讲现场的精彩瞬间:
黄碧阳分享了亚马逊云科技在人工智能和积极学习领域的发展趋势, 以及亚马逊云科技如何通过云实力帮助客户解决深度学习工作负载的问题。
亚马逊云科技推出Ultra Cluster 满足客户对大规模集群和全球推理需求
亚马逊云科技与NVIDIA 、英特尔、AMD 和高通等芯片厂商建立深度合作, 为客户提供丰富的实例类型选择, 包括自研芯片Graviton 和Inferentia, 满足不同需求和预算。
亚马逊云科技中国峰会2024: 探讨如何利用云计算技术简化天气预报的复杂计算过程, 提高预报精度。
欧洲气象中心利用104 万核超算集群, 每天耗费3 小时预测10 天天气, 同时还需执行一个月和半年的预测
亚马逊云科技中国峰会2024 上, 演讲者对于机器学习初学者和有经验者分别推荐了合适的亚马逊云科技服务选择。
亚马逊云科技中国峰会2024: 通过混合使用不同类型的GPU 实例, 可以优化推理性能和成本, 实现更好的用户体验和性价比。
总结
亚马逊云科技正在见证生成式AI 的崛起, 带来了大型模型参数量激增、微调预训练模型以及开源势头等新趋势。面对客户对性能、成本、可扩展性、易用性和能效的需求, 亚马逊云科技提供了多种GPU 实例选择, 包括高算力密度的P 系列和高性价比的G 系列, 并与NVIDIA 、英特尔等芯片厂商建立深度合作。同时, 亚马逊云科技还推出了Ultra Cluster 等解决方案, 满足大规模集群训练需求, 并利用全球覆盖的Region 网络支持全球推理。
借助GPU 集群的强大算力, 无限光年正在探索多个前沿领域的生成式AI 应用。在气象预报领域, 他们利用Transformer 模型学习大气运动规律, 突破传统数值模拟的瓶颈, 提供高精度、高分辨率、长期预测, 为航运、航空、电力、陆运、旅游、农业等行业带来新机遇。在视频生成领域, 他们也取得了初步进展, 利用H100 集群大幅缩短训练时间。此外, 无限光年还在虚拟陪伴领域进行探索, 运用亚马逊云科技的ByteRock 等服务, 为不同人群提供情感支持和心理疗愈。
总之, 生成式AI 正在为各行业带来革命性变化, 而亚马逊云科技的GPU 实例和集群解决方案将为客户提供强有力的算力支持, 助力他们在这一浪潮中抓住机遇。
2024 年 5 月 29 日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。