面向AI/ML、分析和HPC工作负载的高性能存储


导读

亚马逊云科技存储服务可以作为任何高性能工作负载的强大、经济高效的基础,从基因组分析到媒体渲染和大数据分析。在本次讨论中,我们将探讨适用于各种架构、数据类型和组织需求的存储选项,这些选项可以加速您最关键的性能应用,从而缩短获得洞察和上市的时间。从数据摄取到处理和存储,学习先进技术和最佳实践,以实现您具挑战性工作负载的大规模峰值性能。

演讲精华

以下是小编为您整理的本次演讲的精华。

在高性能计算领域,对于快速访问海量数据集的无止境需求推动了创新存储解决方案的不懈追求。在亚马逊云科技 re:Invent 2024上,亚马逊S3软件开发高级经理George Lewis和亚马逊FSx for Lustre总经理Andrew Crudge展开了一段启发性的探索,揭示了为AI/ML、分析和高性能计算(HPC)工作负载量身定制的尖端存储技术。

高性能工作负载的本质定义 叙述从对高性能工作负载的精确定义开始,这些工作负载被描述为需要快速访问极大数据集的进程或应用程序,通常是并行和低延迟的。这些工作负载包括从训练庞大的人工智能模型到执行高频交易算法、风险分析和即时媒体内容生成等多种应用。

指数级增长的推动力 高性能工作负载的指数级增长是数据集规模不断扩大的必然结果,这一趋势由计算技术的不断进步所推动。专门设计的GPU和AI芯片已成为催化剂,使处理高度丰富的数据集成为可能,并释放了从中提取宝贵推论的潜力,这些推论曾经被掩盖。

亚马逊S3:云对象存储的基石 George Lewis阐明了亚马逊S3作为事实上的云对象存储解决方案的关键作用,提供了几乎无限的存储可扩展性。这种动态解决方案可以无缝扩展以适应波动的工作负载,无需预先配置或容量管理,并遵循按使用付费的模式,确保客户只为所使用的资源付费。凭借其无与伦比的11个9的持久性和3个可用区域的区域可用性,亚马逊S3已巩固了作为存储敏感和宝贵数据的可信赖存储库的地位。

优化亚马逊S3以支持数据湖 为了充分发挥亚马逊S3在数据湖中的潜力,George Lewis倡导了一种战略方法:从工作负载性能要求和可用的计算和网络资源出发进行反向思考。亚马逊S3通用存储桶每个连接提供令人印象深刻的95兆字节/秒的性能,使工作负载能够并行化和水平扩展到千兆位或甚至太字节/秒级别。

有效的并行化依赖于良好的分布式方法,利用具有5秒或更短的短暂DNS缓存TTL的多值DNS技术。亚马逊云科技 SDK自动执行此过程,而自定义客户端则需要手动配置TTL。

亚马逊S3通用存储桶按前缀进行扩展,从每秒5,500次读取和每秒3,500次写入开始,并随着工作负载的增加而自动扩展。对于高性能工作负载,设计合理的前缀至关重要,需要包含熵或随机性,以确保独立的前缀和最佳初始化。

亚马逊S3 Express One Zone目录存储桶:释放性能 对于以极热、短暂数据为特征的工作负载,亚马逊S3 Express One Zone目录存储桶作为专门为高TPS负载量身定制的解决方案而出现。这些存储桶提供高度一致的单位毫秒级首字节延迟,并且与通用存储桶相比,请求成本降低了50%。

与通用存储桶的传统平面设计不同,亚马逊S3 Express One Zone目录存储桶采用分层索引,在初始化时即可提供数十万TPS。此外,作为单一可用区域存储类别,它能够使计算集群与存储在同一VPC里共存,从而实现与云中数据的最近物理和逻辑连接。

亚马逊S3 Express One Zone中的授权由基于会话的模型管理,简化了安全模型并消除了计算工作负载的授权开销。亚马逊云科技 SDK和CRT自动化了会话创建和使用,简化了流程。

真实世界范例:ClickHouse George Lewis介绍了ClickHouse的真实世界范例,这是一个为实时分析而设计的开源列存储数据库管理系统。ClickHouse采用了两层系统,将亚马逊S3 Express One Zone用于热数据,将亚马逊S3标准用于冷数据,从而实现了查询性能提高283%,总体拥有成本降低65%的显著成果。

提升和转移文件存储客户:拥抱云端转型 Andrew Crudge深入探讨了将基于文件的高性能工作负载“提升和转移”到云端的客户所遵循的模式和用例。长期以来,文件系统一直是访问数据的熟悉且首选方法,提供POSIX兼容性、共享便利性和经过验证的性能,使其成为现有本地工作负载的自然选择。

亚马逊FSx for Lustre:高性能文件系统解决方案 对于着手进行提升和转移的客户而言,亚马逊FSx for Lustre已成为首选服务。基于开源Lustre文件系统构建,亚马逊FSx for Lustre针对速度、高聚合并发吞吐量和卓越性能进行了优化。

亚马逊FSx for Lustre的延迟优化 亚马逊FSx for Lustre在架构上旨在提供最低可能的延迟,利用SSD存储、提供从客户端到服务器的单网络往返,并利用Lustre在服务器和客户端两侧的读写缓存功能。

使用Audi自动驾驶数据集(A2D2)的一个示例说明了亚马逊S3标准、亚马逊S3 Express One Zone和亚马逊FSx for Lustre之间高达5倍的性能差异,这个数据集包含数百万张平均30KB大小的图像,突显了该服务将延迟降低到亚毫秒级的能力。

亚马逊FSx for Lustre的吞吐量和IOPS优化 为了优化亚马逊FSx for Lustre的吞吐量和IOPS,George Lewis提供了三个关键建议:

1.           根据工作负载要求在创建文件系统时配置适当的吞吐量层。该服务提供四个吞吐量层,从每TB存储125MB/秒到每TB存储1,000MB/秒,使客户能够针对所需的存储和性能水平进行成本优化。

2.           对于元数据密集型工作负载,利用2023年6月推出的元数据IOPS功能,允许独立配置元数据性能。虽然大多数Lustre用例都是吞吐量密集型的,但这一功能针对具有更高元数据需求的工作负载(如主目录和用户研究工作站)提供高达15倍的元数据性能提升。

3.           启用Elastic Fabric Adapter (EFA)支持,这是一项前一周推出的突破性功能,利用自定义SRD协议比传统TCP网络提供更高的性能、可扩展性和更低的延迟。

EFA支持使单个客户端能够达到700Gbps的网络带宽,并且在P5实例上与NVIDIA GPU Direct Storage结合使用时,可达到1,200Gbps,这些实例提供3,200Gbps的网络带宽。其他优势包括客户端CPU负载降低70%,单流吞吐量提高20%。

客户案例:Shell向亚马逊云科技的转型 能源公司Shell成功地将其本地GPU环境转移到亚马逊云科技,利用亚马逊FSx for Lustre和亚马逊EC2。这一转型使他们能够动态地扩展和缩减计算和存储资源,这在本地环境中是无法实现的。结果是GPU利用率从90%显著提高到100%。

通过文件系统访问S3数据湖 Andrew Crudge阐明了亚马逊提供的通过文件系统接口访问S3数据湖的能力,满足了基于文件的工具和应用程序的需求,并利用了文件解决方案的性能特征。

Mount Point for Amazon S3 Mount Point for Amazon S3是一个FUSE客户端,它在EC2实例上公开一个文件系统挂载点,使用标准S3 API与S3存储桶通信。它非常适合需要文件功能但不需要完整文件系统语义或性能的工作负载,例如从S3读取大型对象。

亚马逊FSx for Lustre与亚马逊S3集成 亚马逊FSx for Lustre提供与亚马逊S3的本地集成,允许客户将文件系统链接到S3存储桶。这种集成提供了完整的POSIX语义、一致性保证以及锁定和重命名等功能,适用于更具交互性的工作负载或需要高级文件系统功能的工作负载。

性能比较 Andrew Crudge展示了直接从亚马逊S3读取数据、使用与亚马逊S3集成的亚马逊FSx for Lustre以及利用缓存功能之间的性能比较。结果显示,在处理Kaggle肝脏数据集进行患者分类时,亚马逊FSx for Lustre比直接从亚马逊S3读取数据快67%。后续运行由于缓存而快了83%。

Mount Point for Amazon S3也提供了缓存选项,包括用于频繁读取数据的本地NVMe或EBS卷缓存,比多次从亚马逊S3读取数据快2.2倍。此外,新推出的共享缓存功能利用亚马逊S3 Express One Zone,使计算集群中的实例能够从共享缓存中获益。

客户案例:LG 人工智能研究所 LG 人工智能研究所利用多种 亚马逊云科技 存储解决方案,使用 Amazon SageMaker 和 Amazon FSx for Lustre 创建了一个模仿人脑的基础模型。他们将机器学习训练数据存储在 Amazon S3 存储桶中,通过链接的 Amazon FSx for Lustre 文件系统在训练期间获得高性能访问,并将模型工件存储回 Amazon S3 以进行进一步推理。这一典范用例展示了 亚马逊云科技 存储解决方案的协同集成,以优化性能和效率。

客户案例:Shell 向 亚马逊云科技 的过渡 作为一家能源公司,Shell 在本地 GPU 环境中遇到了瓶颈,并寻求利用 亚马逊云科技 的额外容量。通过过渡到 Amazon FSx for Lustre 和 Amazon EC2,Shell 获得了动态扩展计算和存储资源的能力。这种额外的灵活性和高性能存储使 Shell 能够将 GPU 利用率从 90% 提高到 100%,最大限度地发挥了他们在 GPU 实例上的投资价值。

在不断发展的高性能计算领域,亚马逊云科技 已成为开拓者,提供量身定制的尖端存储解决方案,满足人工智能/机器学习、分析和 HPC 工作负载的苛刻要求。通过 George Lewis 和 Andrew Crudge 在 亚马逊云科技 re:Invent 2024 上的精彩演讲,与会者获得了关于 Amazon S3 和 Amazon FSx for Lustre 的宝贵见解及优化策略。

这一叙述强调了理解工作负载需求、利用并行化以及通过深思熟虑的配置和缓存策略来优化性能的重要性。真实世界的示例和客户案例说明了这些解决方案的实际应用和切实利益,使与会者能够做出明智的决策,并充分发挥高性能存储为关键任务工作负载所提供的全部潜力。

总结

在一段引人入胜的叙述中,George Lewis和Andrew Crudge深入探讨了针对人工智能/机器学习、分析和高性能计算工作负载的高性能存储解决方案。他们探索了云对象存储巨头Amazon S3的复杂性,以及为无与伦比的速度而量身定制的文件系统Amazon FSx for Lustre。

George阐明了Amazon S3的可扩展性和成本效益,揭示了通过深思熟虑的前缀设计和利用S3 Express One Zone实现超低延迟的策略。他举例说明了真实世界的案例,例如ClickHouse巧妙地采用了两层方法,将S3 Express One Zone和S3 Standard相结合,令人难以置信地将查询性能提高了283%,同时降低了65%的成本。

随后,Andrew带领我们探索文件系统的世界,强调了它们的熟悉性、POSIX合规性、可共享性和卓越性能。他赞扬了Amazon FSx for Lustre的优点,这是一项基于开源Lustre文件系统构建的服务,针对低延迟和高吞吐量进行了优化。Andrew揭示了最大化性能的技术,从配置吞吐量层到利用Elastic Fabric Adapter(EFA)和GPU Direct Storage,实现前所未有的网络带宽和降低CPU负载。

最后,他们阐明了S3数据湖和文件系统之间的协同作用,展示了诸如Mount Point for Amazon S3和FSx for Lustre的本地S3集成等解决方案。这些解决方案使客户能够发挥两个世界的优势,加速工作负载并开启新的性能领域。

我们正处在 Agentic AI 爆发前夜。 2025 亚马逊云科技中国峰会提出,企业要从 " 成本优化 " 转向 " 创新驱动 " ,通过完善的数据战略和 AI 云服务,把握全球化机遇。亚马逊将投入 1000 亿美元在 AI 算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在 AI 时代突破。




请使用浏览器的分享功能分享到微信等