干货满满!AI系统全栈架构解析,快来收藏!

今天干货满满,给大家详细分析下当代AI系统的全栈架构,从硬件到应用创建的一整套架构体系,还不快收藏!具体参照下图:


硬件

GPU:因其强大的并行计算能力,现在已经是大模型训练、微调和推理的首选。NVIDIA现在是全球最火的GPU提供商。


TPU:Google开发的一种专门用于机器学习模型训练和推理的处理器。它具有卓越的张量计算能力,能够高速进行大规模矩阵运算,支持高性能的神经网络训练和推理计算。


NPU:一种专为AI和机器学习任务设计的硬件加速器。它针对深度学习算法所需的复杂计算进行了优化,使得自然语言处理、图像分析等AI任务能更加高效地运行。


RDMA:允许服务器直接访问另一台服务器内存的技术,主要用于解决网络传输中的延迟问题。此外,RDMA技术还能实现跨越多服务器边界、在GPU集群内部不同GPU之间的直接数据交互,这对于提升高性能计算(HPC)系统性能至关重要。


Ethernet:广泛使用的网络技术,提供可靠的网络连接和数据传输。


超级计算机节点:高性能计算集群,用于训练大规模深度学习模型。这些节点通常配备大量 GPU 或 TPU,提供强大的计算能力和存储资源。

编译

CUDA:NVIDIA提供的并行计算平台和编程模型,主要用于 GPU 的通用计算。CUDA 使得开发者可以利用 GPU 强大的计算能力进行深度学习训练和推理。


TVM:是一个开源机器学习(ML)编译器框架,旨在为各种硬件后端优化深度学习模型。支持 CPU、GPU 和各种硬件加速器的优化和编译,TVM 通过自动化优化过程,提高模型在不同硬件上的运行效率。


LLVM:一个编译器框架,支持多种编程语言。旨在深度学习中常用于创建高效的模型推理代码。


XLA:TensorFlow 的专用编译器,用于优化和加速线性代数计算,提升模型训练和推理性能。


GCC:传统的编译系统,广泛应用于各种软件开发领域。在AI开发中用于编译底层代码,提高运行效率。


框架

PyTorch:本质上是一个开源的基于Python的机器学习库,提供了丰富的API和工具,支持从小规模实验到大规模生产的AI模型开发,最核心的两个功能是支持多维张量的操作和深度学习。


TensorFlow:谷歌开发的一个开源机器学习框架,广泛应用于各种深度学习任务。TensorFlow 提供了强大的工具集和库,支持分布式计算和大规模数据处理。


Caffe:一个开源的深度学习框架,适合进行大规模图像分类任务,还支持CNN、RCNN、LSTM和全连接神经网络设计。


MindSpore:华为开源的深度学习框架,支持从端到端的完整AI解决方案,旨在简化深度学习模型的开发、训练和部署过程


MNN:阿里开源的轻量级深度学习框架,专为移动端设备设计,支持跨平台部署。


ONNX:微软和Facebook发布了一个开放的深度学习开发工具生态系统,目的是能够在不同的工具和框架之间自由地移动和使用模型,旨在促进不同深度学习框架之间的互操作性。


使能

DeepSpeed:微软开发的一个高性能深度学习训练库,旨在加速和优化大规模分布式训练,可以将你的模型快速放在多台服务器上进行并行化的训练或推理。


Hugging Face:现在最大的AI开源社区,里面提供了很多的预训练模型,是一个模型库,很多人会把自己训练好的模型上传上去,大家可以免费下载使用。


LangChain:一个用于构建基于LLM驱动的应用程序开源框架,方便我们快速构建基于LLM的应用程序。里面内置很多API,简化了对大模型的操作。所以如果要基于大模型去开发应用程序,LangChain必不可少。


Milvus:一个开源的矢量数据库,用于高效地存储、搜索和管理大规模的矢量数据。Milvus 提供了高效的相似性搜索、实时数据插入和高吞吐量查询功能,适用于各种复杂的AI应用场景。


编程

开发语言:不多说,学好Python。Python提供了广泛的库和框架支持,如TensorFlow、PyTorch、Pandas等。现在开发Python常用的IDE有PyCharm、Vscode等。


应用

LLM:相信这个现在已经没有人不知道了吧,大型语言模型是由大量文本数据训练而成的深度学习模型,擅长自然语言理解和生成任务,现在更是扩展到各个业务领域,训练其垂直领域大模型。


RLHF:人类反馈强化学习,这是强化学习的一种方法,通过人类反馈来优化模型的性能。通过结合人类的经验和反馈,可以使模型更快速、更有效地学习。


NLP:自然语言处理是人工智能的一个子领域,致力于让计算机理解、解释和生成人类语言。常见的应用包括情感分析、机器翻译、问答系统等。


其他AI应用:以大模型为底座基础,创建各业务场景下的AI应用,其中常用的技术,有与RAG相结合,有与Agent相结合等。其中AIGC是最为简单和广泛应用的一种场景,结合着各种多模态大模型,在短短一年半内,全球掀起了AI浪潮。


----------------


上面简单介绍了AI系统的全栈架构,展示了当代AI开发和部署中涉及的各项技术和组件,从高层的应用到底层的硬件优化,全面概括了AI技术领域的全景,希望对大家有所帮助。

(正文完)

更多精彩内容,欢迎扫码加入免费知识星球
极客e家

共同打造极客文化


请使用浏览器的分享功能分享到微信等