干货满满！AI系统全栈架构解析，快来收藏！

干货满满！AI系统全栈架构解析，快来收藏！

2024-11-10 16:05

今天干货满满，给大家详细分析下当代AI系统的全栈架构，从硬件到应用创建的一整套架构体系，还不快收藏！具体参照下图：

硬件

GPU：因其强大的并行计算能力，现在已经是大模型训练、微调和推理的首选。NVIDIA现在是全球最火的GPU提供商。

TPU：Google开发的一种专门用于机器学习模型训练和推理的处理器。它具有卓越的张量计算能力，能够高速进行大规模矩阵运算，支持高性能的神经网络训练和推理计算。

NPU：一种专为AI和机器学习任务设计的硬件加速器。它针对深度学习算法所需的复杂计算进行了优化，使得自然语言处理、图像分析等AI任务能更加高效地运行。

RDMA：允许服务器直接访问另一台服务器内存的技术，主要用于解决网络传输中的延迟问题。此外，RDMA技术还能实现跨越多服务器边界、在GPU集群内部不同GPU之间的直接数据交互，这对于提升高性能计算（HPC）系统性能至关重要。

Ethernet：广泛使用的网络技术，提供可靠的网络连接和数据传输。

超级计算机节点：高性能计算集群，用于训练大规模深度学习模型。这些节点通常配备大量 GPU 或 TPU，提供强大的计算能力和存储资源。

编译

CUDA：NVIDIA提供的并行计算平台和编程模型，主要用于 GPU 的通用计算。CUDA 使得开发者可以利用 GPU 强大的计算能力进行深度学习训练和推理。

TVM：是一个开源机器学习（ML）编译器框架，旨在为各种硬件后端优化深度学习模型。支持 CPU、GPU 和各种硬件加速器的优化和编译，TVM 通过自动化优化过程，提高模型在不同硬件上的运行效率。

LLVM：一个编译器框架，支持多种编程语言。旨在深度学习中常用于创建高效的模型推理代码。

XLA：TensorFlow 的专用编译器，用于优化和加速线性代数计算，提升模型训练和推理性能。

GCC：传统的编译系统，广泛应用于各种软件开发领域。在AI开发中用于编译底层代码，提高运行效率。

框架

PyTorch：本质上是一个开源的基于Python的机器学习库，提供了丰富的API和工具，支持从小规模实验到大规模生产的AI模型开发，最核心的两个功能是支持多维张量的操作和深度学习。

TensorFlow：谷歌开发的一个开源机器学习框架，广泛应用于各种深度学习任务。TensorFlow 提供了强大的工具集和库，支持分布式计算和大规模数据处理。

Caffe：一个开源的深度学习框架，适合进行大规模图像分类任务，还支持CNN、RCNN、LSTM和全连接神经网络设计。

MindSpore：华为开源的深度学习框架，支持从端到端的完整AI解决方案，旨在简化深度学习模型的开发、训练和部署过程。

MNN：阿里开源的轻量级深度学习框架，专为移动端设备设计，支持跨平台部署。

ONNX：微软和Facebook发布了一个开放的深度学习开发工具生态系统，目的是能够在不同的工具和框架之间自由地移动和使用模型，旨在促进不同深度学习框架之间的互操作性。

使能

DeepSpeed：微软开发的一个高性能深度学习训练库，旨在加速和优化大规模分布式训练，可以将你的模型快速放在多台服务器上进行并行化的训练或推理。

Hugging Face：现在最大的AI开源社区，里面提供了很多的预训练模型，是一个模型库，很多人会把自己训练好的模型上传上去，大家可以免费下载使用。

LangChain：一个用于构建基于LLM驱动的应用程序开源框架，方便我们快速构建基于LLM的应用程序。里面内置很多API，简化了对大模型的操作。所以如果要基于大模型去开发应用程序，LangChain必不可少。

Milvus：一个开源的矢量数据库，用于高效地存储、搜索和管理大规模的矢量数据。Milvus 提供了高效的相似性搜索、实时数据插入和高吞吐量查询功能，适用于各种复杂的AI应用场景。

编程

开发语言：不多说，学好Python。Python提供了广泛的库和框架支持，如TensorFlow、PyTorch、Pandas等。现在开发Python常用的IDE有PyCharm、Vscode等。

应用

LLM：相信这个现在已经没有人不知道了吧，大型语言模型是由大量文本数据训练而成的深度学习模型，擅长自然语言理解和生成任务，现在更是扩展到各个业务领域，训练其垂直领域大模型。

RLHF：人类反馈强化学习，这是强化学习的一种方法，通过人类反馈来优化模型的性能。通过结合人类的经验和反馈，可以使模型更快速、更有效地学习。

NLP：自然语言处理是人工智能的一个子领域，致力于让计算机理解、解释和生成人类语言。常见的应用包括情感分析、机器翻译、问答系统等。

其他AI应用：以大模型为底座基础，创建各业务场景下的AI应用，其中常用的技术，有与RAG相结合，有与Agent相结合等。其中AIGC是最为简单和广泛应用的一种场景，结合着各种多模态大模型，在短短一年半内，全球掀起了AI浪潮。

上面简单介绍了AI系统的全栈架构，展示了当代AI开发和部署中涉及的各项技术和组件，从高层的应用到底层的硬件优化，全面概括了AI技术领域的全景，希望对大家有所帮助。

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【】

#### 一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。