一门课搞懂AI硬件：大模型训练的算力基建-崔皓-知识小课

发现课程

专家讲师成为讲师企业版全球版

一门课搞懂AI硬件：大模型训练的算力基建

¥149.9

会员免费学习

单独购买

你将收获

深入理解英伟达H100 GPU的核心架构，包括SM流式多处理器、缓存机制、TMA引擎及多用户隔离技术。
掌握AI服务器与DGX系统的架构设计，了解PCIE-Switch、NVLink-Switch在GPU互联中的核心作用。
系统学习分布式训练IO体系，包括GPUDirect Shared Memory、P2P、RDMA等关键技术及四种RDMA实现协议。

浏览相关主题

课程介绍

大模型的军备竞赛背后，是一场算力基础设施的较量。从OpenAI到国内大厂，算力瓶颈已成为制约模型能力释放的关键因素。然而，懂算法的人不懂硬件，懂硬件的人不懂网络，这种“技术孤岛”现象让AI基础设施人才极为稀缺。无论是算法工程师想理解训练瓶颈，还是运维人员想优化算力利用率，都需要一套系统的AI硬件知识体系。

为此，三节课特邀AI基础设施资深架构师，带来这门《一门课搞懂AI硬件：大模型训练的算力基建》课程。课程从单卡GPU、服务器架构到集群网络与算力调度，系统拆解大模型训练所需的完整硬件与网络知识栈。

本课程将带你系统构建AI硬件知识体系。你将深入H100 GPU的SM架构、缓存机制与TMA引擎，理解AI服务器的PCIE/NVLink互联方案与AMD处理器架构。进阶部分将学习GPUDirect系列技术、RDMA协议与集群网络设计（三张网/两套方案）。最后掌握GPU板卡级算力调度（KVM直通/K8s容器独占）。学完即可具备大模型算力基建的全局视野与技术深度。

适合人群

从事AI大模型训练但只懂算法不懂底层硬件，面对训练性能瓶颈时无从下手的AI工程师或算法专家。
负责AI算力平台规划与运维，需要了解GPU架构、服务器设计、集群网络的技术负责人或运维工程师。
希望系统学习AI硬件知识，理解从单卡到集群的完整技术栈，为从事AI基础设施相关工作打下基础的IT从业者或学生。

讲师介绍

崔皓查看讲师主页

AI系统架构师

擅长领域:

DeepSeek

● 一句话定位： AI 讲师、大模型架构师 ● 核心背书： a. 著作：《大模型定制开发》《LangChain 实战：大模型应用开发实例》《分布式架构原理与实践》 b. 教学战绩： AI 讲师、全网学员 20w+ c. 专业领域：AI 应用开发与架构设计、智能体集成与应用

课程大纲

共0节时长0分钟全部收起

00-AI大模型硬件架构-课程介绍

7分钟

01-GPU初登场-英伟达H100基本架构与CPU通信方式介绍

15分钟

02-英伟达H100-GPU核心详解-计算控制与缓存

9分钟

03-SM流式多处理器内部架构-从指令缓存到运算单元

12分钟

04-英伟达H100缓存机制梳理-指令缓存与数据缓存

8分钟

05-英伟达H100提升计算效率-TMA原理解析

14分钟

06-GPU多组用户实现-从Ampere架构到Hopper架构

5分钟

07-GPU内部架构以及运作原理总结

10分钟

08-传统AI服务器-Apollo6500架构解析

9分钟

09-英伟达DGX服务器架构设计与分析

15分钟

10-AMD晓龙处理器ROME7742架构

8分钟

11-PCIE-Switch在DGX中的应用

11分钟

12-NVLink-Switch多个A100如何连接

9分钟

13-GPU服务器设计与实现总结

9分钟

14-分布式训练IO体系-MagnumIO概要和组成

11分钟

15-GPU与用户内存通信-GPUDirectSharedMemory

11分钟

16-GPU Direct P2P(Peer-to-Peer)原理与使用场景

7分钟

17-跨服务器的GPU互通-GPU-Direct-RDMA

8分钟

18-RDMA实现方式-4种协议-2种基于数据包-2种基于端点

9分钟

19-分布式训练IO体系-总结

8分钟

20-GPU集群的网络设计与实现-三张网与两套方案

6分钟

21-DGXA100-IB网与以太网方案

12分钟

22-DGXA100-三种GPU连接方式

4分钟

23-DGXA100-以太网连接方案

6分钟

24-管理GPU集群-BMC与IPMI的实现

5分钟

25-GPU集群的专线与互联网访问

4分钟

26-GPU集群的网络设计与实现-总结

9分钟

27-GPU板卡级算力调度技术

3分钟

28-KVMPCI-e直通模式

7分钟

29-KVM直通模式-租户独占GPU全过程

10分钟

30-K8s容器独占模式

5分钟

31-GPU板卡级算力调度技术-总结

4分钟

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号