一门课搞懂AI硬件:大模型训练的算力基建

一门课搞懂AI硬件:大模型训练的算力基建

解码AI算力,构建企业级智算中心

¥149.9
本课程包括
  • 4小时30分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 深入理解英伟达H100 GPU的核心架构,包括SM流式多处理器、缓存机制、TMA引擎及多用户隔离技术。
  • 掌握AI服务器与DGX系统的架构设计,了解PCIE-Switch、NVLink-Switch在GPU互联中的核心作用。
  • 系统学习分布式训练IO体系,包括GPUDirect Shared Memory、P2P、RDMA等关键技术及四种RDMA实现协议。
浏览相关主题
课程介绍

大模型的军备竞赛背后,是一场算力基础设施的较量。从OpenAI到国内大厂,算力瓶颈已成为制约模型能力释放的关键因素。然而,懂算法的人不懂硬件,懂硬件的人不懂网络,这种“技术孤岛”现象让AI基础设施人才极为稀缺。无论是算法工程师想理解训练瓶颈,还是运维人员想优化算力利用率,都需要一套系统的AI硬件知识体系。


为此,三节课特邀AI基础设施资深架构师,带来这门《一门课搞懂AI硬件:大模型训练的算力基建》课程。课程从单卡GPU、服务器架构到集群网络与算力调度,系统拆解大模型训练所需的完整硬件与网络知识栈。


本课程将带你系统构建AI硬件知识体系。你将深入H100 GPU的SM架构、缓存机制与TMA引擎,理解AI服务器的PCIE/NVLink互联方案与AMD处理器架构。进阶部分将学习GPUDirect系列技术、RDMA协议与集群网络设计(三张网/两套方案)。最后掌握GPU板卡级算力调度(KVM直通/K8s容器独占)。学完即可具备大模型算力基建的全局视野与技术深度。

适合人群
  • 从事AI大模型训练但只懂算法不懂底层硬件,面对训练性能瓶颈时无从下手的AI工程师或算法专家。
  • 负责AI算力平台规划与运维,需要了解GPU架构、服务器设计、集群网络的技术负责人或运维工程师。
  • 希望系统学习AI硬件知识,理解从单卡到集群的完整技术栈,为从事AI基础设施相关工作打下基础的IT从业者或学生。
讲师介绍
AI系统架构师
擅长领域:
  • DeepSeek
  • 人工智能认知与应用
  • 深度学习
  • 机器学习
  • 计算机视觉
  • 自然语言处理(NLP)
● 一句话定位: AI 讲师、大模型架构师 ● 核心背书: a. 著作:《大模型定制开发》《LangChain 实战:大模型应用开发实例 》《分布式架构原理与实践》 b. 教学战绩: AI 讲师、全网学员 20w+ c. 专业领域:AI 应用开发与架构设计、智能体集成与应用
课程大纲
共0节 时长0分钟 全部收起
00-AI大模型硬件架构-课程介绍
7分钟
01-GPU初登场-英伟达H100基本架构与CPU通信方式介绍
15分钟
02-英伟达H100-GPU核心详解-计算控制与缓存
9分钟
03-SM流式多处理器内部架构-从指令缓存到运算单元
12分钟
04-英伟达H100缓存机制梳理-指令缓存与数据缓存
8分钟
05-英伟达H100提升计算效率-TMA原理解析
14分钟
06-GPU多组用户实现-从Ampere架构到Hopper架构
5分钟
07-GPU内部架构以及运作原理总结
10分钟
08-传统AI服务器-Apollo6500架构解析
9分钟
09-英伟达DGX服务器架构设计与分析
15分钟
10-AMD晓龙处理器ROME7742架构
8分钟
11-PCIE-Switch在DGX中的应用
11分钟
12-NVLink-Switch多个A100如何连接
9分钟
13-GPU服务器设计与实现总结
9分钟
14-分布式训练IO体系-MagnumIO概要和组成
11分钟
15-GPU与用户内存通信-GPUDirectSharedMemory
11分钟
16-GPU Direct P2P(Peer-to-Peer)原理与使用场景
7分钟
17-跨服务器的GPU互通-GPU-Direct-RDMA
8分钟
18-RDMA实现方式-4种协议-2种基于数据包-2种基于端点
9分钟
19-分布式训练IO体系-总结
8分钟
20-GPU集群的网络设计与实现-三张网与两套方案
6分钟
21-DGXA100-IB网与以太网方案
12分钟
22-DGXA100-三种GPU连接方式
4分钟
23-DGXA100-以太网连接方案
6分钟
24-管理GPU集群-BMC与IPMI的实现
5分钟
25-GPU集群的专线与互联网访问
4分钟
26-GPU集群的网络设计与实现-总结
9分钟
27-GPU板卡级算力调度技术
3分钟
28-KVMPCI-e直通模式
7分钟
29-KVM直通模式-租户独占GPU全过程
10分钟
30-K8s容器独占模式
5分钟
31-GPU板卡级算力调度技术-总结
4分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。