一门课搞懂AI硬件:大模型训练的算力基建
¥149.9
大模型的军备竞赛背后,是一场算力基础设施的较量。从OpenAI到国内大厂,算力瓶颈已成为制约模型能力释放的关键因素。然而,懂算法的人不懂硬件,懂硬件的人不懂网络,这种“技术孤岛”现象让AI基础设施人才极为稀缺。无论是算法工程师想理解训练瓶颈,还是运维人员想优化算力利用率,都需要一套系统的AI硬件知识体系。
为此,三节课特邀AI基础设施资深架构师,带来这门《一门课搞懂AI硬件:大模型训练的算力基建》课程。课程从单卡GPU、服务器架构到集群网络与算力调度,系统拆解大模型训练所需的完整硬件与网络知识栈。
本课程将带你系统构建AI硬件知识体系。你将深入H100 GPU的SM架构、缓存机制与TMA引擎,理解AI服务器的PCIE/NVLink互联方案与AMD处理器架构。进阶部分将学习GPUDirect系列技术、RDMA协议与集群网络设计(三张网/两套方案)。最后掌握GPU板卡级算力调度(KVM直通/K8s容器独占)。学完即可具备大模型算力基建的全局视野与技术深度。
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。