你是否曾思考过:
大语言模型为什么能“听懂”并生成自然语言?Transformer 相比 RNN 到底强在哪里,为什么能实现并行计算?GPT、BERT 这些模型在架构上有什么本质区别,各自擅长什么任务?如果这些问题让你感到好奇,这门课正是为你设计的!理解模型架构,是掌握大模型算法开发的根基,也是从“调包使用”走向“深入优化”的第一步。
本课程围绕“从 Seq2Seq 到 Transformer 再到 GPT”的架构演进主线展开:
第一代落地架构:Seq2Seq:讲解端到端序列生成的基本框架,包括编码器-解码器结构、上下文向量、自回归生成、Teacher Forcing 与 Beam Search,并分析其在长文本信息衰减、串行计算效率低等方面的局限性。
第二代落地架构:Transformer:剖析完全基于自注意力的并行序列模型,涵盖位置编码、层归一化与残差连接、自注意力机制(Q/K/V)、多头注意力、前馈网络、编码器-解码器结构,以及 Masked Self-Attention 对生成的约束作用。
当前主流架构:GPT:聚焦纯解码器(Decoder-only)的因果自回归模型,讲解其结构(嵌入层 + N 层 Decoder 块 + 输出层)、掩码多头自注意力、自回归生成过程,以及预训练+微调(含 RLHF)的基本思想,并对比 Encoder-only(BERT)与 Decoder-only(GPT)在理解类与生成类任务上的不同擅长领域。
讲师背景
李晓华博士,大模型算法开发系列课程讲师。PPT 系统梳理了从 Seq2Seq 到 Transformer 再到 GPT 的完整技术脉络,重点讲解了各架构的核心模块、设计思想与演进逻辑。
通过本课程,学员将:
建立清晰的架构演进认知:理解 Seq2Seq 为何是里程碑、Transformer 为何是基石、GPT 为何成为当前主流,不再混淆各种模型术语;
掌握三大架构的核心机制:包括编码器-解码器设计、自注意力计算、位置编码、残差连接、层归一化、掩码自注意力、自回归生成等关键知识点;
理解不同模型变体的适用场景:区分 Encoder-only(BERT)适合自然语言理解(分类、抽取、问答),Decoder-only(GPT)适合自然语言生成(对话、写作、翻译);
为后续算法开发打下理论基础:具备分析、选择、优化大模型架构的能力,不再停留于“拿来就用”。
“要想用好大模型,先要读懂它的骨架。” 你准备好从原理层面深入了解 LLM 了吗?
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。