大模型算法开发基础:理解大模型语言架构原理

大模型算法开发基础:理解大模型语言架构原理

探索从Seq2Seq到Transformer掌握前沿大语言模型架构的核心原理

¥79
本课程包括
  • 2小时40分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 能够分析常见开源模型的架构类型,理解其计算复杂度来源(如O(n²)),为后续学习模型微调、部署优化提供原理支撑。
  • 用真实标签加速解码器收敛;Beam Search 用于推理阶段,保留多条候选路径而非只选最优词,让生成结果更通顺。
  • 帮助解决深度网络训练中的梯度消失与梯度爆炸问题,使得 Transformer 能够稳定地多层堆叠。
  • 理解 Q(查询)、K(键)、V(值)三者的作用:用自己的 Q 与所有词的 K 计算相似度分数,再与 V 加权求和,从而捕获词与词之间的全局依赖关系。
  • 理清从Seq2Seq(第一代落地架构)→ Transformer(第二代落地架构)→ GPT(当前主流架构)的演进逻辑,理解每一代解决了什么问题、遗留了什么局限。
浏览相关主题
课程介绍

你是否曾思考过:

大语言模型为什么能“听懂”并生成自然语言?Transformer 相比 RNN 到底强在哪里,为什么能实现并行计算?GPT、BERT 这些模型在架构上有什么本质区别,各自擅长什么任务?如果这些问题让你感到好奇,这门课正是为你设计的!理解模型架构,是掌握大模型算法开发的根基,也是从“调包使用”走向“深入优化”的第一步。

本课程围绕“从 Seq2Seq 到 Transformer 再到 GPT”的架构演进主线展开:

  • 第一代落地架构:Seq2Seq:讲解端到端序列生成的基本框架,包括编码器-解码器结构、上下文向量、自回归生成、Teacher Forcing 与 Beam Search,并分析其在长文本信息衰减、串行计算效率低等方面的局限性。

  • 第二代落地架构:Transformer:剖析完全基于自注意力的并行序列模型,涵盖位置编码、层归一化与残差连接、自注意力机制(Q/K/V)、多头注意力、前馈网络、编码器-解码器结构,以及 Masked Self-Attention 对生成的约束作用。

  • 当前主流架构:GPT:聚焦纯解码器(Decoder-only)的因果自回归模型,讲解其结构(嵌入层 + N 层 Decoder 块 + 输出层)、掩码多头自注意力、自回归生成过程,以及预训练+微调(含 RLHF)的基本思想,并对比 Encoder-only(BERT)与 Decoder-only(GPT)在理解类与生成类任务上的不同擅长领域。

讲师背景

李晓华博士,大模型算法开发系列课程讲师。PPT 系统梳理了从 Seq2Seq 到 Transformer 再到 GPT 的完整技术脉络,重点讲解了各架构的核心模块、设计思想与演进逻辑。

通过本课程,学员将:

  1. 建立清晰的架构演进认知:理解 Seq2Seq 为何是里程碑、Transformer 为何是基石、GPT 为何成为当前主流,不再混淆各种模型术语;

  2. 掌握三大架构的核心机制:包括编码器-解码器设计、自注意力计算、位置编码、残差连接、层归一化、掩码自注意力、自回归生成等关键知识点;

  3. 理解不同模型变体的适用场景:区分 Encoder-only(BERT)适合自然语言理解(分类、抽取、问答),Decoder-only(GPT)适合自然语言生成(对话、写作、翻译);

  4. 为后续算法开发打下理论基础:具备分析、选择、优化大模型架构的能力,不再停留于“拿来就用”。

“要想用好大模型,先要读懂它的骨架。” 你准备好从原理层面深入了解 LLM 了吗?

适合人群
  • 刚接触大语言模型,希望从原理上理解模型“为什么能工作”,而非仅仅调用API的AI算法初学者
  • 计划在项目中集成或微调大模型,需要掌握Transformer、GPT等底层架构以便更好地进行模型选型与优化
  • 从事自然语言处理相关学习或研究,需要系统学习从Seq2Seq到GPT的架构演进脉络
  • 已了解大模型的基本应用,但想深入理解自注意力、位置编码、掩码机制等核心概念。
讲师介绍
美国金门大学博士/北京大学硕士
擅长领域:
  • AIGC办公提效
  • 大语言模型
  • DeepSeek
  • 人工智能认知与应用
  • 数据思维
  • AIGC行业应用
  • 自然语言处理(NLP)
  • 深度学习
  • 机器学习
  • 计算机视觉
技术老兵,在一线从事项目开发和团队管理近15年;精通人工智能算法及应用;线上教学视频每年的播放量在1000万人次以上;累计培养付费学员数万人;在企业培训方面,每年培训至少80家大型央企、国企和外企(如:中国移动、中国联通、中国电信、中国石油、中科曙光、中电金信、中国管理科学研究院、中国移动设计院、中国铁塔研究院、中国铁路、华润集团、友邦、光大银行、广发银行、中信银行、杭州银行、国泰君安、奔驰汽车、康宁、富士康、东风岚图、日本横河电机、同济大学、浙江财经大学、安徽工业大学、北京信息科技大学、陕西国防学院、北京大数据研究院等);学术大会公开演讲累计数百场(线上+线下);深刻理解学员和企业存在的问题,擅长引导学员思考,对症下药;所有培训秉承【听得懂+学得会+用得上】的原则,短期内迅速提升实战能力!
课程大纲
共0节 时长0分钟 全部收起
第一章 Seq2Seq架构原理
共2节 | 39分钟
  • 第一节 Seq2Seq编码器
    21分钟
  • 第二节 Seq2Seq解码与关键机制
    18分钟
第二章 Transformer架构原理
共3节 | 55分钟
  • 第一节 Tranformer架构编码与解码
    15分钟
  • 第二节 Tranformer架构关键模块
    17分钟
  • 第三节 Transformer架构优势与劣势
    22分钟
第三章 GPT架构原理
共3节 | 1小时5分钟
  • 第一节 GPT架构定位与结构
    22分钟
  • 第二节 GPT架构关键机制
    27分钟
  • 第三节 GPT架构优点与缺点
    17分钟
课程相关资料
图文
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。