大语言模型架构技术基础入门
¥119

大语言模型架构技术基础入门

AI通识课——从Transformer到多模态前沿演进

¥119
本课程包括
  • 1小时49分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 区分纯编码器、编解码器、纯解码器的拓扑差异、注意力掩码设计与适用场景,理解为什么GPT路线成为绝对主导;
  • 掌握缩放点积注意力、多头注意力的数学原理、前馈层的键值记忆本质、非线性激活与残差连接的协同作用;
  • 熟练运用旋转位置编码、RMSNorm、SwiGLU等前沿组件,理解它们如何提升模型训练稳定性与长文本建模能力;
  • 掌握门控路由、负载均衡、专家容量限制等核心机制,理解MoE如何打破算力墙与内存墙;
  • 掌握冻结双端主干与轻量桥接层的工程范式,理解视觉信号如何接入离散文本系统。
浏览相关主题
课程介绍

你是否曾思考过:

GPT、BERT、T5这些模型到底在架构上有什么区别,为什么有的擅长理解、有的擅长生成?标准Transformer在处理长文本时为什么越来越慢,混合专家、线性架构、状态空间模型是如何突破算力瓶颈的?大模型如何处理图像、声音等多模态信息,视觉信号是如何接入纯文本系统的?如果这些问题让你感到好奇,这门课正是为你设计的!纯编码器、编解码器、纯解码器三大拓扑路线的分化,本质上不是算法优劣,而是底层硬件并行规律与理论设计之间的必然妥协。深入理解这些架构差异,是算法工程师进行模型微调与推理优化的核心前提。

本课程围绕“三大主流架构对比→Transformer核心机制→现代底层技术模块→编码器与编解码架构→混合专家架构→注意力优化与计算加速→长上下文序列建模→稀疏混合专家→线性架构与状态空间模型→多模态大模型”十大模块展开:

  • 三大主流架构宏观拓扑对比:区分纯编码器(双向注意力,适合自然语言理解)、编解码器(交叉注意力,适合序列到序列的条件生成)、纯解码器(下三角掩码与自回归生成,当前大模型绝对主导)三大路线,理解自回归生成策略、少样本泛化涌现能力及计算复杂度工程优势。

  • Transformer核心机制解构:深入缩放点积注意力的数学计算全过程、多头注意力的几何与拓扑意义、全连接前馈层的键值记忆网络本质、非线性特征映射与残差连接在深层网络中的协同机制。

  • 现代大模型底层技术模块:掌握旋转位置编码(RoPE)与复平面几何旋转、ALiBi注意力偏置惩罚机制、层归一化与RMSNorm的数学原理对比、从ReLU到GeLU的概率累积转化、SwiGLU门控线性单元的特征筛选机制。

  • 编码器与编解码架构剖析:深入纯编码器的掩码语言模型预训练范式、编解码器联合架构的交叉注意力信息交互代数推演、GLM架构的自回归空白填充与混合注意力掩码矩阵分区、二维位置编码在文本跨度依赖中的数学映射。

  • 混合专家架构与算力瓶颈突破:理解稠密模型的全参数激活算力瓶颈、稀疏混合专家的门控路由与条件计算、专家容量限制与负载均衡损失函数、细粒度专家管理与共享专家架构演进。

  • 注意力机制优化与计算加速:掌握键值缓存(KV Cache)与自回归推理显存管理、多查询注意力(MQA)与分组查询注意力(GQA)的工程折中、多头潜在注意力(MLA)的低秩联合压缩架构、FlashAttention与PagedAttention等算子级调度工程。

  • 长上下文序列建模:理解标准自注意力的二次方复杂度瓶颈、旋转位置编码的外推衰减与位置插值代数映射、滑动窗口注意力与局部带状稀疏拓扑、局部敏感哈希对序列交互计算的优化。

  • 稀疏混合专家模型架构:深入动态门控路由网络、专家流量分配与负载均衡惩罚约束、代币丢弃截断机制、细粒度专家切割与常驻共享专家架构演进。

  • 线性架构与新型长序列模型:掌握状态空间模型的离散化与卷积并行训练、时间混合与通道混合模块设计、WKV核心机制与线性时间复杂度、隐藏状态信息瓶颈与测试时训练(TTT)架构、Mamba选择机制与硬件感知算法。

  • 状态空间模型架构前沿:理解控制论与动力系统在序列建模中的代数映射、连续时间表示与离散时间域转换、正交多项式处理历史记忆、基于输入内容特征动态过滤的选择机制、硬件感知算子融合与线性时间复杂度在无限长序列处理中的价值。

  • 多模态大语言模型架构:掌握图像二维块切分与一维词元序列化映射、双编码器架构与对比学习约束逻辑、冻结双端主干与轻量级桥接层设计、查询注意力在视觉信息抽取中的应用、高维视觉特征至离散语言提示的降维转换。

讲师背景

苏嘉昊博士,500强企业算法专家,中国科学院大学博士。拥有超过14年的人工智能技术研发与团队管理经验,带领团队打造多款现象级AI产品,累计用户突破3亿,并被央视和人民日报多次报道。在人工智能顶级国际会议如WWW、AAAI、IJCAI上发表论文30余篇,兼具扎实的理论研究能力与丰富的工程落地经验。长期为字节、阿里、百度、腾讯、美团、滴滴、京东、360、中国联通、国家电网、青岛啤酒等知名企业及政府单位提供AI培训与战略咨询。擅长将复杂的AI技术体系拆解为通俗、清晰、可执行的学习内容,课程兼顾前沿趋势、业务理解与落地实操。

通过本课程,你将收获:

  1. 建立三大主流架构的宏观认知——区分纯编码器、编解码器、纯解码器的拓扑差异、注意力掩码设计与适用场景,理解为什么GPT路线成为绝对主导;

  2. 深入理解Transformer核心机制——掌握缩放点积注意力、多头注意力的数学原理、前馈层的键值记忆本质、非线性激活与残差连接的协同作用;

  3. 掌握现代大模型的底层技术模块——熟练运用旋转位置编码、RMSNorm、SwiGLU等前沿组件,理解它们如何提升模型训练稳定性与长文本建模能力;

  4. 理解混合专家架构与稀疏计算的工程价值——掌握门控路由、负载均衡、专家容量限制等核心机制,理解MoE如何打破算力墙与内存墙;

  5. 掌握注意力优化与长序列建模的关键技术——理解KV Cache、GQA、MLA、FlashAttention等加速方案,掌握位置插值、滑动窗口、稀疏拓扑等长文本处理方法;

  6. 建立线性架构与状态空间模型的认知——理解Mamba、TTT等新型架构如何以线性复杂度处理无限长序列,以及它们与Transformer的本质差异;

  7. 理解多模态大模型的架构设计哲学——掌握冻结双端主干与轻量桥接层的工程范式,理解视觉信号如何接入离散文本系统。

适合人群
  • 日常需要进行模型选型、微调优化或推理部署,需要深入理解不同架构(纯编码器/编解码器/纯解码器)的底层差异、注意力机制的计算原理及混合专家架构的工程价值,本课程提供从数学原理到工程实现的完整知识体系。
  • 需要为大模型应用做技术选型决策,理解不同模型架构在推理速度、显存占用、长文本处理能力、多模态支持等维度上的优劣,以便做出基于架构理解的判断而非盲目跟风。
  • 计划在企业内部部署开源大模型,需要理解模型架构对推理成本、部署环境、硬件配置的影响,以便合理规划算力资源与评估方案可行性。
  • 已了解大模型基础概念和应用方法,希望进一步深入“模型内部到底怎么工作”——注意力矩阵如何计算、位置编码如何注入、稀疏路由如何分配算力,建立从宏观拓扑到微观算子的完整认知。
讲师介绍
500强企业算法专家、中国科学院大学博士
擅长领域:
  • DeepSeek
  • AIGC办公提效
  • 大语言模型
  • AIGC行业应用
  • 数字化战略
苏嘉昊,中国科学院大学博士,高级职称资深研究员,中国计算机学会高级会员。现任世界500强企业高级算法专家,兼任清华、北大、国科大等高校讲座导师。 深耕人工智能领域14年,长期专注于大语言模型、深度学习、推荐系统等核心方向,兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地,累计创造经济效益超10亿元。 长期为世界500强及政府机构提供AI培训与技术咨询,授课理论实战结合、深入浅出,广受学员认可,能够帮助学员快速建立系统认知并提升实战能力。
课程大纲
共0节 时长0分钟 全部收起
第1课 主流模型架构的分类与演进
10分钟
第2课 Transformer 核心机制解构
10分钟
第3课 现代大模型底层组件配置
10分钟
第4课 编码器与编解码架构剖析
11分钟
第5课 混合专家架构与算力瓶颈突破
10分钟
第6课 注意力机制优化与计算加速
10分钟
第7课 长上下文序列建模架构
10分钟
第8课 稀疏混合专家模型架构
9分钟
第9课 线性架构与新型长序列模型
9分钟
第10课 状态空间模型架构前沿
9分钟
第11课 多模态大语言模型架构
9分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。