你是否曾思考过:
GPT、BERT、T5这些模型到底在架构上有什么区别,为什么有的擅长理解、有的擅长生成?标准Transformer在处理长文本时为什么越来越慢,混合专家、线性架构、状态空间模型是如何突破算力瓶颈的?大模型如何处理图像、声音等多模态信息,视觉信号是如何接入纯文本系统的?如果这些问题让你感到好奇,这门课正是为你设计的!纯编码器、编解码器、纯解码器三大拓扑路线的分化,本质上不是算法优劣,而是底层硬件并行规律与理论设计之间的必然妥协。深入理解这些架构差异,是算法工程师进行模型微调与推理优化的核心前提。
本课程围绕“三大主流架构对比→Transformer核心机制→现代底层技术模块→编码器与编解码架构→混合专家架构→注意力优化与计算加速→长上下文序列建模→稀疏混合专家→线性架构与状态空间模型→多模态大模型”十大模块展开:
三大主流架构宏观拓扑对比:区分纯编码器(双向注意力,适合自然语言理解)、编解码器(交叉注意力,适合序列到序列的条件生成)、纯解码器(下三角掩码与自回归生成,当前大模型绝对主导)三大路线,理解自回归生成策略、少样本泛化涌现能力及计算复杂度工程优势。
Transformer核心机制解构:深入缩放点积注意力的数学计算全过程、多头注意力的几何与拓扑意义、全连接前馈层的键值记忆网络本质、非线性特征映射与残差连接在深层网络中的协同机制。
现代大模型底层技术模块:掌握旋转位置编码(RoPE)与复平面几何旋转、ALiBi注意力偏置惩罚机制、层归一化与RMSNorm的数学原理对比、从ReLU到GeLU的概率累积转化、SwiGLU门控线性单元的特征筛选机制。
编码器与编解码架构剖析:深入纯编码器的掩码语言模型预训练范式、编解码器联合架构的交叉注意力信息交互代数推演、GLM架构的自回归空白填充与混合注意力掩码矩阵分区、二维位置编码在文本跨度依赖中的数学映射。
混合专家架构与算力瓶颈突破:理解稠密模型的全参数激活算力瓶颈、稀疏混合专家的门控路由与条件计算、专家容量限制与负载均衡损失函数、细粒度专家管理与共享专家架构演进。
注意力机制优化与计算加速:掌握键值缓存(KV Cache)与自回归推理显存管理、多查询注意力(MQA)与分组查询注意力(GQA)的工程折中、多头潜在注意力(MLA)的低秩联合压缩架构、FlashAttention与PagedAttention等算子级调度工程。
长上下文序列建模:理解标准自注意力的二次方复杂度瓶颈、旋转位置编码的外推衰减与位置插值代数映射、滑动窗口注意力与局部带状稀疏拓扑、局部敏感哈希对序列交互计算的优化。
稀疏混合专家模型架构:深入动态门控路由网络、专家流量分配与负载均衡惩罚约束、代币丢弃截断机制、细粒度专家切割与常驻共享专家架构演进。
线性架构与新型长序列模型:掌握状态空间模型的离散化与卷积并行训练、时间混合与通道混合模块设计、WKV核心机制与线性时间复杂度、隐藏状态信息瓶颈与测试时训练(TTT)架构、Mamba选择机制与硬件感知算法。
状态空间模型架构前沿:理解控制论与动力系统在序列建模中的代数映射、连续时间表示与离散时间域转换、正交多项式处理历史记忆、基于输入内容特征动态过滤的选择机制、硬件感知算子融合与线性时间复杂度在无限长序列处理中的价值。
多模态大语言模型架构:掌握图像二维块切分与一维词元序列化映射、双编码器架构与对比学习约束逻辑、冻结双端主干与轻量级桥接层设计、查询注意力在视觉信息抽取中的应用、高维视觉特征至离散语言提示的降维转换。
讲师背景
苏嘉昊博士,500强企业算法专家,中国科学院大学博士。拥有超过14年的人工智能技术研发与团队管理经验,带领团队打造多款现象级AI产品,累计用户突破3亿,并被央视和人民日报多次报道。在人工智能顶级国际会议如WWW、AAAI、IJCAI上发表论文30余篇,兼具扎实的理论研究能力与丰富的工程落地经验。长期为字节、阿里、百度、腾讯、美团、滴滴、京东、360、中国联通、国家电网、青岛啤酒等知名企业及政府单位提供AI培训与战略咨询。擅长将复杂的AI技术体系拆解为通俗、清晰、可执行的学习内容,课程兼顾前沿趋势、业务理解与落地实操。
通过本课程,你将收获:
建立三大主流架构的宏观认知——区分纯编码器、编解码器、纯解码器的拓扑差异、注意力掩码设计与适用场景,理解为什么GPT路线成为绝对主导;
深入理解Transformer核心机制——掌握缩放点积注意力、多头注意力的数学原理、前馈层的键值记忆本质、非线性激活与残差连接的协同作用;
掌握现代大模型的底层技术模块——熟练运用旋转位置编码、RMSNorm、SwiGLU等前沿组件,理解它们如何提升模型训练稳定性与长文本建模能力;
理解混合专家架构与稀疏计算的工程价值——掌握门控路由、负载均衡、专家容量限制等核心机制,理解MoE如何打破算力墙与内存墙;
掌握注意力优化与长序列建模的关键技术——理解KV Cache、GQA、MLA、FlashAttention等加速方案,掌握位置插值、滑动窗口、稀疏拓扑等长文本处理方法;
建立线性架构与状态空间模型的认知——理解Mamba、TTT等新型架构如何以线性复杂度处理无限长序列,以及它们与Transformer的本质差异;
理解多模态大模型的架构设计哲学——掌握冻结双端主干与轻量桥接层的工程范式,理解视觉信号如何接入离散文本系统。
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。