你是否曾思考过:
大模型能流畅对话,却总在关键时刻编造事实、拒绝不该拒绝的问题、或者输出不安全内容,问题出在哪里?为什么有些模型“看起来聪明但不好用”,而另一些却能稳稳当当地执行复杂任务?对齐技术听起来高大上,但PPO、DPO、GRPO这些缩写到底有什么区别,实战中该怎么选?如果这些问题让你感到困惑,这门课正是为你设计的!真正成熟的工业级大模型,不仅要能力更强,还要更稳、更真、更有边界。对齐,就是给大模型立规矩。
本课程围绕“对齐基础→数据构建→奖励模型→经典PPO→轻量DPO→推理优化→生产部署→评测安全”八章展开:
初识对齐:理解为什么仅靠预训练和指令微调不够,掌握3H原则(有用、诚实、无害),建立对齐的底层认知。
数据地基:学习偏好数据的核心结构(Chosen vs Rejected),掌握同题多答、两两比较、Elo评分等构建策略,了解HH-RLHF与PKU-SafeRLHF等主流数据集。
裁判诞生:深入奖励模型的训练机制,理解双对比排序损失、过拟合防范与模仿学习正则项,明确奖励模型在对齐流程中的中枢位置。
经典巅峰PPO:拆解策略模型、奖励模型、评论模型、参考模型“四大金刚”的协作机制,理解优势估计、GAE、KL惩罚与奖励黑客等核心概念,正视PPO的重资源与难调参特性。
平民利器DPO:学习如何跳过独立的奖励模型与强化学习环节,将复杂的三步走压缩为一步到位的直接偏好优化,大幅降低显存与算力门槛。
推理觉醒GRPO:面向DeepSeek-R1等推理模型,理解基于规则的可验证奖励如何替代人类偏好打分,通过组内相对优势计算抛弃庞大估值模型,见证“Aha moment”自我纠错能力的涌现。
生产环境部署:掌握大规模RL训练框架的选择逻辑,理解控制流与计算流解耦、3D混合并行、分布式调度,以及参数高效对齐在资源受限下的落地路径。
终极评测与安全:学习RLAIF(AI反馈强化学习)、自我评价与宪法式修正、红队测试与对抗性提示、盲测竞技场等评测与安全防御机制,建立“发现→修补→验证”的完整安全闭环。
讲师背景
李晓华博士,大模型全栈开发系列课程讲师。课程系统梳理了从对齐基础到生产部署的完整技术链路,涵盖PPO、DPO、GRPO三大主流算法,帮助学员建立从理论到实战的系统认知。
通过本课程,学员将:
建立对齐技术的完整认知框架——理解为什么要给大模型立规矩,掌握3H原则(有用、诚实、无害)作为评估对齐效果的基准线;
掌握偏好数据的构建与标注策略——能够理解Chosen/Rejected数据结构,运用两两比较和Elo评分将主观偏好转化为可训练信号;
理解奖励模型的训练机制与局限——学会双对比排序损失的原理,识别过拟合与奖励黑客风险,明白奖励模型作为“自动裁判”的核心价值;
区分PPO与DPO的适用场景——算力充足追求极致上限选PPO,资源受限追求稳定落地选DPO,建立清晰的算法选型判断力;
掌握GRPO等推理对齐的新思路——理解基于规则的可验证奖励如何适用于数学、代码等客观任务,见证模型自我纠错与“顿悟”能力的涌现;
具备大规模RL训练的生产部署视野——理解框架选型、分布式切分、参数高效对齐等工程要点,为后续实战落地打下基础;
建立对齐评测与安全防御的系统思维——掌握红队测试、对抗性提示、盲测竞技场等方法,形成“发现漏洞→修补加固→验证效果”的安全闭环。
课程有效期:
自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。
上课模式:
课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。
注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。