大模型能流畅对话，却总在关键时刻编造事实、拒绝不该拒绝的问题、或者输出不安全内容，问题出在哪里？为什么有些模型“看起来聪明但不好用”，而另一些却能稳稳当当地执行复杂任务？对齐技术听起来高大上，但PPO、DPO、GRPO这些缩写到底有什么区别，实战中该怎么选？如果这些问题让你感到困惑，这门课正是为你设计的！真正成熟的工业级大模型，不仅要能力更强，还要更稳、更真、更有边界。对齐，就是给大模型立规矩。

本课程围绕“对齐基础→数据构建→奖励模型→经典PPO→轻量DPO→推理优化→生产部署→评测安全”八章展开：

初识对齐：理解为什么仅靠预训练和指令微调不够，掌握3H原则（有用、诚实、无害），建立对齐的底层认知。
数据地基：学习偏好数据的核心结构（Chosen vs Rejected），掌握同题多答、两两比较、Elo评分等构建策略，了解HH-RLHF与PKU-SafeRLHF等主流数据集。
裁判诞生：深入奖励模型的训练机制，理解双对比排序损失、过拟合防范与模仿学习正则项，明确奖励模型在对齐流程中的中枢位置。
经典巅峰PPO：拆解策略模型、奖励模型、评论模型、参考模型“四大金刚”的协作机制，理解优势估计、GAE、KL惩罚与奖励黑客等核心概念，正视PPO的重资源与难调参特性。
平民利器DPO：学习如何跳过独立的奖励模型与强化学习环节，将复杂的三步走压缩为一步到位的直接偏好优化，大幅降低显存与算力门槛。
推理觉醒GRPO：面向DeepSeek-R1等推理模型，理解基于规则的可验证奖励如何替代人类偏好打分，通过组内相对优势计算抛弃庞大估值模型，见证“Aha moment”自我纠错能力的涌现。
生产环境部署：掌握大规模RL训练框架的选择逻辑，理解控制流与计算流解耦、3D混合并行、分布式调度，以及参数高效对齐在资源受限下的落地路径。
终极评测与安全：学习RLAIF（AI反馈强化学习）、自我评价与宪法式修正、红队测试与对抗性提示、盲测竞技场等评测与安全防御机制，建立“发现→修补→验证”的完整安全闭环。

讲师背景

李晓华博士，大模型全栈开发系列课程讲师。课程系统梳理了从对齐基础到生产部署的完整技术链路，涵盖PPO、DPO、GRPO三大主流算法，帮助学员建立从理论到实战的系统认知。

通过本课程，学员将：

建立对齐技术的完整认知框架——理解为什么要给大模型立规矩，掌握3H原则（有用、诚实、无害）作为评估对齐效果的基准线；
掌握偏好数据的构建与标注策略——能够理解Chosen/Rejected数据结构，运用两两比较和Elo评分将主观偏好转化为可训练信号；
理解奖励模型的训练机制与局限——学会双对比排序损失的原理，识别过拟合与奖励黑客风险，明白奖励模型作为“自动裁判”的核心价值；
区分PPO与DPO的适用场景——算力充足追求极致上限选PPO，资源受限追求稳定落地选DPO，建立清晰的算法选型判断力；
掌握GRPO等推理对齐的新思路——理解基于规则的可验证奖励如何适用于数学、代码等客观任务，见证模型自我纠错与“顿悟”能力的涌现；
具备大规模RL训练的生产部署视野——理解框架选型、分布式切分、参数高效对齐等工程要点，为后续实战落地打下基础；
建立对齐评测与安全防御的系统思维——掌握红队测试、对抗性提示、盲测竞技场等方法，形成“发现漏洞→修补加固→验证效果”的安全闭环。

适合人群

大模型算法工程师 / 研究人员：已经掌握预训练和指令微调，但发现模型在真实业务中“答得不稳、容易编造、看着聪明但不好用”，需要系统学习对齐技术来校准模型行为。
AI应用开发工程师：在落地RAG、Agent、智能客服等应用时，遇到模型输出不可控、边界不清晰、安全风险高等问题，希望通过对齐技术提升模型的可靠性与安全性。
技术团队负责人 / 算法经理：需要评估不同对齐方案（PPO vs DPO vs GRPO）的投入产出比，为团队选择合适的技术路线，同时理解生产环境部署的资源门槛与工程挑战。
大模型爱好者 / 自学者：已了解Transformer、GPT等基础架构，希望进一步深入RLHF、奖励模型、强化学习对齐等进阶话题，建立从理论到实践的系统认知。

讲师介绍

苏嘉昊AI博士查看讲师主页

500强企业算法专家、中国科学院大学博士

擅长领域:

DeepSeek
AIGC办公提效
大语言模型
AIGC行业应用
人工智能认知与应用
自然语言处理(NLP)
数据挖掘与分析
数字化战略
深度学习
机器学习

苏嘉昊，中国科学院大学博士，高级职称资深研究员，中国计算机学会高级会员。现任世界500强企业高级算法专家，兼任清华、北大、国科大等高校讲座导师。深耕人工智能领域14年，长期专注于大语言模型、深度学习、推荐系统等核心方向，兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地，累计创造经济效益超10亿元。长期为世界500强及政府机构提供AI培训与技术咨询，授课理论实战结合、深入浅出，广受学员认可，能够帮助学员快速建立系统认知并提升实战能力。

课程大纲

共0节时长0分钟全部收起

第一课：初识对齐：为什么要给大模型立“规矩”？

11分钟

第二课：数据地基：人类偏好数据的收集与构建

9分钟

第三课：裁判诞生：奖励模型（Reward Model）的训练

11分钟

第四课：经典巅峰：基于 PPO 的 RLHF 算法实战

13分钟

第五课：平民利器：DPO（直接偏好优化）实战

10分钟

第六课：推理觉醒：DeepSeek-R1 与 GRPO 算法揭秘

10分钟

第七课：生产环境：大规模 RL 训练框架与部署

11分钟

第八课：终极考验：对齐评测、AI 反馈与安全防御

11分钟

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号