专家讲师成为讲师企业版全球版

从零吃透大模型强化学习：AI 如何学会自己做决策

¥119

立即购买

从零吃透大模型强化学习：AI 如何学会自己做决策

系统学习强化学习算法，深入理解经典 RL 演进、大模型偏好对齐与智能体决策训练

￥119

立即购买

加入收藏

本课程包括

1小时46分钟的视频随时观看
可在APP随时观看
结业证书

你将收获

全面掌握强化学习核心理论，理清各类经典算法的演进逻辑与底层原理。
理解大模型偏好对齐、优化机制，弄懂模型贴合人类需求的实现思路。
吃透智能体决策、探索策略与模仿学习相关知识，建立完整的技术认知体系。

浏览相关主题

课程介绍

你是否曾思考：

想弄懂AI自主决策的底层逻辑，却分不清传统学习与强化学习的核心差异？

面对各类强化学习算法、模型对齐技术，无法理清演进脉络，难以理解运行原理？

想要掌握智能体训练、偏好优化等相关知识，缺少体系化的学习路径，知识零散不成体系？

如果这些问题让你感到紧迫，这门课正是为你设计！AI自主决策依托完整的强化学习体系支撑，从基础理论到大模型应用层层递进。掌握它，彻底读懂机器决策逻辑，构建系统化的强化学习知识框架。

本课程由浅入深，完整梳理强化学习全体系内容：

先解析强化学习与决策的本质，讲解马尔可夫决策过程，夯实基础理论认知；

依次拆解Q学习、深度Q网络、策略梯度、近端策略优化等经典算法，梳理技术迭代脉络；

深入讲解大模型人类偏好对齐、直接偏好优化，拓展智能体强化学习、进阶优化策略、模仿学习等高阶内容。

讲师背景：大模型与强化学习实战导师

深耕强化学习算法研究与大模型技术解读，擅长拆解复杂理论，顺着技术发展脉络讲解核心原理，内容贴合学习与研究需求，帮助学员吃透底层逻辑。

通过本课程，学员将：

系统掌握强化学习基础理论与经典算法，理清技术演进脉络，吃透各类算法核心机制；

理解大模型偏好对齐、优化方案的设计思路，明晰模型贴合人类需求的实现原理；

掌握智能体训练、探索策略与模仿学习相关内容，搭建完整的大模型强化学习知识体系。

读懂强化学习，才算真正看懂AI如何自主思考与决策。你，准备好探索AI决策背后的底层奥秘了吗？

适合人群

AI 算法工程师
软件开发人员
大模型与强化学习爱好者

讲师介绍

苏嘉昊AI博士查看讲师主页

500强企业算法专家、中国科学院大学博士

擅长领域:

DeepSeek
AIGC办公提效
大语言模型
AIGC行业应用
数字化战略

苏嘉昊，中国科学院大学博士，高级职称资深研究员，中国计算机学会高级会员。现任世界500强企业高级算法专家，兼任清华、北大、国科大等高校讲座导师。深耕人工智能领域14年，长期专注于大语言模型、深度学习、推荐系统等核心方向，兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地，累计创造经济效益超10亿元。长期为世界500强及政府机构提供AI培训与技术咨询，授课理论实战结合、深入浅出，广受学员认可，能够帮助学员快速建立系统认知并提升实战能力。

课程大纲

共0节时长0分钟全部收起

第 1 课强化学习与决策的本质

10分钟

第 2 课马尔可夫决策过程与价值直觉

10分钟

第 3 课从 Q 学习到深度 Q 网络

10分钟

第 4 课策略梯度与演员评论员架构

10分钟

第 5 课近端策略优化算法剖析

10分钟

第 6 课大模型的人类偏好对齐

10分钟

第 7 课绕过奖励模型的直接偏好优化

9分钟

第 8 课智能体强化学习与群体相对策略

9分钟

第 9 课深度 Q 网络与进阶优化

11分钟

第 10 课应对稀疏奖励的探索策略

10分钟

第 11 课模仿学习与专家示范

9分钟

购课须知

课程有效期：

自购买课程之日起 365 天，部分参与营销活动产品以活动规则为准，请同学在有效期内学习、观看课程。

上课模式：

课程采取录播模式，请注意自学课无班级微信群、班主任带班及助教批改服务。

注：自学课不支持退款，确保你是真的需要再进行报名，报完名之后还请认真学习。

点击下载
三节课App 微信扫码
关注三节课公众号