从零吃透大模型强化学习:AI 如何学会自己做决策
¥119

从零吃透大模型强化学习:AI 如何学会自己做决策

系统学习强化学习算法,深入理解经典 RL 演进、大模型偏好对齐与智能体决策训练

¥119
本课程包括
  • 1小时46分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 全面掌握强化学习核心理论,理清各类经典算法的演进逻辑与底层原理。
  • 理解大模型偏好对齐、优化机制,弄懂模型贴合人类需求的实现思路。
  • 吃透智能体决策、探索策略与模仿学习相关知识,建立完整的技术认知体系。
浏览相关主题
课程介绍

你是否曾思考:

想弄懂AI自主决策的底层逻辑,却分不清传统学习与强化学习的核心差异?

面对各类强化学习算法、模型对齐技术,无法理清演进脉络,难以理解运行原理?

想要掌握智能体训练、偏好优化等相关知识,缺少体系化的学习路径,知识零散不成体系?

如果这些问题让你感到紧迫,这门课正是为你设计!AI自主决策依托完整的强化学习体系支撑,从基础理论到大模型应用层层递进。掌握它,彻底读懂机器决策逻辑,构建系统化的强化学习知识框架。

本课程由浅入深,完整梳理强化学习全体系内容:

先解析强化学习与决策的本质,讲解马尔可夫决策过程,夯实基础理论认知;

依次拆解Q学习、深度Q网络、策略梯度、近端策略优化等经典算法,梳理技术迭代脉络;

深入讲解大模型人类偏好对齐、直接偏好优化,拓展智能体强化学习、进阶优化策略、模仿学习等高阶内容。

讲师背景:大模型与强化学习实战导师

深耕强化学习算法研究与大模型技术解读,擅长拆解复杂理论,顺着技术发展脉络讲解核心原理,内容贴合学习与研究需求,帮助学员吃透底层逻辑。

通过本课程,学员将:

系统掌握强化学习基础理论与经典算法,理清技术演进脉络,吃透各类算法核心机制;

理解大模型偏好对齐、优化方案的设计思路,明晰模型贴合人类需求的实现原理;

掌握智能体训练、探索策略与模仿学习相关内容,搭建完整的大模型强化学习知识体系。

读懂强化学习,才算真正看懂AI如何自主思考与决策。你,准备好探索AI决策背后的底层奥秘了吗?

适合人群
  • AI 算法工程师
  • 软件开发人员
  • 大模型与强化学习爱好者
讲师介绍
500强企业算法专家、中国科学院大学博士
擅长领域:
  • DeepSeek
  • AIGC办公提效
  • 大语言模型
  • AIGC行业应用
  • 人工智能认知与应用
  • 自然语言处理(NLP)
  • 数据挖掘与分析
  • 数字化战略
  • 深度学习
  • 机器学习
苏嘉昊,中国科学院大学博士,高级职称资深研究员,中国计算机学会高级会员。现任世界500强企业高级算法专家,兼任清华、北大、国科大等高校讲座导师。 深耕人工智能领域14年,长期专注于大语言模型、深度学习、推荐系统等核心方向,兼具前沿技术研究能力与复杂业务场景落地经验。曾主导多项重大AI产品与项目从0到1、从技术验证到业务落地,累计创造经济效益超10亿元。 长期为世界500强及政府机构提供AI培训与技术咨询,授课理论实战结合、深入浅出,广受学员认可,能够帮助学员快速建立系统认知并提升实战能力。
课程大纲
共0节 时长0分钟 全部收起
第 1 课 强化学习与决策的本质
10分钟
第 2 课 马尔可夫决策过程与价值直觉
10分钟
第 3 课 从 Q 学习到深度 Q 网络
10分钟
第 4 课 策略梯度与演员评论员架构
10分钟
第 5 课 近端策略优化算法剖析
10分钟
第 6 课 大模型的人类偏好对齐
10分钟
第 7 课 绕过奖励模型的直接偏好优化
9分钟
第 8 课 智能体强化学习与群体相对策略
9分钟
第 9 课 深度 Q 网络与进阶优化
11分钟
第 10 课 应对稀疏奖励的探索策略
10分钟
第 11 课 模仿学习与专家示范
9分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。