强化学习——原理与实例精讲
知识小课

强化学习——原理与实例精讲

  • 深度学习

掌握强化学习领域必备经典算法

¥99.9
本课程包括
  • 2小时16分钟的视频随时观看
  • 可在APP随时观看
  • 结业证书
你将收获
  • 掌握强化学习经典算法原理及其应用领域
  • 熟练使用PyTorch框架构建强化学习算法
  • 熟悉强化学习建模环境并进行实战应用
  • 熟悉强化学习算法中的数学思想,掌握数学原理推导

数千家企业正在使用三节课企业版学习

无限制学习5000+门课程,200+精选学习专题

免费申请体验>
课程介绍

强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态——行为的对应关系。因此,反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。

本套强化学习课程主要包括经典算法原理讲解与案例实战两大部分。通俗讲解当下主流强化学习算法思想,结合实例解读算法整理应用流程并结合案例展开代码实战。整体风格通俗易懂,适合准备入门强化学习并进阶提升的同学们。

适合人群
  • 对人工智能,强化学习方向感兴趣的同学
  • 企业内中高级机器学习工程师,AI工程师等
  • 想要深入研究深度学习算法的科研人员及在校生等
讲师介绍
同济大学硕士,华东理工大学博士
擅长领域:
  • 人工智能认知与应用
  • 自然语言处理(NLP)
  • 机器学习
著有《跟着迪哥学Python数据分析与机器学习实战》,联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师,开展线下与直播培训百余场,具有丰富的授课经验。
课程大纲
共0节 时长0分钟 全部收起
一、强化学习简介及其应用
共3节 | 29分钟
  • 1.强化学习简介
    12分钟
  • 2.应用领域与工作流程
    11分钟
  • 3.计算机眼中的状态与行为
    6分钟
二、PPO算法与公式推导
共7节 | 57分钟
  • 1.PPO算法简介
    9分钟
  • 2.任务概述
    6分钟
  • 3.目标分析公式推导
    16分钟
  • 4.baseline方法
    5分钟
  • 5.On Policy与Off Policy策略
    6分钟
  • 6.Importance Sampling的作用
    7分钟
  • 7.PPO算法整体思路解析
    8分钟
三、PPO实战:月球登陆器训练实例
共6节 | 49分钟
  • 1.Critic的作用与效果
    9分钟
  • 2.PPO2版本公式解读
    10分钟
  • 3.参数与网络结构定义
    7分钟
  • 4.得到动作结果
    6分钟
  • 5.奖励获得与计算
    7分钟
  • 6.参数迭代与更新
    10分钟
购课须知

课程有效期:

自购买课程之日起 365 天,部分参与营销活动产品以活动规则为准,请同学在有效期内学习、观看课程。

上课模式:

课程采取录播模式,请注意自学课无班级微信群、班主任带班及助教批改服务。

注:自学课不支持退款,确保你是真的需要再进行报名,报完名之后还请认真学习。