课程信息

80,468 次近期查看
可分享的证书
完成后获得证书
100% 在线
立即开始,按照自己的计划学习。
第 3 门课程(共 4 门)
可灵活调整截止日期
根据您的日程表重置截止日期。
中级

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成时间大约为21 小时
英语(English)

您将获得的技能

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
可分享的证书
完成后获得证书
100% 在线
立即开始,按照自己的计划学习。
第 3 门课程(共 4 门)
可灵活调整截止日期
根据您的日程表重置截止日期。
中级

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成时间大约为21 小时
英语(English)

提供方

Placeholder

阿尔伯塔大学

Placeholder

Alberta Machine Intelligence Institute

教学大纲 - 您将从这门课程中学到什么

内容评分Thumbs Up92%(1,910 个评分)Info
1

1

完成时间为 1 小时

Welcome to the Course!

完成时间为 1 小时
2 个视频 (总计 12 分钟), 2 个阅读材料
2 个视频
Meet your instructors!8分钟
2 个阅读材料
Read Me: Pre-requisites and Learning Objectives10分钟
Reinforcement Learning Textbook10分钟
完成时间为 5 小时

On-policy Prediction with Approximation

完成时间为 5 小时
13 个视频 (总计 69 分钟), 2 个阅读材料, 2 个测验
13 个视频
Generalization and Discrimination5分钟
Framing Value Estimation as Supervised Learning3分钟
The Value Error Objective4分钟
Introducing Gradient Descent7分钟
Gradient Monte for Policy Evaluation5分钟
State Aggregation with Monte Carlo7分钟
Semi-Gradient TD for Policy Evaluation3分钟
Comparing TD and Monte Carlo with State Aggregation4分钟
Doina Precup: Building Knowledge for AI Agents with Reinforcement Learning7分钟
The Linear TD Update3分钟
The True Objective for TD5分钟
Week 1 Summary4分钟
2 个阅读材料
Module 1 Learning Objectives10分钟
Weekly Reading: On-policy Prediction with Approximation40分钟
1 个练习
On-policy Prediction with Approximation30分钟
2

2

完成时间为 5 小时

Constructing Features for Prediction

完成时间为 5 小时
11 个视频 (总计 52 分钟), 2 个阅读材料, 2 个测验
11 个视频
Generalization Properties of Coarse Coding5分钟
Tile Coding3分钟
Using Tile Coding in TD4分钟
What is a Neural Network?3分钟
Non-linear Approximation with Neural Networks4分钟
Deep Neural Networks3分钟
Gradient Descent for Training Neural Networks8分钟
Optimization Strategies for NNs4分钟
David Silver on Deep Learning + RL = AI?9分钟
Week 2 Review2分钟
2 个阅读材料
Module 2 Learning Objectives10分钟
Weekly Reading: On-policy Prediction with Approximation II40分钟
1 个练习
Constructing Features for Prediction28分钟
3

3

完成时间为 5 小时

Control with Approximation

完成时间为 5 小时
7 个视频 (总计 41 分钟), 2 个阅读材料, 2 个测验
7 个视频
Episodic Sarsa in Mountain Car5分钟
Expected Sarsa with Function Approximation2分钟
Exploration under Function Approximation3分钟
Average Reward: A New Way of Formulating Control Problems10分钟
Satinder Singh on Intrinsic Rewards12分钟
Week 3 Review2分钟
2 个阅读材料
Module 3 Learning Objectives10分钟
Weekly Reading: On-policy Control with Approximation40分钟
1 个练习
Control with Approximation40分钟
4

4

完成时间为 6 小时

Policy Gradient

完成时间为 6 小时
11 个视频 (总计 55 分钟), 2 个阅读材料, 2 个测验
11 个视频
Advantages of Policy Parameterization5分钟
The Objective for Learning Policies5分钟
The Policy Gradient Theorem5分钟
Estimating the Policy Gradient4分钟
Actor-Critic Algorithm5分钟
Actor-Critic with Softmax Policies3分钟
Demonstration with Actor-Critic6分钟
Gaussian Policies for Continuous Actions7分钟
Week 4 Summary3分钟
Congratulations! Course 4 Preview2分钟
2 个阅读材料
Module 4 Learning Objectives10分钟
Weekly Reading: Policy Gradient Methods40分钟
1 个练习
Policy Gradient Methods45分钟

审阅

来自PREDICTION AND CONTROL WITH FUNCTION APPROXIMATION的热门评论

查看所有评论

关于 强化学习 专项课程

强化学习

常见问题

还有其他问题吗?请访问 学生帮助中心