课程信息

58,479 次近期查看

学生职业成果

33%

完成这些课程后已开始新的职业生涯

56%

通过此课程获得实实在在的工作福利

33%

加薪或升职
可分享的证书
完成后获得证书
100% 在线
立即开始,按照自己的计划学习。
第 4 门课程(共 7 门)
可灵活调整截止日期
根据您的日程表重置截止日期。
高级
完成时间大约为26 小时
英语(English)

学生职业成果

33%

完成这些课程后已开始新的职业生涯

56%

通过此课程获得实实在在的工作福利

33%

加薪或升职
可分享的证书
完成后获得证书
100% 在线
立即开始,按照自己的计划学习。
第 4 门课程(共 7 门)
可灵活调整截止日期
根据您的日程表重置截止日期。
高级
完成时间大约为26 小时
英语(English)

提供方

Placeholder

国立高等经济大学

教学大纲 - 您将从这门课程中学到什么

内容评分Thumbs Up81%(2,248 个评分)Info
1

1

完成时间为 5 小时

Intro: why should I care?

完成时间为 5 小时
14 个视频 (总计 85 分钟), 5 个阅读材料, 3 个测验
14 个视频
Why should you care9分钟
Reinforcement learning vs all3分钟
Multi-armed bandit4分钟
Decision process & applications6分钟
Markov Decision Process5分钟
Crossentropy method9分钟
Approximate crossentropy method5分钟
More on approximate crossentropy method6分钟
Evolution strategies: core idea6分钟
Evolution strategies: math problems5分钟
Evolution strategies: log-derivative trick8分钟
Evolution strategies: duct tape6分钟
Blackbox optimization: drawbacks4分钟
5 个阅读材料
About the University10分钟
FAQ10分钟
Primers1小时
About honors track1分钟
Extras10分钟
2

2

完成时间为 3 小时

At the heart of RL: Dynamic Programming

完成时间为 3 小时
5 个视频 (总计 54 分钟), 3 个阅读材料, 4 个测验
5 个视频
State and Action Value Functions13分钟
Measuring Policy Optimality6分钟
Policy: evaluation & improvement10分钟
Policy and value iteration8分钟
3 个阅读材料
Optional: Reward discounting from a mathematical perspective10分钟
External links: Reward Design10分钟
Discrete Stochastic Dynamic Programming10分钟
3 个练习
Reward design8分钟
Optimality in RL30分钟
Policy Iteration30分钟
3

3

完成时间为 3 小时

Model-free methods

完成时间为 3 小时
6 个视频 (总计 47 分钟), 1 个阅读材料, 4 个测验
6 个视频
Monte-Carlo & Temporal Difference; Q-learning8分钟
Exploration vs Exploitation8分钟
Footnote: Monte-Carlo vs Temporal Difference2分钟
Accounting for exploration. Expected Value SARSA11分钟
On-policy vs off-policy; Experience replay7分钟
1 个阅读材料
Extras10分钟
1 个练习
Model-free reinforcement learning30分钟
4

4

完成时间为 3 小时

Approximate Value Based Methods

完成时间为 3 小时
9 个视频 (总计 104 分钟), 3 个阅读材料, 5 个测验
9 个视频
Loss functions in value based RL11分钟
Difficulties with Approximate Methods15分钟
DQN – bird's eye view9分钟
DQN – the internals9分钟
DQN: statistical issues6分钟
Double Q-learning6分钟
More DQN tricks10分钟
Partial observability17分钟
3 个阅读材料
TD vs MC10分钟
Extras10分钟
DQN follow-ups10分钟
3 个练习
MC & TD10分钟
SARSA and Q-learning10分钟
DQN30分钟

审阅

来自PRACTICAL REINFORCEMENT LEARNING的热门评论

查看所有评论

关于 高级机器学习 专项课程

高级机器学习

常见问题

还有其他问题吗?请访问 学生帮助中心