刘老师

发布于

2024-11-12 09:20:47

刘老师

修改于

2024-11-12 15:58:00

无人车强化学习

4m/s 260/h

面对复杂问题，造成决策困难

不需要给定数据，不要打标签

人们设计奖励规则

但是智能体的选择，不一定符合人的目标，设计规则的时候考虑目标的冲突

15 FPS

编程不难，主要是规则的定义

答案：C

Agent如何选择？先随机选择，然后根据获取的奖励，形成自己的最优奖励策略
Agent在每个动作中切换时，有一段变化的时间，这期间奖励函数也在生效，不用担心动作的连续性

注意： 奖励函数与动作空间的组合, 要匹配，不要存在不能达到的奖励！

如何要调整动作空间，慢慢改，0.1 0.2这样改，不能太大

下面两种情况值得克隆

克隆原则