无人车强化学习
4m/s 260/h
面对复杂问题,造成决策困难
不需要给定数据,不要打标签
人们设计奖励规则
但是智能体的选择,不一定符合人的目标,设计规则的时候考虑目标的冲突
15 FPS
编程不难,主要是规则的定义
答案:C
Agent如何选择? 先随机选择,然后根据获取的奖励,形成自己的最优奖励策略
Agent在每个动作中切换时,有一段变化的时间,这期间奖励函数也在生效,不用担心动作的连续性
注意:
奖励函数与动作空间的组合, 要匹配,不要存在不能达到的奖励!
如何要调整动作空间,慢慢改,0.1 0.2这样改,不能太大
下面两种情况值得克隆
克隆原则