无人车强化学习

4m/s 260/h







面对复杂问题,造成决策困难

不需要给定数据,不要打标签






人们设计奖励规则


但是智能体的选择,不一定符合人的目标,设计规则的时候考虑目标的冲突




15 FPS







编程不难,主要是规则的定义

答案:C




Agent如何选择? 先随机选择,然后根据获取的奖励,形成自己的最优奖励策略
Agent在每个动作中切换时,有一段变化的时间,这期间奖励函数也在生效,不用担心动作的连续性

注意: 奖励函数与动作空间的组合, 要匹配,不要存在不能达到的奖励!














如何要调整动作空间,慢慢改,0.1 0.2这样改,不能太大


下面两种情况值得克隆

克隆原则