High-speed Autonomous Drifting with Deep Reinforcement Learning
这篇论文是实验室学长们的一篇合作论文,完成的任务是用强化学习教会车子在Carla中漂移,成果是成功让车子在Carla达到近100km/h的过弯速度。本文有一个官方主页,以下为其在bilibili上发布的视频
强化学习定义
地图与目标轨迹
地图是根据某知名卡丁车游戏的地图改编的,使用RoadRunner画出来并加载到Carla中。参考轨迹由某司机在场景中模拟驾驶形成,要求是尽可能开得快并且使用漂移形成尖锐的转角。
状态变量与行动空间
状态变量包含:当前舵角,当前油门,正向、法向、总速度,侧偏角,朝向角。 朝向角的Ground truth由Vector Field Guidance(VFG)计算,这里建议参考原文。
状态空间为:
其中包含十个未来的{}目标。
行动空间为为归一化到[-1,1]的舵角.Carla中throttle为[0, 1],但是为了使得车子开得快,加快训练,这里有效的throttle范围为[0.6, 1].
输出值经一阶数字滤波得到实际输入到Carla的控制值。
Reward函数
SAC 算法
还有一些更为具体的Trick在论文中提到,建议参考开源代码。