pdf code

High-speed Autonomous Drifting with Deep Reinforcement Learning

这篇论文是实验室学长们的一篇合作论文,完成的任务是用强化学习教会车子在Carla中漂移,成果是成功让车子在Carla达到近100km/h的过弯速度。本文有一个官方主页,以下为其在bilibili上发布的视频

强化学习定义

地图与目标轨迹

地图是根据某知名卡丁车游戏的地图改编的,使用RoadRunner画出来并加载到Carla中。参考轨迹由某司机在场景中模拟驾驶形成,要求是尽可能开得快并且使用漂移形成尖锐的转角。

状态变量与行动空间

状态变量包含:当前舵角,当前油门,正向、法向、总速度,侧偏角,朝向角。 朝向角的Ground truth由Vector Field Guidance(VFG)计算,这里建议参考原文。

状态空间为:

其中包含十个未来的{}目标。

行动空间为为归一化到[-1,1]的舵角.Carla中throttle为[0, 1],但是为了使得车子开得快,加快训练,这里有效的throttle范围为[0.6, 1].

输出值经一阶数字滤波得到实际输入到Carla的控制值。

Reward函数

SAC 算法

image

还有一些更为具体的Trick在论文中提到,建议参考开源代码。

实验效果建议查询其官方主页,与官方视频