如何在停车游戏模拟驾驶中快速提高驾驶技巧?,

自动驾驶车辆使用深度强化学习进行避障规划

文|无邪

编辑|无邪

本文提出基于深度强化学习的紧急避障规划,兼顾安全和舒适性。

通过分析紧急制动和变道过程,定义危险指数和航路点模型。

利用DRL方法和多重奖励函数进行避障计划,使用LSTM层解决不完整观测问题。

在CARLA模拟环境中进行训练和评估,结果显示安全性和效率优于传统DRL方法。实施该策略可自动执行最佳避障操作,提高行车安全性。

而RRT方法可以通过对采样点进行碰撞检查而避免了建模空间,并有效地解决了高维空间和复杂路径规划问题。

综上所述,经典的传统路径规划方法很难应用于实际交通环境。

定义改进方法将随着环境的复杂性而增加计算难度。另一种方法是基于强化学习规划。

强化学习(RL)是一种机器学习类型,通过学习策略来解决与环境交互的代理,以最大化回报或实现特定目标。

一些研究人员已经将强化学习应用于路径规划,开展了相关的研究项目并取得了进展。

强化学习

作为一种机器学习方法,强化学习通过学习策略来最大化回报或实现特定目标,解决了代理人在与环境交互中的控制问题。

19强化学习的常见模型是标准的马尔可夫决策过程(MDP),它定义了一个元组(S,A,R,p)来描述控制问题。其中,S和A分别表示状态空间和控制空间,R表示奖励函数,p表示状态转移。

将状态集映射到行动集的映射可以表示为:π:S→A。代理人在环境中的动作和状态可以表示为at∈A和st∈S,分别表示时间t时代理人的动作和状态。

代理人执行动作并转换到下一个状态st+1∈S的概率为p(st,at),奖励为rt。由于在无限时间序列中直接增加奖励会导致状态的偏差和无限循环,引入折扣因子γ使当前奖励比未来奖励更加重要。

在当前状态 s 下,代理执行操作并按照策略 π 定期执行,获得状态函数 vπ(s) 和状态-动作函数 Qπ(s, a),可定义为:

其中π代表控制策略,最优策略最大化未来回报。解决过程大致可以分为两个步骤:预测和动作。

前者根据策略评估相应的vπ(s)和Qπ(s,a),后者根据值函数获得对当前状态的最优动作。因此,状态-动作函数被重新写成递归形式来更新算法:

最优策略可以从状态行动价值函数中得出。

作为一种迭代过程,强化学习需要每次解决两个问题:给定策略评估函数和根据价值函数更新策略。

传统的强化学习通过求解贝尔曼方程来找到最优策略,即迭代使 Qπ(s,a) 收敛以获取最优策略。然而,在实际解决过程中,使用贝尔曼方程来解决较大状态空间中的 Q 函数是昂贵的。

深度 Q 网络
为了解决迭代过程的成本,可以使用神经网络来逼近状态-动作价值函数。首先,Q 学习的更新函数可以表示为:

学习率α变化在 <0,1> 范围内,用于衡量环境当前和之前的学习经验。 s' 和 a' 表示立即后续过程中的状态和动作数量。深度 Q 网络结合神经网络和 Q 学习,被提出来在高维状态空间中近似动作值函数。

与 Q-Learning 相比,DQN 引入了神经网络和目标 Q 网络,并在训练过程中使用经验回放。在训练过程中,随机梯度下降 (SGD) 算法更新网络参数,DQN 的损失函数定义如下:

状态动作函数的优化意图可以定义为:

其中θ是神经网络参数,策略梯度方法是一种非模型化方法,优化策略的未来总回报,并对策略空间中的最优策略进行端到端的搜索。

而每次选择使价值函数最大化的动作。然而,未在采样中出现的状态和动作值以后不会被采取,因为它们没有被评估。结合了探索和利用的优点。

规则以概率ε从所有动作中随机选择,以概率1-ε选择最佳动作。

系统模型

本节提出了一个环境模型,用于管理车辆的纵向和横向移动,包含基于制动行为的车辆跟踪模型和基于航点的换道模型。

此外,跟踪模型基于一个模糊-PID控制器,在稳定和舒适的约束条件下分别管理车辆的纵向和横向移动行为。

环境建立

智能车辆是智能交通系统的重要组成部分,其中规划任务是必要的一个环节。

车辆需要融合多传感器信息,根据驾驶需求满足某些约束条件,避免碰撞,实现换道、保道、加速或减速等常见驾驶行为。

本文讨论自动驾驶车辆的路径规划问题,所讨论的场景如图所示。

智能避障系统应包括必要的制动和相应的转向,本节建立了相应的模型。

橙色的车是自主车辆,初始化为随机速度,更喜欢在当前车道上移动。定义了两种悬挂条件:自主车辆与周围参与者发生碰撞,或者达到时间限制。

行为选项

在本文的强化学习中,规划者通过车辆指定行动,包括纵向跟随驾驶和横向换道操作,PID控制器确保轨迹的稳定性和可行性。

在以前的研究中,个体车辆特性的IDM模型是一种受欢迎的微观模型,用于跟踪车辆并避免碰撞。28代理的加速度可以表示为:

其中amax代表最大加速度,v和vdes代表自主车辆的速度和期望速度,t表示当前时间,Δv是相对速度,δ表示加速度指数,Δd(t)是时刻t的相对间距,而ddes则代表期望距离。在这种情况下,期望距离受前方车辆的影响。

其中,d0为最小安全距离,τ表示安全时间间隔,bmax是考虑舒适度的最大减速度。如图2所示,紧急制动是一种重要的方法,不能通过转向避免碰撞;两辆车同时制动来计算最小安全距离:

在这里,下标e和ob分别代表自车和前方障碍物,v和a则分别代表自车和障碍物的对应速度和减速度,aeb和aob则分别代表车辆的对应制动减速度,ta是制动作用时间。

IDM模型的参数具有明确的物理意义,并可视化地显示驾驶行为的变化,描述自由流和拥堵流条件下的车辆跟随行为。

当两辆车之间的相对速度较小时,微小的头车间距变化不会导致明显的减速。为了确保自车在某些特定情况下继续跟随前车或停止等待新的转向动作,建立了分级危险指数Lh来规划车辆的纵向运动。

在这段文本中,d表示两辆车之间的实际距离,Lh=-1表示相对距离太近存在危险,Lh=0表示相对安全状态,而Lh=1则表示车辆可以以期望的速度行驶。

此时,本车必须根据前方障碍物控制车速,在满足变道条件的情况下通过转向避免碰撞。在极度危险的情况下,本车减速到等待状态。跟踪控制器根据速度设置来规划候选路径。

车辆的换道行为需要满足一定的距离条件,也就是说,在换道之前必须留出一定的初始距离,以防换道车辆与相邻车道的物体发生碰撞。

本文使用路径点来执行换道操作。此外,稳定系数K被分为欠转向、中性转向和过度转向,这是影响转向稳定性的重要因素。

在此,r代表偏航角速度,u代表质心速度,l代表轴距。要规划可执行的路径,需要将前轮转角δ限制在某个范围内。根据图3中的关系,可以得到起始航点的位置xini。

其中 w 是车道宽度,δmax 是保证乘客舒适且车辆稳定的最大前轮转角。

在自动驾驶汽车换道并进入相邻车道后,将重新开始一次新的纵向检查。终点航点是根据最小安全距离确定的。

换言之,一旦该策略确定了初始航点,就会在目标车道的某个距离处生成一个终止航点xter。

运动控制

PID控制器是一种优化的控制算法,它结合了比例、积分和微分,并广泛应用于车辆跟踪控制任务中。

模糊控制是一种基于模糊集合理论、语言变量和模糊逻辑推理的计算机数字控制技术。

模糊PID控制是基于PID方法,将误差e和误差变化速率ec作为输入,使用模糊规则进行推理和参数调整,以满足不同时间PID参数的自调整。

为了实现PID控制初始参数kp0、ki0、kd0的自适应调整,需要确定输入变量e和ec在<-6, 6>范围内的变化。

在模糊PID控制中,输出变量是调整参数Δkp、Δki、Δkd,分别在范围<-2, 2>、<-0.6, 0.6>和<-0.03, 0.03>内变化。相应的模糊规则和推理过程在31中有详细说明,然后控制器参数被表示为:

因此,在控制层面上,自动驾驶车辆的纵向和横向运动受到限制,前者通过比例控制器调节车速,可以表示为:

其中kp,ki,kd是经过模糊控制后的增益系数,通过加速或减速使车速逐渐接近期望值。

比例-微分控制器实现了车辆在横向方向上的位置和航向控制,可以根据位置偏差来表示横向速度:

在这里,kp,lat是位置增益系数,Δylat是相对于车道中心线的横向位置偏移量。航向角和偏航角速率之间的关系为:

其中,kd,φ是航向增益系数,φdes是期望的航向角。

简而言之,车辆的运动可以通过图1中的控制框架实现。

相应的车辆通过车载传感器或无线通信传输接收周围车辆的位置、速度和加速度。下一节将建立DRL方法,通过迭代学习实现自主避障。

使用DRL的障碍物避让算法

本节将障碍物避让问题转化为DRL过程,以确定紧急情况下的最佳制动和变道策略。在交通场景中,变道和紧急制动是障碍物避让时的可选动作。

基于DRL的方法适用于通过与环境的交互学习控制策略。自主车辆、前方障碍车辆和周围环境参与者如图1所示。状态空间的设置可以表述为:

其中Pe和Pos分别为E车辆和其他车辆的位置信息,反映了当前车道或相邻车道的行驶情况;vos包括障碍车vob和其他参与者的速度;d是E车辆与障碍物OB和周围车辆SV之间的距离;Lh是第三节介绍的评分危险指数,描述了纵向行为的风险程度。

在紧急避障问题中,可以根据纵向不同的评分指标来规划车速。

如推导所述,整体策略是在车辆安全时以期望速度行驶,并在理想间隔内跟随前方车辆。此外,在选择换道的时间时,必须谨慎;否则,应该刹车停车等待一个新的安全选择。

当 ao 表示代理行动时,下标 cf 表示跟车行驶,下标 wait 表示自动车辆未能符合转向条件,执行制动并停止等待新选择,而下标 cl 表示变道行驶。在时间步长之后,代理的后续位置和速度可以进行更新。

其中,x代表纵向方向,y代表横向方向,vlong代表纵向速度,vlat代表横向速度。在强化学习中,智能体的目标是通过环境传递给智能体的特殊定义函数表示,而奖励函数影响收敛精度和训练速度。为了保证避障系统的效用和准确性,需要一个合适的奖励函数。

本文提出了基于纵向安全距离的分级危险指数Lh。为了方便自主驾驶车辆跟随安全的汽车跟随模型,可以设计纵向惩罚函数:

其中,本场景中的基本惩罚系数为 r1,碰撞判断系数为 k,在发生碰撞时该值为1,否则为0。如果障碍物避让系统发生碰撞,则记录为故障,并设置惩罚值 σ0=100。

上述分析讨论了车道变换的过程。当自动驾驶汽车进行转向操作时,当前车道和相邻车道都会受到影响。根据以往的研究,我们引入了一个初始安全距离公式,用于表达图 4 中进行转向操作的条件。

当Si表示初始间距时,下标SV表示相邻车道中的其他车辆;标识符E表示自主代理车辆,L表示其纵向位移,与SV之间的差异为:

其中,t0 表示制动前的反应时间,v 表示纵向速度,t 是当前时间(t≤TTC)。为了防止智能车随意横向移动,障碍物避免系统的设计应该首先考虑纵向制动行为。

在训练过程中,如果智能车能够保持当前车道,将给予一定的奖励,定义为σ keep。

在特殊情况下,当自车与相邻车道的车辆之间的距离小于安全值时,智能车应根据计划的纵向行为控制速度,此时不能转向,此时会给予特殊的奖励。

对于横向行为,如果智能车的转向行为未能满足安全间距的限制,则会被惩罚。

惩罚程度与实际距离和初始最小间距有关,其中r2是换道的基本惩罚系数,σ2是碰撞的惩罚值。

另一方面,如果条件允许,代理人可以通过变道和基于航点的侧向动作规划来避免碰撞。在行驶过程中,乘客舒适度和车辆稳定性也是重要参数,纵向和横向控制行为的加速度受到限制。

其中 "along" 表示横向加速度。行动者的实际加速度以及上述限制条件可以形成一个乘客舒适度惩罚函数。

其中k3和k4为权重参数,ae是本车的加速度。另外,这篇论文考虑了每个回合中的代理和周围车辆,给予基本的时间步奖励σ4。

最终目标是在不发生碰撞的情况下到达最终位置,这将被认为是成功,可以获得奖励σ5。网络结构方面,循环神经网络(RNN)主要用于处理序列数据。

它以序列数据作为输入,沿着序列的演化方向递归,并且所有节点在一个链式网络中连接。

RNN的优点是可以充分利用历史数据进行预测,适用于前后状态之间有明显相关性的数据场景。

在自主驾驶车辆避障系统的设计中,每个动作对下一时刻的状态产生影响,然后影响下一个动作。

然而,传统的RNN容易出现梯度消失,导致优化方法的丧失和无法将模型优化到最佳结果。LSTM是一种特殊的RNN,主要用于解决长序列训练中梯度消失和梯度爆炸的问题。

与标准的RNN方法相比,LSTM在处理长序列方面表现更好。

因此,基于历史信息的状态和动作可以实现更精确的预测。通常,xt-1、xt、xt+1表示每个步骤的输入,ht-1、ht、ht+1表示历史输入的结果。LSTM的第一步是决定从细胞状态中遗忘哪些信息。

其中,ft 是遗忘门向量,σ 是 sigmoid 函数,Wf 和 bf 表示权重矩阵。输入门向量 it 决定是否向单元中添加新信息。

其中,Wi、Wc、bi和bc分别表示权重矩阵,Ct表示通过双曲正切函数的非线性转换。然后,遗忘门向量和输入门向量一起更新记忆。

输出门向量可以定义为:

所提出的基于 LSTM 的 DQN 算法的架构如图 5 所示。本文使用三个历史时间步作为 LSTM 层的输入,建立网络结构 (Ht= {st, st-1, st-2})。

为了从回放内存中采样经验,我们使用 MiniBatch 方法进行训练,从而打破相关性。

首先,基于设定的规则对代理的 200 个 episode 进行训练,并将得到的结果存储在回放部分中。随机抽取可避免后续环境与代理之间的交互训练过程中的相关问题。

在后续环境与代理之间的交互中,动作选择是基于贪心策略的。在获得动作后,代理根据计算选择具有最大奖励的航点,并受到定义的模糊 PID 控制。

仿真和结论

CARLA是一款开放式的驾驶模拟器,可用于开发自主控制模型。在本节中,我们进行了仿真来验证所建立算法的有效性和准确性。

此仿真使用TensorFlow框架运行强化学习算法。本文选择了CARLA附带的经典双车道城市场景作为仿真环境,以LSTM-DQN为基础的训练算法进行综合效率和通用性的研究。

首先,仿真场景和参数设置如表1所示。

场景设置

首先,本论文将自主驾驶车辆定义为 DRL 方法中的自主车辆或智能代理。

自主车辆需要考虑移动和停止的物体。在本场景中,我们将 OB 视为静态状态,周围的车辆 SV 则在相邻车道上行驶。

所提出的强化学习算法规划自主车辆的跟车或变道行驶轨迹。换句话说,自主车辆需要尽可能避免与障碍物发生碰撞,以避免影响相邻车道上的正常行驶车辆

此外,论文考虑到随机性因素,采用了以下两种方法来保证环境更加动态:模拟代理车辆的初始速度在<0m/s,10m/s>范围内随机生成,障碍物车辆的位置也是随机的。

周围的车辆出现在相邻车道上,其速度从<5m/s,15m/s>中选择。根据第三部分中的模型,代理车辆的纵向和横向行为是随机设置的,可以描述为:

a.紧急制动(通过计算安全距离和车速,由于前方障碍物,代理车辆可以执行跟车行驶或停车等待转向条件)
b.主动转向(在相邻车道上存在变道的可能性,计算航点)。代理车辆通过转向来避免碰撞。

论文在DRL仿真设置中使用了固定数量的历史步骤Ht作为输入向量,并在LSTM层中使用tanh激活函数。

最大回放缓冲区的大小默认为10,000。DRL的折扣率和探索率分别为0.8和0.001。

对于奖励函数中的权重参数k3,在条件为真时设置为1,在条件为假时设置为0。我们使用TensorFlow在GeForce RTX 3070上执行实验环境。

本文提出了一种基于深度强化学习的路径规划方法,用于解决自主驾驶车辆在紧急情况下的障碍物避免问题。障碍物避免规划是降低交通事故和个人伤害的重要研究问题。

本文基于深度强化学习-DQN方法实现了这一目标。

不同之处在于,本文建立了纵向制动距离模型和侧向车道变道航点模型,基于舒适性和安全因素,设计了一个分层危害指数来指示驾驶安全,并将其引入到DQN的奖励函数中。

经过充分的训练,实现了安全距离范围内的障碍物避免规划。

此外,在DQN网络中使用了LSTM结构,采用固定步长的历史信息作为输入,提高了模型的预测能力,并将其应用于动态环境中。

最后,通过仿真和训练,所提出的障碍物避免规划在纵向和侧向行为方面选择适当的动作,生成安全轨迹,车辆响应参数在约束范围内,满足舒适性和稳定性要求。

参考文献

1.一种多标准决策方法研究自动驾驶汽车采用的障碍。《交通运输研究A部分:政策与实践》2020;133:122–137。

2.与行人互动的自动驾驶车辆:理论与实践综述。IEEE智能运输系统杂志,2020年,21:900-918。

3.一种基于深度强化学习的车辆紧急自动制动决策策略。IEEE交通技术期刊,2020年,第69卷,5876-5888页。

2023-12-01

2023-12-01