在哪些场景下可以使用自动驾驶功能的汽车?,

自动驾驶是如何分级的?目前发展到什么阶段了?一次给你讲清楚!

文|时梦嫣

编辑|时梦嫣

前言

自动驾驶车辆已成为许多研究的主题,因为它们具有改变交通,减少交通事故和缓解拥堵的潜力,以及协助士兵完成各种任务,包括消防和监视任务。

为了使ADV高效运行并充分发挥其潜力,它们必须了解其环境,识别静态和动态障碍物,生成朝向目标位置的可行轨迹,执行所需的驾驶行为。

由于驾驶场景的高度复杂性,实现完全自动驾驶,特别是可行的运动规划和决策仍然具有挑战性。

自动驾驶车辆存在哪些安全隐患?未来将会实现汽车全自动化吗?

自动驾驶车辆的性能分类

按照中使用的分类法,现有的运动规划和控制方法可分为介导感知、端到端和中间,模块化范式 将复杂的 ADV 任务分解为几个更易于处理的子模块。

例如感知、规划和控制模块,其中每个模块按顺序求解,并作为下一个模块的输入,复杂ADV系统的这种分解能够以,更少的努力独立解决每个问题,由于每个任务的重复特征提取。

这种任务分解可能会,增加额外的计算负担,此类系统会导致错误累积,和从上游模块传播,,尽管深度学习有助于,推进ADV的感知模块,但更关键的运动规划和控制任务,仍然依赖于经典的基于规则的算法。

这些算法在满足动态环境中的,所有驾驶场景方面既耗时又低效,最近端到端深度学习方法集成了感知、规划和控制任务,并显示出令人印象深刻的结果。

这些方法使用神经网络,直接将原始传感器数据作为,输入映射到控制命令或未来轨迹,由于分布偏移问题,端到端ADV方法对未观察到的,驾驶环境的泛化性较差。

仅限于驾驶环境或训练任务,由于端到端学习模型的黑盒性质,以这种方法做出的,驱动决策缺乏可解释性,为了提高这些方法的鲁棒性,许多研究人员提出了更先进的深度学习模型。

直接可以利用多模态和多视图信息,天真地添加非常复杂的输入,并将其直接映射到驱动决策中可能会,导致采样和训练复杂性增加。

它增加了ADV决策单元的内存需求,并可能导致更差的泛化性能,特别是在存在多个可能导致,分布偏移的传感器的情况下,为了进一步提高端到端,驾驶模型的效率、泛化和可解释性。

许多研究人员还提出了中间表示学习和多任务学习方法,与上述显式手动任务分解或盲直接映射方法不同,中间从原始感知输入到中间表示的映射。

使用此表示做出更通用的驾驶决策,这些方法需要预定义的表示,这可能导致鲁棒性有限,并可能引入虚假输入,与上述所有方法不同,MTL方法通常具有学习共享,表示的共享主干网络。

该网络允许模型同时学习,与运动规划和控制相关的多个任务,最近注意力机制通过学习,显著表示同时过滤掉不相关的输入,在进一步提高端到端ADV的,效率和可解释性方面取得了巨大成功。

尽管基于深度学习的方法,使ADV能够很好地执行和泛化方面取得了成功,但这些方法仍然存在一些缺点。

只有通过不断的学习才可以增强,生成的轨迹或驱动动作的泛化能力,但是目前尚未得到充分探索,各种端到端学习方法,忽视了时空表示的联合学习,专注于单任务学习,限制了ADV在变化环境下的鲁棒性

关于中间和MTL运动的规划方法是相当重要的,如果想用详细环境图来驱动决策的话,这些方法的创建和转移,到新的驾驶场景的成本很高。

大多数作品只在复杂度有限的,简单环境中评估其ADV模型,而不考虑不同的天气照明条件和动态障碍物,提出了一种基于模仿学习的ADV端,到端运动规划和控制网络。

所提出的采用前视图和俯视图图像序列,直接映射原始相机图像或使用详细的。环境图后处理相比,这些表示对域偏移更可靠、更易于解释,使用学习到的共享不变表示来,预测可行的未来运动计划和控制命令。

为了证明其优越性,还将其他基线和现有最先进的方法进行了比较,这些方法具有动态障碍物和天气、照明条件的大规模驾驶数据集,特别是在端到端学习、多任务学习、注意力机制和不变特征学习方法的一些要素。

端到端方法直接将感知,输入映射到驾驶决策中,学者提出了使用直接输出,驾驶控制命令的单个神经网络。

一个端到端的避障系统,该系统使用六层卷积神经网络,直接从低分辨率图像中学习避障,根据这些工作开发了一种名为DAVE-2的驾驶模型。

该模型使用九层CNN拍摄,前视摄像头图像并预测转向命令,并在相对简单的现实场景中实现自主车道跟随,例如平坦或无障碍道路,在这项工作之后,已经探索了端到端控制模型。

但是这些方法没有考虑对,自动驾驶至关重要的时间信息,为了解决这个问题,许多作品将时间信息作为,其驱动决策模型的输入。

例如使用精心设计的循环层,共同利用空间和时间线索来,预测车轮角度或其他转向控制操作。

学者提出了扩张的全卷积网络,和长短期记忆来预测给定轨迹历史,和图像帧的未来移动路径,在与类似的架构中,还提出了一个端到端的运动网络。

但使用VGG来提取更丰富的视觉特征,而不是像那样扩张的采用了,带有多个LSTM模块的预训练VGG主干,从视觉和运动历史输入中,提取空间特征和时间依赖性,以生成性能良好的路径计划。

除了在端到端控制方面的成功外,CNN和RNN架构在端到端规划方面,也显示出有希望的结果,学者还设计了几个路径规划网络,这些网络使用各种输入类型,包括灰度图像和自我运动。

他们展示了在许多情况下,生成平滑可行的路径计划的能力,尽管他们只考虑了简单场景中的车道跟随任务。

该架构使用图像序列和三个离散命令值,来计算自动驾驶汽车的未来轨迹,该值使用不同的子网,在接下来的工作中,他们提出了一种类似的网络架构,该架构采用图像序列、轨迹历史和三个离散命令,并估计不确定性和轨迹规划。

端到端学习的方法,都采用一个特定的输入和输出模块,这使得它在动态环境中的,自动驾驶效率低下且不可扩展,这些系统对看不见的环境的泛化很差,缺乏可解释性。

多任务学习方法

多任务学习范式不是为,每个任务设置单独的网络,而是通过共享参数和计算,来同时学习多个自动驾驶任务,同时实现最先进的性能,这是一种用于车辆控制的,多模态多任务学习网络。

该网络可以预测转向角和车速,而不是为每个任务设置两个不同的网络,他们的编码器网络包括五个卷积层、LSTM 和 FCN 层,用于处理单个前置摄像头图像,以及当前车辆和过去的车辆运动输入。

通过FC层来预测未来的车速,还使用高级导航命令作为辅助输入表示,同时训练他们的CNN,在接下来的工作中,修改了他们的网络架构。

并使用残差网络作为感知模块,除了先前的加速度和转向角输出之外,还提取了更丰富的表示和预测速度。

在这两种情况下,使用辅助高级命令输入都允许,驾驶行为变化的模糊性,并使网络更加灵活和适应看不见的情况,因为它拥有共同学习运动控制,和图像分割辅助任务。

并采用多模态输入、相机图像序列和轨迹历史,与其他作品不同的是,使用了时空信息和大规模的众包视频数据,使系统对看不见的场景更加鲁棒。

上述工作一般侧重于主辅任务联合训练,提升最终控制指挥的训练性能和鲁棒性,但是这些方法没有经过训练,无法用于具有挑战性的顺序决策任务,例如运动规划。

这些方法仍然缺乏可解释性,因为它们遵循直接映射技术,并且可能会遇到过度拟合问题,这在软参数共享中最常见,最近的研究采用了以鸟瞰图为中心的,级联多任务学习方法。

该方法共同学习几种可解释的中间表示,例如对象检测和预测结果,或BEV空间中的以自我为中心的语义图,用它来执行运动规划,这些方法通常需要昂贵的传感器。

这些传感器处理起来很耗时,并且与透视视空间有很大的差距,与这些方法相比,使用易于访问的前视图和俯视图相机图像,来学习视图不变的时空表示,从中我们可以预测更多可解释的运动规划器和控制器,同时保持鲁棒性和效率。

基于注意力的方法

由于注意力机制具有提高深度学习模型中模型效率、鲁棒性和可解释性的潜力,在学习字幕生成、分类等各种任务方面有很大的促进作用。

对于ADV,设计了几种注意力机制来指出,有助于纠正驾驶行为预测,和分类的重要因素,并展示了更简单的视觉注意力图,对于学习和保持控制准确性的重要性,用于从路线平面机、残差块和速度输入中提取观察注意力。

他们应用相同的注意力模块来有效的,学习子驱动策略的原始动作和提供,这些策略用作输入以增强最终控制命令输出,在将注意力机制应用于自动驾驶上。

时间注意力机制也已应用于自动驾驶,并对应用时间注意力,机制进行车辆轨迹预测,引入了一个基于自我注意的LSTM模块,用于轨迹规划。

应用单独的空间和时间注意力机制,来捕获驾驶员的速度和转向决策信息,以进行车速和角度预测,这种方法需要不同的模块来学习通道、空间和时间维度的中间表示。

并且已经提出了注意力机制,该机制可以很容易的,应用于现有的CNN,并同时学习不同维度的注意力特征图,而无需额外的模块。

例如将注意力块网络引入,自动驾驶模型以获得注意力地图,这不仅可以提高控制性能,还可以直观地分析它,随后生成用于多任务学习的任务特定通道,和空间注意力加权潜在特征图。

尽管这些方法处理学习注意力特征,这些特征主要应用于分类和分割任务,但它们没有考虑到同时获得,时空注意力以解决顺序决策问题。

在这项工作之后,我们将SE模块引入到,我们的3DCNN特征提取器中,但我们没有使用单个主干,而是使用主干来同时学习在,驾驶视图中不变的中间时空特征。

利用学习到的中间表示来协同优化和,训练LSTM轨迹规划和CNN-FC控制器模块,为了进一步增强时空信息,并使其适用于顺序决策,在LSTM模块中引入了注意力机制,以产生可行的未来轨迹计划。

不变表示学习

使用深度学习来训练自动驾驶系统,已经取得了许多成功,由于固有的领域转移问题,跨领域和任务泛化的,学习表示仍然具有挑战性,为了解决域偏移问题,大多数方法使用数据增强,以及各种数据收集方法。

通过添加相应的移位来增强,驾驶中心道路视图训练数据,即来自车载摄像头的,右道路视图摄像头图像,这提高了驱动模型的泛化能力,并解决了域偏移问题。

再去通过训练语义分割,和图像的驱动策略,将合成扰动添加到专家轨迹中,以提高网络对域转移的鲁棒性,即使使用数据增强,数据分布偏移问题仍然具有挑战性。

其他方法是领域知识转移和特权信息,它们提供了直观的表示,可以应用于领域适应,迁移学习或多任务学习场景,例如车道和车辆之间的距离,或路灯的状态。

并将其用作领域知识,来提高驾驶性能,学习这样的表示可以增加,模型的鲁棒性、可解释性和效率,但是它们在动态环境中的规模有限,所以它们是属于预定义的,可能会引入虚假输入。

学者便提出了一种方法,该方法利用特权和副任务训练范式,该方法共享相同的标签,但输入方式不同,来自源任务的输入模态是特权的,这使模型能够学习相关的,场景表示功能。

从而提高运动预测性能,数据驱动的多源域适应最接近我们的,最近流行的域适应方法具有,最大平均差异损失,它将不同的数据视图,投影到共享的子空间中,以最小化其差异。

在这些工作的激励下,我们将多视图度量学习整合,到我们专注的3DCNN网络决策时空表示中,这些时空表示在前方和顶部道路视图中保持不变。

结论

我们提出了一种用于自动驾驶汽车的,视不变时空注意力运动规划和控制网络,由不变表示学习和驱动决策模块组成,表示学习模块使用 3DCNN。

它负责学习从原始图像序列,直接到视图不变时空表示的映射,驱动决策模块负责分别 学习,并从学习的表示到未来轨迹,和控制输出的映射,通过在具有动态障碍物和天气和照明条。

大规模驾驶数据集上进行的广泛实验,来证明所提出的的有效性,评估结果以及与最先进方法的比较证实,通过学习不变表示能够在,自动驾驶汽车中实现更通用的,运动规划和控制。

尽管在运动规划和高级控制方面,显示出有希望的结果,但它仍然存在一些局限性,即使使用学习的不变表示学习,所提出的方法的鲁棒性,和可扩展性也是有限的。

因为它需要在每个场景中,进行专家演示来训练网络,需要更多的研究来提高,系统的可扩展性, 为了在复杂的道路场景中自动驾驶,ADV 需要的不仅仅是离散的高级命令,需要更多的研究来,整合低级车辆控制任务。

学者们还致力于在未来的工作中,整合来自互补传感器的多模态数据,同时保持效率,这将提高系统在,具有挑战性的环境中的鲁棒性。

如果你也喜欢我的文章,不妨点个“关注”吧!小生在此谢过了!

END

2023-11-22

2023-11-22