自动驾驶是如何分级的？目前发展到什么阶段了？一次给你讲清楚！

文|时梦嫣

编辑|时梦嫣

前言

自动驾驶车辆已成为许多研究的主题，因为它们具有改变交通，减少交通事故和缓解拥堵的潜力，以及协助士兵完成各种任务，包括消防和监视任务。

为了使ADV高效运行并充分发挥其潜力，它们必须了解其环境，识别静态和动态障碍物，生成朝向目标位置的可行轨迹，执行所需的驾驶行为。

由于驾驶场景的高度复杂性，实现完全自动驾驶，特别是可行的运动规划和决策仍然具有挑战性。

自动驾驶车辆存在哪些安全隐患？未来将会实现汽车全自动化吗？

自动驾驶车辆的性能分类

按照中使用的分类法，现有的运动规划和控制方法可分为介导感知、端到端和中间，模块化范式将复杂的 ADV 任务分解为几个更易于处理的子模块。

例如感知、规划和控制模块，其中每个模块按顺序求解，并作为下一个模块的输入，复杂ADV系统的这种分解能够以，更少的努力独立解决每个问题，由于每个任务的重复特征提取。

这种任务分解可能会，增加额外的计算负担，此类系统会导致错误累积，和从上游模块传播，，尽管深度学习有助于，推进ADV的感知模块，但更关键的运动规划和控制任务，仍然依赖于经典的基于规则的算法。

这些算法在满足动态环境中的，所有驾驶场景方面既耗时又低效，最近端到端深度学习方法集成了感知、规划和控制任务，并显示出令人印象深刻的结果。

这些方法使用神经网络，直接将原始传感器数据作为，输入映射到控制命令或未来轨迹，由于分布偏移问题，端到端ADV方法对未观察到的，驾驶环境的泛化性较差。

仅限于驾驶环境或训练任务，由于端到端学习模型的黑盒性质，以这种方法做出的，驱动决策缺乏可解释性，为了提高这些方法的鲁棒性，许多研究人员提出了更先进的深度学习模型。

直接可以利用多模态和多视图信息，天真地添加非常复杂的输入，并将其直接映射到驱动决策中可能会，导致采样和训练复杂性增加。

它增加了ADV决策单元的内存需求，并可能导致更差的泛化性能，特别是在存在多个可能导致，分布偏移的传感器的情况下，为了进一步提高端到端，驾驶模型的效率、泛化和可解释性。

许多研究人员还提出了中间表示学习和多任务学习方法，与上述显式手动任务分解或盲直接映射方法不同，中间从原始感知输入到中间表示的映射。

使用此表示做出更通用的驾驶决策，这些方法需要预定义的表示，这可能导致鲁棒性有限，并可能引入虚假输入，与上述所有方法不同，MTL方法通常具有学习共享，表示的共享主干网络。

该网络允许模型同时学习，与运动规划和控制相关的多个任务，最近注意力机制通过学习，显著表示同时过滤掉不相关的输入，在进一步提高端到端ADV的，效率和可解释性方面取得了巨大成功。

尽管基于深度学习的方法，使ADV能够很好地执行和泛化方面取得了成功，但这些方法仍然存在一些缺点。

只有通过不断的学习才可以增强，生成的轨迹或驱动动作的泛化能力，但是目前尚未得到充分探索，各种端到端学习方法，忽视了时空表示的联合学习，专注于单任务学习，限制了ADV在变化环境下的鲁棒性。

关于中间和MTL运动的规划方法是相当重要的，如果想用详细环境图来驱动决策的话，这些方法的创建和转移，到新的驾驶场景的成本很高。

大多数作品只在复杂度有限的，简单环境中评估其ADV模型，而不考虑不同的天气照明条件和动态障碍物，提出了一种基于模仿学习的ADV端，到端运动规划和控制网络。

所提出的采用前视图和俯视图图像序列，直接映射原始相机图像或使用详细的。环境图后处理相比，这些表示对域偏移更可靠、更易于解释，使用学习到的共享不变表示来，预测可行的未来运动计划和控制命令。

为了证明其优越性，还将其他基线和现有最先进的方法进行了比较，这些方法具有动态障碍物和天气、照明条件的大规模驾驶数据集，特别是在端到端学习、多任务学习、注意力机制和不变特征学习方法的一些要素。

端到端方法直接将感知，输入映射到驾驶决策中，学者提出了使用直接输出，驾驶控制命令的单个神经网络。

一个端到端的避障系统，该系统使用六层卷积神经网络，直接从低分辨率图像中学习避障，根据这些工作开发了一种名为DAVE-2的驾驶模型。

该模型使用九层CNN拍摄，前视摄像头图像并预测转向命令，并在相对简单的现实场景中实现自主车道跟随，例如平坦或无障碍道路，在这项工作之后，已经探索了端到端控制模型。

但是这些方法没有考虑对，自动驾驶至关重要的时间信息，为了解决这个问题，许多作品将时间信息作为，其驱动决策模型的输入。

例如使用精心设计的循环层，共同利用空间和时间线索来，预测车轮角度或其他转向控制操作。

学者提出了扩张的全卷积网络，和长短期记忆来预测给定轨迹历史，和图像帧的未来移动路径，在与类似的架构中，还提出了一个端到端的运动网络。

但使用VGG来提取更丰富的视觉特征，而不是像那样扩张的采用了，带有多个LSTM模块的预训练VGG主干，从视觉和运动历史输入中，提取空间特征和时间依赖性，以生成性能良好的路径计划。

除了在端到端控制方面的成功外，CNN和RNN架构在端到端规划方面，也显示出有希望的结果，学者还设计了几个路径规划网络，这些网络使用各种输入类型，包括灰度图像和自我运动。

他们展示了在许多情况下，生成平滑可行的路径计划的能力，尽管他们只考虑了简单场景中的车道跟随任务。

该架构使用图像序列和三个离散命令值，来计算自动驾驶汽车的未来轨迹，该值使用不同的子网，在接下来的工作中，他们提出了一种类似的网络架构，该架构采用图像序列、轨迹历史和三个离散命令，并估计不确定性和轨迹规划。

端到端学习的方法，都采用一个特定的输入和输出模块，这使得它在动态环境中的，自动驾驶效率低下且不可扩展，这些系统对看不见的环境的泛化很差，缺乏可解释性。

多任务学习方法

多任务学习范式不是为，每个任务设置单独的网络，而是通过共享参数和计算，来同时学习多个自动驾驶任务，同时实现最先进的性能，这是一种用于车辆控制的，多模态多任务学习网络。

该网络可以预测转向角和车速，而不是为每个任务设置两个不同的网络，他们的编码器网络包括五个卷积层、LSTM 和 FCN 层，用于处理单个前置摄像头图像，以及当前车辆和过去的车辆运动输入。

通过FC层来预测未来的车速，还使用高级导航命令作为辅助输入表示，同时训练他们的CNN，在接下来的工作中，修改了他们的网络架构。

并使用残差网络作为感知模块，除了先前的加速度和转向角输出之外，还提取了更丰富的表示和预测速度。

在这两种情况下，使用辅助高级命令输入都允许，驾驶行为变化的模糊性，并使网络更加灵活和适应看不见的情况，因为它拥有共同学习运动控制，和图像分割辅助任务。

并采用多模态输入、相机图像序列和轨迹历史，与其他作品不同的是，使用了时空信息和大规模的众包视频数据，使系统对看不见的场景更加鲁棒。

上述工作一般侧重于主辅任务联合训练，提升最终控制指挥的训练性能和鲁棒性，但是这些方法没有经过训练，无法用于具有挑战性的顺序决策任务，例如运动规划。

这些方法仍然缺乏可解释性，因为它们遵循直接映射技术，并且可能会遇到过度拟合问题，这在软参数共享中最常见，最近的研究采用了以鸟瞰图为中心的，级联多任务学习方法。

该方法共同学习几种可解释的中间表示，例如对象检测和预测结果，或BEV空间中的以自我为中心的语义图，用它来执行运动规划，这些方法通常需要昂贵的传感器。

这些传感器处理起来很耗时，并且与透视视空间有很大的差距，与这些方法相比，使用易于访问的前视图和俯视图相机图像，来学习视图不变的时空表示，从中我们可以预测更多可解释的运动规划器和控制器，同时保持鲁棒性和效率。

基于注意力的方法

由于注意力机制具有提高深度学习模型中模型效率、鲁棒性和可解释性的潜力，在学习字幕生成、分类等各种任务方面有很大的促进作用。

对于ADV，设计了几种注意力机制来指出，有助于纠正驾驶行为预测，和分类的重要因素，并展示了更简单的视觉注意力图，对于学习和保持控制准确性的重要性，用于从路线平面机、残差块和速度输入中提取观察注意力。

他们应用相同的注意力模块来有效的，学习子驱动策略的原始动作和提供，这些策略用作输入以增强最终控制命令输出，在将注意力机制应用于自动驾驶上。

时间注意力机制也已应用于自动驾驶，并对应用时间注意力，机制进行车辆轨迹预测，引入了一个基于自我注意的LSTM模块，用于轨迹规划。

应用单独的空间和时间注意力机制，来捕获驾驶员的速度和转向决策信息，以进行车速和角度预测，这种方法需要不同的模块来学习通道、空间和时间维度的中间表示。

并且已经提出了注意力机制，该机制可以很容易的，应用于现有的CNN，并同时学习不同维度的注意力特征图，而无需额外的模块。

例如将注意力块网络引入，自动驾驶模型以获得注意力地图，这不仅可以提高控制性能，还可以直观地分析它，随后生成用于多任务学习的任务特定通道，和空间注意力加权潜在特征图。

尽管这些方法处理学习注意力特征，这些特征主要应用于分类和分割任务，但它们没有考虑到同时获得，时空注意力以解决顺序决策问题。

在这项工作之后，我们将SE模块引入到，我们的3DCNN特征提取器中，但我们没有使用单个主干，而是使用主干来同时学习在，驾驶视图中不变的中间时空特征。

利用学习到的中间表示来协同优化和，训练LSTM轨迹规划和CNN-FC控制器模块，为了进一步增强时空信息，并使其适用于顺序决策，在LSTM模块中引入了注意力机制，以产生可行的未来轨迹计划。

不变表示学习

使用深度学习来训练自动驾驶系统，已经取得了许多成功，由于固有的领域转移问题，跨领域和任务泛化的，学习表示仍然具有挑战性，为了解决域偏移问题，大多数方法使用数据增强，以及各种数据收集方法。

通过添加相应的移位来增强，驾驶中心道路视图训练数据，即来自车载摄像头的，右道路视图摄像头图像，这提高了驱动模型的泛化能力，并解决了域偏移问题。

再去通过训练语义分割，和图像的驱动策略，将合成扰动添加到专家轨迹中，以提高网络对域转移的鲁棒性，即使使用数据增强，数据分布偏移问题仍然具有挑战性。

其他方法是领域知识转移和特权信息，它们提供了直观的表示，可以应用于领域适应，迁移学习或多任务学习场景，例如车道和车辆之间的距离，或路灯的状态。

并将其用作领域知识，来提高驾驶性能，学习这样的表示可以增加，模型的鲁棒性、可解释性和效率，但是它们在动态环境中的规模有限，所以它们是属于预定义的，可能会引入虚假输入。

学者便提出了一种方法，该方法利用特权和副任务训练范式，该方法共享相同的标签，但输入方式不同，来自源任务的输入模态是特权的，这使模型能够学习相关的，场景表示功能。

从而提高运动预测性能，数据驱动的多源域适应最接近我们的，最近流行的域适应方法具有，最大平均差异损失，它将不同的数据视图，投影到共享的子空间中，以最小化其差异。

在这些工作的激励下，我们将多视图度量学习整合，到我们专注的3DCNN网络决策时空表示中，这些时空表示在前方和顶部道路视图中保持不变。

结论

我们提出了一种用于自动驾驶汽车的，视不变时空注意力运动规划和控制网络，由不变表示学习和驱动决策模块组成，表示学习模块使用 3DCNN。

它负责学习从原始图像序列，直接到视图不变时空表示的映射，驱动决策模块负责分别学习，并从学习的表示到未来轨迹，和控制输出的映射，通过在具有动态障碍物和天气和照明条。

大规模驾驶数据集上进行的广泛实验，来证明所提出的的有效性，评估结果以及与最先进方法的比较证实，通过学习不变表示能够在，自动驾驶汽车中实现更通用的，运动规划和控制。

尽管在运动规划和高级控制方面，显示出有希望的结果，但它仍然存在一些局限性，即使使用学习的不变表示学习，所提出的方法的鲁棒性，和可扩展性也是有限的。

因为它需要在每个场景中，进行专家演示来训练网络，需要更多的研究来提高，系统的可扩展性，为了在复杂的道路场景中自动驾驶，ADV 需要的不仅仅是离散的高级命令，需要更多的研究来，整合低级车辆控制任务。

学者们还致力于在未来的工作中，整合来自互补传感器的多模态数据，同时保持效率，这将提高系统在，具有挑战性的环境中的鲁棒性。

如果你也喜欢我的文章，不妨点个“关注”吧！小生在此谢过了！

END

自动驾驶是如何分级的？目前发展到什么阶段了？一次给你讲清楚！

前言

自动驾驶车辆的性能分类

多任务学习方法

基于注意力的方法

不变表示学习

结论

最新文章

本站推荐