新一代感知架构“XNet”来了!一文读懂小鹏1024科技日

就在刚刚,小鹏一年一度的“1024科技日”发布会上,新一代感知架构“XNet”正式亮相,明确引入了Transformer网络和BEV技术。

“XNet”有哪些特性?除此之外,“1024”还说了什么?这篇文章可以让你快速了解!

小鹏为什么要做CNGP?

发布会开始不久,小鹏汽车自动驾驶副总裁吴新宙博士就抛出了一个问题:为什么小鹏要在这个时间节点去做“难百倍”的城市场景?

确实,与封闭道路的高速场景相比,城市用车场景中充满了各种不确定性,包括不可预见的交通工具、行人与交通习惯;复杂且时刻修缮的城市路网等等。

但矛盾的是,城市场景又是绝大多数用户最高频最刚需的用车场景,城市道路在用户用车总里程中占比71%,城市道路行驶时长在用户用车总时长中占比90%。

因此,城市场景的辅助驾驶是必须的,甚至是迈向下半场的决定性一步。

而为了应对复杂的城市场景,需要更强大的软件能力支撑,这就导致,城市NGP的代码量是高速NGP的6倍、感知模型数量多出4倍、预测和规控的代码量多出了88倍。

吴新宙表示,基于城市NGP的落地,2023~2025年将是全场景辅助驾驶的时代,而2025年之后,将迈向全面自动驾驶、无人驾驶。

全新一代感知架构“XNet”

小鹏G9(配置|询价)所搭载的全场景辅助驾驶系统“XNGP”相信大家已经比较熟悉了,它可以实现高速、城市快速路、城市主干道、城市次干道、园区内部道路、停车场等各种日常行驶场景的全覆盖,并打通高速收费站、停车场闸机等连接点,且无需高精地图。

今天,这项技术的基础——全新一代感知架构“XNet”也被正式公开。新一代感知架构“XNet”有一个关键词:多相机/多帧,我个人理解就是多视觉的前融合,与之前的单相机单帧后融合相对应。

通过架构图可以看出,“XNet”的网络中,会将多个摄像头的画面在BEV(鸟瞰视角)中通过Transformer进行融合,并输出目标物在动态和静态等多方面的信息。其中,动态XNet可以在视觉识别的基础上输出目标物的位置、姿态、尺寸、速度等信息,甚至可以预测目标轨迹,使规控的“博弈”能力大幅提升。

而静态XNet则可以通过对车道线、道路边界、停止线等的识别,来实时构建“高精地图”,从而摆脱对既有高精地图的依赖,大大拓宽了系统的适用范围和稳定性。不过,由于Transformer网络十分复杂,参数量极高,训练难度和训练时间都大幅上升,传统的标注/训练方式已不适用,小鹏还在这些方面做了专门的优化。

例如,在数据标注上,小鹏开发了全自动标注系统,相较传统标注系统效率提升近45000倍。

曾经2000人一年的标注量,现在16.7天可以完成,并且远超人工标注质量,同时信息更全,可以覆盖3D位置、尺寸、速度、轨迹等。峰值日产30000clips(相当于15个NuScene数据集)。

同时,为了应对一些极为罕见的场景,小鹏还利用UE引擎开发了仿真训练系统。在数据量不足以满足训练需求时,小鹏会利用“定向仿真”来在虚拟世界中建立大量类似场景,在虚拟世界中对网络进行训练。

在发布会上,吴新宙还特别强调了Transformer网络的部署情况:经过不断得优化,动态XNet已由所需122%Orin-X算力,缩减到现在9%的算力即可完成。

可见即便Transformer对算力的需求真的很高,现有双Orin-X的算力也足以支持日后的网络升级需要。

“XNet”架构技术上的分享就大致如此,下面则是一些车型的升级计划:

XNGP(G9 Max版)

2022:交付即有高速NGP、记忆泊车、LCC、智能泊车等功能。

2023H1:城市NGP发布,支持广州、深圳,新增首发上海;全国范围开放红绿灯识别并直行通过路口的能力。

2023H2:大部分无图城市开放变道、超车、左右转能力。

2024:全场景打通,实现从车位到车位的智能导航辅助驾驶能力。

XPILOT(P5(配置|询价) E版&P7(配置|询价) E版)

2022-2023H1:开放红绿灯识别、车道级导航功能。

2023H2:高速NGP策略优化(限速调节、脱手检测等)。

XPILOT(P5 P版)

2022-2023H1:城市NGP新增开放深圳,上海;城市NGP和LCC增强版性能提升;开放红绿灯识别、车道级导航功能。

2023H2:高速NGP策略优化(限速调节、脱手检测等)。

全场景语音2.0:全区全时

全场景语音2.0是行业内首个应用MIMO多音区技术的车载语音系统,具备“全区全时”的语音交互能力。怎么理解“全区全时”呢?简单来说,基本等同于每个座位都有一个“小P”24小时待命,每个座位的命令都可以同时识别且执行(前提是命令不冲突)。

同时,全场景语音2.0还具备跨音区的上下文对话,例如,主驾说了“开座椅按摩”之后,副驾只需一句“我也要”,即可打开座椅按摩,对话更自然和流畅。

基于新的语音交互架构,全场景语音2.0的反应速度也更灵敏,能够做到边听、边想、边做、边答,从唤醒到界面反馈仅需245ms、到语音反馈小于700ms,发出指令到执行,延时1秒以内,甚至一句话说4个命令也能瞬间执行。

而在本地语音模型上,全场景语音2.0也进行了升级,在无网环境下可以支持600多项功能,可以满足日常用车中的绝大部分需要。

机器人以及飞行汽车

结尾,又到了展望未来环节。小鹏的电动马(狗?)“鹏行智能机器人”最新CG公布,可以看到,这是一台具备AR投影和高保真音响系统的四足机器人,“尾巴”是一台六轴机械臂。

不出意外,小鹏鹏行智能机器人也基于小鹏汽车的体系化能力 ,运用了许多智能汽车上的能力,例如自动驾驶、人机交互、电机等等。但目前,它依然处于正在从“实验室状态”逐步接近量产的状态。此外,小鹏的新一代(第六代)飞行汽车也迎来了曝光。

小鹏第六代飞行汽车采用分布式多旋翼构型,可陆行可飞行,基于小鹏汇天自研飞行汽车驾驶操控系统,在陆行状态下,驾驶方式与汽车一致;在飞行状态下,则通过方向盘与档杆的配合来实现前进、后退、转弯、上升、悬停、下降等动作。

但从发布会上公布的骡车试飞视频来看,目前第六代飞行汽车的飞行姿态还是不太稳定,飞行和动作速度很慢,同时续航只有十几公里,依然处于比较早期的研发阶段,距离真正量产商用还有极为遥远的路要走。

----------

2020年的1024,高速NGP、全场景语音与我们见面,如今它们早已成为小鹏汽车的代名词;2021年的1024,小鹏为我们带来了800V高压平台,而它也正在旗舰车型G9上大放异彩。

可以说,1024科技日从来就是小鹏研发的风向标。

今年的1024,智能驾驶无疑是绝对的核心,一个小时的发布会中,甚至有近50分钟都在讲智驾。

毫无疑问,这是一种宣告:智能驾驶,是小鹏技术自研的永恒主题。就像吴新宙说的那样:城市NGP的落地,只是智能辅助驾驶下半场的开局,具备全场景智能辅助驾驶能力的XNGP,将是实现无人驾驶前,辅助驾驶的终极技术形态。

XNGP到底能给我们多少惊喜?请与我们一起保持好奇、保持期待。

2022-10-25

2022-10-25