想要学习画汽车的小伙伴可以看这里。,

2023上海车展理想汽车智能驾驶圆桌专访 - 郎咸朋&赵哲伦

受访人:理想汽车智能驾驶副总裁郎咸朋博士、理想汽车智能驾驶产品负责人赵哲伦

记者:今天的发布会上提到了预测模型和实时规划,目前理想对它有没有验证,或者对它的验证结果数据是怎样的?另外关于城市NOA,要在100个城市推出城市NOA的功能有什么先决条件?也就是城市要符合什么样的要求?另外这套系统可以适应哪些场景?

郎咸朋:对于预测加实时规划的验证方案,预测算法和规划算法不是一个新的话题,之前也与其他友商聊过预测和规划的事情,大家都是聚焦在感知上。今天我也提到过,因为有很强大的感知,我们才能做预测的模型。预测模型也是基于学习的模型,而不是规则式的,它的训练数据就是感知的结果,输出的是规划的轨迹。这个模型检验的方法也是来自于实际驾驶行为和驾驶数据,最终检验的是,我们预测的轨迹与真实世界里的行车的轨迹是否匹配,匹配得好就是预测准,匹配不好就是预测差,通过数据反复训练得到比较准确的预测模型。现在来讲Top3的预测模型可达98%的准确率。

赵哲伦:第二个问题,城市NOA的开放条件,最核心的基于两件事情。因为我们的基础架构不依赖高精地图,所以不受限于高精地图的开放范围,这是与依赖地图的开放策略不一样的地方。本质来说我们的算法只要能够在一个城市跑通,80%的情况下,在其他城市也都能跑通,但依然需要进行城市的仿真,以及实际的泛化验证,这部分会评估用户高频的城市范围和场景。

在部分城市中,对于复杂路口,如果我们认为训练里程积累到了一定程度,会优先开放这些城市。这基本上跟保有量相关,因为保有量越多,复杂路口的训练更容易完成。

郎咸朋:我再补充一下,我们的城市开放逻辑跟别人不同的一点是,如果辨认之前使用的是高精地图,那它的开放逻辑是地图逻辑,地图到哪我开放到哪。而我们的逻辑是基于训练里程,取决于这个城市里的保有量和车主开车的频率,哪里的训练量足够多,哪里就可以开放。最终是否开放,取决于在这个城市里面我们车主开过实际路口的通行次数,以及实际在城市里面行驶过的公里数,如果达到我们开放的标准,那么这个城市的NOA就可以开放,跟高精地图没有关系。

赵哲伦:第三个问题,适应的场景,这是行业的问题。智能驾驶领域一直有一个点叫长尾问题,意思是要覆盖大部分的生活场景并不是特别难的事,但剩下的小部分场景却非常难解决。正如上午发布会说的,整个物理世界被分割成三个部分,第一部分是静态的道路结构;第二部分是动态的交通参与者,这部分在中国是尤为复杂的,中国的汽车、人和骑车人非常难以预测,这与北美不一样;第三部分是障碍物,这部分在中国也很复杂,因为中国比起北美有非常多的改道和施工,这是数量级的差别。可能80%的场景都能很好地完成,但剩下10%甚至是最后1%,会需要比较长的迭代周期。

在我们内部来讲会以“接管率”作为要求。我们认为在城市初期基本可以做到单次行程接管一次以内,这已经是比较好的用户体验,比你自己开车省力很多。再往后是一天接管一次,一周接管一次,通过用户里程可以计算,如果能够一周接管一次,那么就非常有用户价值了。这是一个实际迭代的过程,不太存在什么行、什么不行,而是取决于场景的复杂程度。


记者:关于大模型的算法,比如我们现在也体验了华为和小鹏的,他们说第一梯队不是理想,您怎样看待这个问题?

郎咸朋:这是低估我们了。如果不是以大模型算法训练为前提,我们不可能有那么多训练里程。从一开始我们就将智能驾驶当成长期AI的问题对待。今天不知道大家有没有看到一个细节,在公布训练里程的时候,最早一条在2019年。在那个时候我们就已经开始了算法训练。

您也理解像小鹏、蔚来和我们理想,在第一代产品时都用的是供应商的方案。在用第一代方案的时候,我们就已经开始做训练里程的积累,包括算法的积累。用了大概两年多的时间,我们在2021年有了AD1.0,那是我们第一次的全栈自研。当时训练做得也非常快,到那个时候就已经积累了1亿多里程的训练里程。

到了AD2.0,也就是去年,我们是全球第一个交付Orin X芯片的高速NOA。为什么我们会做得这么快?都是源于我们对训练里程的积累。

在对于智能驾驶认知的维度上,我们一直处于领先行列。我们坚持两点:

第一,对于所谓的“自动驾驶”,我们把它看成人工智能问题,那么关键点就是人工智能的三要素:算法、算力、数据。我们认为最终竞争的决胜点是数据,是拥有多少训练里程。

算法上,大家都是趋同的,多一点少一点没有太大区别。算力同样,大家现在用的算力都趋同。只有最后数据这个点上,不管是训练的规模还是训练里程积累的时间,都需要花很大的投入,不可能说今天投多少钱下去,明天就有多少里程,这是不可能的,需要长时间的积累和持续的投入,这点我相信竞争对手不如我们做得好。

一开始就建立这个思路之后,大家就不难理解:第一,为什么要标配,因为只有标配才有最大规模的量,而且训练里程中,样本种类也丰富,不管是男女老少还是全国各地。

接下来可能您会问这个问题,我直接说了,为什么感觉BEV网络的训练迭代速度会非常快,其实也是源于这个。今天我也提到,现在有4亿公里的训练里程,不是车简简单单跑4亿公里,而是有自己的筛选和挖掘机制,挖掘出来真正有用的4亿公里,这才是很厉害的,目前来说只有特斯拉可能比我们多一点,其他人都比我们差一个数量级。

这里面我们挖掘的是视频的片段,不是一个孤立的图象,这也是非常关键的。这样可以让我们知道,比方说用户接管了,那我们就要知道接管之前、之后发生了什么。特斯拉在AI Day上最早应该是2021年左右讲的,但实际我们在2018年9月就开始做同样的事情,现在累计有将近4亿公里,换算下来是上千万小时的数据,换算成年的话是1000多年,如果拿出来跑的话是不可能的,从现在找这些车去跑也不太可能,即使能跑也不可能春夏秋冬一年四季在一天之内完成,这些东西都是我们宝贵的积累。

所以大家可以看到,之前我们是比较平稳的发展。

还有一点是我们的产品也很关键。如果车卖不好,训练里程就上不去。训练里程有两方面,一个是是否标配,一个是总量大不大,这两个相乘才是最终获取到的训练里程规模。如果就算标配,一辆车卖不出去还是零,而就算车卖得再多,功能不标配,这里面也会大打折扣。而理想恰好在这两个方面都做得很好,一个是标配,一个是车卖得好。


记者:请问Pro版本有希望实现城市NOA吗?如果不能实现的话,是算力问题还是安全问题?因为之前地平线好像可以实现的。还有一个问题是,我朋友跟我提到他感觉在不同级别的辅助驾驶中,他疲劳度的程度是不一样的,其中走直线是最轻松的,开高速NOA相对更累,而在体验城市NOA时,会觉得他需要辅助车,并不是车辅助他,如果可以量化疲劳度,什么时候可以接近于高速直线的体验?

赵哲伦:Pro的定义源于最早的产品定义,最早我们确定的Pro平台的确是专注高速NOA,希望能够将这部分尽可能地打造比较好的用户体验。而对于城市NOA,一方面算力确实不够,目前可以的看到一些方案,如果要做城市NOA的话起码也得是双颗征程5。单颗征程5做的一些方案,一般来说是试验车的展示,最终量产单颗征程5会比较困难。

郎咸朋:这里插一点技术上的分析。实际应用中,我不可能把芯片所有的算力都给感知,后面还有其他规划,如果我想做一些模式,可能真的就更不够用了,所以你看到的只是感知方面的处理,以及比较简单的规控算法,像我刚才提到的,我这边肯定会有预测算法,而且预测算法想做得好的话,也要跑神经网络模型,这个模型可大可小,小的话可能能力不足,大的话就需要更多算力。

赵哲伦:所以从Pro的定义上,以目前的算力水平,确实不会做城市NOA的功能。但我们确实在探索,目前这套大模型的AI算法跑在Max上,希望后面可以下放一定能力到Pro上,把高速体验做得更好,因为研究高速上确实还有些比较大的问题,如地图相关的降级,或者一些变道没有那么像人的情况。这部分我们也在探索,希望可以通过算法的改进来提升体验。

第二个是疲劳问题,我们内部来讲其实分了两点区别。疲劳问题一是与场景的复杂程度相关;二是和接管率相关,也就是系统能应对的场景。

其实我们在高速上场景相对来说是非常固定的,大部分的时间是在跟车直行,偶尔会碰到有辆车加塞,或是自己需要变道。这样的场景下,我们很容易掌握别人车和我们车的边界在哪里。

在城市里这件事会变得复杂。当我在往前开的时候,城市里的场景有很多需要去预测的部分,核心的是我如果没办法判断它预测的准不准,我就会慌,有个人走过的时候我到底会提前减速还是一下加速过去,这个有时是不太可预期的。

所以,我们在城市NOA的环节,为了让用户提高信任度,其实是降低环境的场景复杂给他带来的影响,我们会进一步优化整个交互上的显示,总体来说是让驾驶员能更理解AI的思维方式。比方说,在车机的EID上,我们可以看到车辆有没有预测到会和别的车交汇,如果预测到会交汇,驾驶员就很容易理解车会制动,那驾驶员也就会更有安全感。又比方说,车辆能不能知道,开到前面后需不需要停下来,其实大家看到现在特斯拉在北美最新的交互上已经有这样的展示,比方说车在某个地方会停下来,或是加速、减速。这部分我觉得会很大程度上提升信任感,是必须要做的。

第二点是接管率的问题,虽然城市场景比高速会难很多,但是我们基本上能做到20-30公里接管一次,这样的能力可以达到一个比较好的用户体验。


郎咸朋:哲伦刚才说的20公里、30公里,基本是用户单次出行的平均里程。

赵哲伦:对,比如单次在城市通行A点到B点,途中只接管了一次。而这个过程中,虽然可能有些时候你没有那么有安全感,但是交互上会给你安全感,这是我们内部的一些分享。


记者:两个小问题,

第一,刚才参加了四维图新那边的专访,他们陈总点名夸赞了你们的路线,非常务实,我感觉他们在做地图这块,不是我们媒体们想象的那样一下子就到了最终极,而是不断逐步改进。我想知道咱们对于高精地图的态度是怎样的?

第二,我刚刚学习完BEV架构+Transformer技术它怎么样去兑现,刚才看到咱们的新闻稿里面写又是静态的,又是动态的,我想知道这里面具体的是怎么样的?如果涉及到过细的技术点,我觉得可能不利于宣传。


赵哲伦:我先回答第二个问题,其实上午郎博讲了,我们把物理世界的模块和感知分得非常清楚,你可以这么理解,所谓的静态BEV,就是我们把静态世界用BEV算法还原出来。静态世界是一个行业内的说法,不是特别用户语言。静态其实就是车道线和道路的结构,你可以理解为传统大家用高精地图去做的部分,它就叫做静态,这是静态的部分,一般来讲不会变,只是可能会因为施工改道发生变化。

还有一个动态的,动态就是在静态上面不断会去动的交通参与者,一般有人来说有人,骑车人,车,偶尔还会有一些动物之类的也算。


记者:把交通参与的东西分两个要素了。

赵哲伦:对,分为静态和动态,但除了静态和动态之外,我们还提出了一个点,也就是通用障碍物,或者一些不需要区分类型,但依然需要去避让的障碍物或者需要去制动的,我们用Occupancy算法去完成这部分的识别,所以为什么要在静态和动态之外,把它区分出来呢?因为在不同的静态、动态中,下游对于它的感知涉及到我们要做不一样的规划算法。

实际上,向城市NOA发展动态参与者会非常复杂,虽然静态来讲相对稳定,但是它的识别需要非常准确,要尽可能去接近非常稳定的在路口的弯道、直道的识别。这三个算法在物理世界整体放到一块,我们会对它去做预测。


郎咸朋:我回答一下高精地图的问题,如果今天你说我有一张高精地图,它覆盖了中国所有的道路,而且每分钟就能更新一次,而且更新的方式还很便宜,1块钱就能用一天,我肯定会非常赞同使用高精地图。

但是,我刚才提到高精地图有三个特点:

1、需要精度高。

2、高鲜度,就是需要实时性。

3、数据的信息量、丰富度高。

这是高精地图的三个特点,我原来在百度的时候做过高精地图,我非常了解这个部分。但是这3个问题恰恰是高精地图的3个制约点。如果想获得高鲜度的高精地图,势必要频繁更新;如果想获得元素丰富的信息,势必制作工艺会非常复杂。

还有一个原因是我们国家实在是太大了,如果小国家的高精地图,会相对简单,但是在中国,所有的道路一共有1000万公里左右,其中高速公路只有30万公里的高速,所以说(在高速场景利用高精地图)还是能实现的。

但是,普通城市道路加在一起有1000万公里左右的可通车道路,这还没有算上那些小胡同。如果想把这1000万公里的道路全都做一遍高精地图,需要花费上亿的成本,因为每做1公里高精地图,大概是100块钱的成本。因为高精地图的采集车是一个专业设备,需要大概在800万到1000万的成本费用,在当时百度比高德大,它基本上拥有的已经非常多的采集车,大概几十辆。假设50辆车,每辆车1000万是5个亿,同时还需要计算车辆的折旧费用,5年折旧,每年1个亿。

一辆车不间断地话,每天可以采集差不多400公里。而全国有1000万公里的道路,估算一下如果想用这50辆车达到全都道路覆盖,一年可能都要做2、3遍的采集更新,即使是中国最好的、最顶级的可以做高精地图的单位或者公司,依然是不太现实。

所以,为什么大家都不用高精地图了,我认为并不是说高精地图本身是不好的,关键是我不具备使用它的条件。

同时,还有另一个问题,在做高精地图的时候,是因为没有静态BEV、动态BEV的一些算法出来,我们不得不适用这些拐杖去帮助我们实现静态或是道路结构信息的感知。

我们把道路结构信息感知放在高精地图,然后自己去做动态的人、车的感知,所以前几年大家都在做车、人、骑自行车的人等等的感知,但没有太多人去做静态的东西。这两年恰恰因为大家认为高精地图使用比较困难了,而且我们的算法能力、车身的传感器也变多了,所以慢慢的我们就有了静态特征信息的检测算法,其中一个极大成本就是静态BEV算法,相当于我们在开着车的同时,局部图就构建好了。

而且我们做的并不是高精地图,而是我们自己智能驾驶所需要的元素、特征、信息的一张图,今天发布会演示的视频中,能够发现这张图在路口也是歪歪扭扭的,抖动很剧烈。但是对于智能驾驶来说,我可能不需要说通过地图告诉我道路边界在哪,具体入口位置在哪,因为我们具备自己的实时感知能力,只需要我自己去判断这个车道线在哪就好了。

刚才哲伦提到在入口这个地方,我需要一个信息,比如要进行一个左转弯,转过去之后是否有道路连接,转过去之后是不是能找到一条道路,这个左转道路跟那边一条直行道路是不是有拓扑关系,这个关系在我看来是更重要的,比准确的确定道路边界在哪更重要,这是针对智能驾驶所需要的信息是什么,我觉得只做地图的人可能会了解的少一点。

但是,四维图新那边我也沟通过,他们有自己的智能驾驶事业部,他们也在去研究怎么结合智能驾驶的应用,让图做的更好,这是非常好的。如果大家再追溯早一点,荷兰做地图的TomTom公司收购了一家智能驾驶的公司,Autonomos。图商他们也知道必须跟智能驾驶结合,才能做出更好的地图来。

但是,这还有一个很大的问题,即使刚才那些东西都对,采图设备也是很难的,一方面是成本,一方面是规模。刚才说了我要用专业的车去做测绘,这个东西确实很贵。但是只购买几辆,又无法满足鲜度的问题,这其实就是他们两难的境界。智能驾驶的发展等不了他们的迭代,所以我们自己先迭代,带他们卷起来。


记者:这么看起来算不算一种相辅相成,BEV解决的其实是单车单点的问题,但是地图有定位,交通是那么大的一个复杂系统。

郎咸朋:要想最终实现自动驾驶,要从人工智能角度来解。现在大家越来越能理解到这一点。我们想教会系统怎么像人一样思考和开车,你开车的时候也不是先得把整个的中国地图全装到脑子里面,才会开这辆车,而是边开着开着,开到路口就知道该拐弯,拐过去之后才知道下面什么样。其实这是一个人的正常思维方式。只不过之前我们想用规则式的、写得特别清楚的方式去做智能驾驶,所以说才有了高精地图这些内容,我觉得可能还是不太一样的智能驾驶的路径。

记者:假如我自己开的话,我不需要非常大的地图,但是我要用导航。

赵哲伦:导航地图在智能驾驶中依然存在。

郎咸朋:导航是永远存在的。

赵哲伦:我再补充一下,刚才说的拓扑关系,我们人在开车的时候,地图的路口放大图对我们也非常有帮助,帮助你提前去做变道,提前知道你要从右边匝道口下去了,这就是前面所说的拓扑关系,这些信息依然是我们在做智能驾驶时所需要的。这部分导航地图就可以提供,而并不需要一个非常高精度的,去把一辆车定位在地图的某个位置,一直沿着地图线去走,这个是不需要的。

郎咸朋:其实在做高精地图的时候,还有一个细节,图商希望能绘制出智能驾驶的规划路径,就是智能驾驶知道该怎么开,只要定位准了之后,就沿着地图上画的线开就好了,相当于地上有个轨道,你沿着轨道开就好。但是哪有那么容易的事情,路上有各种各样的复杂交通参与者。在高速上可能还是可以的,因为高速上也没有突然掉头、变道之类,只沿着开还是可以的,但是在城市场景里面这种思路是错误的。


记者:目前大家说不依赖高精地图的城市NOA,是真的一下把高精地图丢开,还是逐步给它降权?

另外你刚才提到的道路拓扑关系,现在在我们的城市NOA的技术栈里面它是谁来负责?丢给哪个模块?因为我看特斯拉的道路拓扑关系的建构,好像是专门做了一个神经网络去做这个事情,理想这边是什么样的?

郎咸朋:我回答一下,这两个都是比较技术的问题。

第一,我们也看到了不依赖地图或者重感知、轻地图的说法,有几种方案,第一种方案就是在高精地图和非高精地图之间,或者导航地图和非高精地图之间做了一个地图,这个地图有的人叫HD Map-,有的叫SD Map+。唯一的区别是,一个是从高精地图降级下来的,生成了一个简化版的高精地图,除去了部分元素去做这个事情。另外一个是SD Map+,就是说在原来SD Map的基础上去多增添了一点元素,比如说车道的数量可能更清晰一点,更准确一点。这两个地图我认为是有本质区别的,第一种如果用HD Map-,其实还是用了高精地图,只不过是少用了几个元素而已。因为HD Map和SD Map之间,还是需要做一个很强的关系匹配。

第二个就是说如果你在SD Map的基础上,就是在导航地图的基础上,又增加了一点点匹配智能驾驶的元素,我觉得这个现在看起来是一种合理的表现,而且要看你添加的是什么东西,你添加的可能不是刚才说的这种非常强的道路等乱七八糟的信息,或者一些点状的信息,我觉得这种方式是比较合理的,比较有前途的。

大家都说不依赖高精地图或者说轻地图,你要看轻的是什么,是从高精地图减了点东西下来,还是从SD Map增了一些东西上去,这是感知区别,我觉得后者可能还可以。你刚才说的拓扑关系就是在SD Map的基础上又增加了一点关系。

第二个问题来了,这种拓扑关系谁来负责,在咱们国家还是图商负责,但我们跟图商高德这边也会展开一些讨论和合作,高德会发布OEM图层的逻辑,方便跟我们合作的时候,会将智能驾驶特征相关的信息,在OEM里面进行体现,这是双方共创的东西。


记者:所以拓扑关系还是图商给到的?也就是连接关系这样。

郎咸朋:如果有人用的话一定是图商提供才是比较合法的。


记者:目前在城市NOA,理想的技术栈里面,道路的连接关系是怎么获得的?

郎咸朋:实际上这个拓扑关系我们有自己的生产方式。

记者:相当于也是做了一个预测吗。

郎咸朋:举一个红绿灯路口的例子,你实车体验的时候会看到,在路口时会有一个小的神经网络去做端到端的训练,我们可能不显示给出路径和左转右转规则式的判断,我们相当于是端到端的做这件事情,你给我一张图,我就告诉你这个地方是该左转右转还是直行,而不是看到这个红绿灯去跟道路进行关联和连接,之后再根据道路的拓扑做这件事情,这还是有本质区别的。


记者:刚才还提到最近整体技术识别和算力的充沛,大家可能会硬开市场做端到端的方案,我们也看到发了端到端的基础战略,对于理想来说是怎么看的?据我们了解小鹏预测也不用神经网络,还是会基于数学的方式做。理想对这方面的看法是什么?你们对AI和神经网络的应用会到什么程度?

郎咸朋:你刚才说的端到端,其实大家的理解不一样,有一种是给我一张图,直接出最终结果,这是完全的端到端。但也可能是局部的端到端,像您刚才说的我们的预测是端到端,随着算力的增大,确实大家的想象空间会变大。原来可能因为没有算力,必须把整个智能驾驶的感知、决策、规划和控制分开做,而现在算力大了,是不是可以尝试把一些东西合在一起做端到端?我们可能会保持探索这一方向,但对于现在的产品而言,我们还是要确保它的科技,感知、BEV等,用自己的大模型去做。

在规控上,现在规控主要有两个层面的考虑,一是控制的结果要确保足够安全,二是控制的结果要跟人类驾驶体验相吻合,不能控制出来之后,让人觉得非常不舒适。那么对于这一块,我们的想法是用小的神经网络去做。而对于确保规则和安全这一块,还是以规则去做,所以最终规控是Rule-Based和Neural-Based的结合,去做这件事情,而不是完全Rule-Based的东西,因为我们接下来一定要把智能驾驶以体验作为驱动。


记者:有说法说GPT范式,因为很强大,看起来好像是人工智能的边界,是不是会改写智能驾驶的基础范式,您怎么看待这个问题?

郎咸朋:先确认一下,跟端到端一样,GPT范式在您的理解里,是想表达什么意思?

记者:拉一个很大的模型,能够基于这个模型做出很有常识的东西,然后把它拿来适应驾驶任务,大概是这样的。

郎咸朋:目前看来这也是一个合理的趋势,GPT最大好处是可以用很大量的弱标注或者粗标注的样本,来获取一定的基础能力,在基础能力的前提下再用精标的小的数据去做调整,在某些任务上得到更好的结果,现在的趋势是这样的,而且我们现在也在这么做。

举一个例子,比方一个数学的考试,肯定是先掌握各种各样的数学知识,来补充我的基础素质。之后在临考试前,做一下历年真题,掌握作题技巧,最终我去考试的时候,既有基础的数据,又掌握作题的技巧,那么考试的分数可能会比较不错。但之前因为没有大模型这样一个思路,大家可能是拼命刷题,拼命的精标数据,有可能碰到熟悉的题型是会做的,但万一有些改变,那么考试成绩就会变得很差,这是GPT范式和非GPT范式的区别,我认为是有一定的合理性的。

记者:这边两个问题,一是年底规划开发100个城市,这是个恐怖的速度,反过来在安全层面,我们在人机互驾,因为现在是人机互搏的状态,我们有没有考虑过优化升级?另一个是友商对于自驾系统的检测标准是每200公里的接管次数是1次或者0次,理想有什么最终检验标准吗?

赵哲伦:百公里接管目前没有特别的标准,它取决于你碰到的场景,在虹桥附近驾驶和在徐汇附近驾驶,这个差别非常大,跟场景相关性非常强。但总体来说我们对此也会有一定的标准,如果专业测试人员去测试城市NOA系统的话,分为两种接管,一种是安全性质的接管,如果你不接管可能就撞了,动刹车或者动方向盘,另外是效率性质的接管或者体验性质的接管,不接管可能体验不好,或者不接管可能车子就卡住不动,比方说跟着一辆车停下来就不动了,不会超车。

其实我们对后面这种是有比较好的包容性,因为这个阶段是需要体验提升的阶段,无论是舒适度的问题还是效率的问题,一定程度上会有包容度。但由于接管率这一块没有明确的标准,所以今天也不去说那个数字。但对于安全这一块我们内部的要求非常高,达到非常高的水平才会推送给用户。

另外说一下第一个问题,对用户的要求也是比较高的,大家如果关注现在的高速辅助驾驶使用,目前至少在理想的用户中,我们的使用率上升还是比较高的,日活也能达到30%,是一个比较高的数字,但依然是需要很清晰的掌握它的边界,才能很好的使用。如果放眼整个汽车行业,依然有大部分用户没怎么真正使用过这样的系统,所以在城市NOA的推送过程中,也会参考从核心高频率,至少是对辅助驾驶有深刻了解的用户,慢慢再扩散到一些可能去经手的用户。是不是对这个功能有包容度,对这个功能有好奇心,是否了解这个功能的运行机制,这个非常重要。

如果参考创新曲线,我们需要找到的是一批Innovator和Early Adopter,不会很早就去找后面那拨人。

记者:我这边有三个问题。第一个问题,您是如何看待比如像特斯拉之前推出的Dojo,还有友商小鹏推出的扶摇这种集中式大型的用于数据训练的机型?

第二,问一下哲伦,这个问题是接着之前另外一个老师关于Pro和Max的问题,目前以我们的角度Pro和Max两个系统似乎是在使用不同的技术栈,以后为了技术栈统一和获得更多数据,理想会不会慢慢把硬件包括计算平台统一?

第三,关于硬件,因为我们知道有些友商,之前他们认为某一个级别的硬件对应的能够实现某一个范围的功能,但是随着后面技术和算法的发展,慢慢发现原有的硬件可能并不能够很好满足接下来需要获得的应用,其需要的计算能力和感知能力,于是会不断进行硬件迭代,对于之前的消费者可能会有硬件升级,硬件OTA,或者请他们去升级新车的方法面对这个问题。理想现在认为自己的硬件,到2025年这段时间,对于应用需要的感知和计算能力是否能够满足?

郎咸朋:其实特斯拉和小鹏的这两款车是很好的训练集群,但我理解它只是一个算力底座或算力基建,下面搭载的是整套虚拟的闭环和数据的闭环。特斯拉这套系统最强大的是车端数据的采集和训练,是一个非常高效率迭代的闭环,小鹏的扶摇我们可能看它只是一个训练的集群,但搭载上面数据的闭环是否效率很高,他们没有讲过,我们也不得而知。

赵哲伦:第二个问题,目前理想的结构,在量产AD Max、AD Pro平台来讲,基本还是以规则为主的算法。今天发布的AD Max 3.0是从规则到逐渐软件2.0的方式,用更多的BEV取代高精地图。但即使是我们的Pro平台,也可以完成里程训练,并不影响整体模型的训练速度,这部分也是我们做标配的优势。

另外,是否会考虑把Max平台上更加大模型的算法迁移到Pro上,因为两个平台算力确实不一样,而且可能算子上都会有些区别。我们到时候是否能迁,或者能迁多少,肯定不会完全一致,但是会尽可能把一些比较好的算法做迁移。但无论是迁移与否,Pro依然可以支撑训练里程的累积,这点是比较重要的。

第三,硬件和功能的问题,到了理想L系列这一代,再往后来讲硬件和功能的问题没有之前那么显著。其实理想汽车是完整经过几代ADAS的硬件,到现在更智能的硬件,最早是单模相机+单毫米波,到周视的相机,目前从L系列来说,无论是Pro还是Max都具备周视的相机和大算力的芯片,这点已经带给我们开发很大的自由度。之前的平台可以做的东西确实比较有限,比方说做一些复杂的场景,连相机都没有,其实很难做处理。

所以回答后面那个问题是,是否能够支持到2025年,目前来看肯定是可以的,但算法和数据、算力是在持续提升的,是螺旋上升的态势,所以肯定往后会越来越好,但这一代我们认为也能做到足够好。


记者:我想追加两个问题,今天城市NOA的方案是没有收钱,可是友商都在收钱,这样做的逻辑是什么?

赵哲伦:这要看到底是企业价值放在第一位还是用户价值放在第一位。在我们的统计数据中,最让我们触动的一点,你去看特斯拉的FSD,在国内收费64000元,我曾经也付过这个钱。但你今天在卖特斯拉二手车的时候,如果你当初付了6万多,今天降到1万块都不止。后来又流行了一阵订阅模式,包括现在国内也有人在效仿。

如果订阅,每年基本上得付几千块钱,到卖车的时候也付了几万块钱了,但这个费用其实完全没有任何的保值作用。我们考虑的一个点是,如何让在用户卖二手车的时候,这个东西依然是他的资产,而不是他的消费,所以我们会选择前期以一个低成本的硬件BOM价格去预埋在车上,硬件的成本是在车里面的。

但是在售卖车的时候,这个价值依然得到体现,而且它的软件功能其实更强大了,这个价值可能体现得更充分。如果你当时花64000元去选择特斯拉,保值率10%,如果你像我们这样的AD Max结构,保值率肯定是高于70%,这是用户利益为第一位的。


记者:投资人和二级市场会不会不买账,按大家对智能汽车的想象空间来说,软件是提高收益非常重要的一个东西。

赵哲伦:我觉得这里有一个很大的阶段问题。特斯拉中国FSD选装率到底是多少,可能在1%左右。或者做订阅一个月付几百块钱,这个订阅率会达到多少?如果没有量,那么这完全是自己骗自己,或者说完全是一个被资本所牵动的状态。

长久发展来看,如果真正达到了自动驾驶的状态,它成为了一项服务,那去做订阅是比较合理的。今天还是一项产品,一项辅助的功能,它更应该聚焦更多的用户价值。

记者:所以你们也不是说以后彻底放弃,今后也可能会收费。

赵哲伦:这是阶段性的问题和阶段性思考。

记者:刚才提到算力的问题,咱们也经历了算法的变迁,我看了你说的原来我们跑CNN,需要的是带宽密集型芯片,现在跑Transformer,需要的是算力密集型芯片,我想向您确认一下,这种说法是不是准确,我们要把Transformer更好的部署在上面,是谁去做相应的工作?

郎咸朋:带宽密集型还是算力密集型,是跟硬件本身的设计强相关的。英伟达在设计芯片的时候,其实还没有Transformer,但现在它也做了很多相关的优化补丁。我们跟英伟达之间的互动其实非常多,我们提了很多意见和建议,现在反馈得到的优化也很显著。在它下一代的芯片里面,也会更好地解决硬件加速和硬件优化的问题。

2024-01-11

2024-01-11