关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯自主驾驶在城市环境中的主要障碍是理解复杂和长尾场景,比如具有挑战性的道路条件和微妙的人类行为。作者介绍了DriveVLM,一个利用视觉语言模型(VLMs)的自主驾驶系统,以增强场景理解和规划能力。DriveVLM集成了链式思维(CoT)模块的独特组合,用于场景描述、场景分析和分层规划。此外,意识到VLMs在空间推理和高计算需求方面的局限性,作者提出了DriveVLM-Dual,一个结合了DriveVLM与传统自主驾驶流水线优势的混合系统。DriveVLM-Dual实现了稳健的空间理解和实时推理速度。在nuScenes数据集和SUP-AD数据集上的大量实验证明了DriveVLM的有效性以及DriveVLM-Dual在复杂和不可预测的驾驶条件下的增强性能,超过了现有方法。
1 Introduction
自动驾驶技术,因其有望彻底改变交通和城市出行方式,在过去二十年中一直是研究和开发最活跃的领域之一。实现完全自动驾驶系统的一个主要障碍是场景理解,这包括应对复杂、不可预测的情况,如恶劣的天气、复杂的道路布局以及无法预见到的人类行为。现有的自动驾驶系统,通常包括3D感知、运动预测和规划,在这些场景理解挑战上存在困难。具体来说,3D感知仅限于检测和跟踪熟悉的物体,忽略了稀有物体及其独特的属性;运动预测和规划关注于轨迹 Level 的行动,经常忽视物体与车辆之间在决策 Level 的互动。作者介绍了DriveVLM,一个新型的自动驾驶系统,旨在解决场景理解的挑战,利用了最近的视觉-语言模型(VLMs),这些模型在视觉理解和推理方面表现出了卓越的能力。具体来说,DriveVLM包含了一个思维链(CoT)过程,包含三个关键模块:场景描述、场景分析和分层规划。- 场景描述模块从语言上描绘了驾驶环境并识别场景中的关键物体;
- 场景分析模块深入探讨关键物体的特性及其对 ego 车辆的影响;
- 分层规划模块逐步制定计划,从元动作和决策描述到航点。
这些模块分别对应于传统感知-预测-规划 Pipeline 的组件,但它们的不同之处在于,它们处理物体感知、意图级预测和任务级规划,这些都是过去极其难以应对的挑战。尽管视觉语言模型在视觉理解方面表现出色,但它们在空间定位和推理方面存在局限性,且其计算强度对车载推理速度提出了挑战。因此,作者进一步提出了DriveVLM-Dual,这是一个混合系统,它结合了DriveVLM和传统系统的优势。DriveVLM-Dual可选择性地将DriveVLM与传统的3D感知和规划模块相结合,例如3D目标检测器、占用网络和运动规划器,使系统能够实现3D定位和高频规划能力。这种双重系统设计,类似于人脑的慢速和快速思考过程,能够有效地适应驾驶场景中不断变化的复杂性。同时,作者正式定义了场景理解与规划(SUP)任务,并提出了新的评估指标,用以评价DriveVLM和DriveVLM-Dual在场景分析和元动作规划方面的能力。此外,作者还执行了一个全面的数据挖掘和标注流程,构建了用于SUP任务的内部SUP-AD数据集。在nuScenes数据集和作者的数据集上进行的广泛实验表明,DriveVLM在少数样本情况下具有显著优势。此外,DriveVLM-Dual超越了目前最先进的端到端运动规划方法。总之,本文的贡献有四个方面:介绍了DriveVLM,一个新颖的自动驾驶系统,该系统利用视觉语言模型(VLMs)进行有效的场景理解和规划。
进一步引入了DriveVLM-Dual,这是一个结合了DriveVLM和传统自动驾驶 Pipeline 的混合系统。DriveVLM-Dual实现了增强的空间推理和实时规划能力。
提出了一种全面的数据挖掘和标注流程,用于构建场景理解和规划数据集,同时提供了评估SUP任务的指标。
在nuScenes数据集和SUP-AD数据集上进行的广泛实验表明,在复杂的驾驶场景中,DriveVLM和DriveVLM-Dual具有卓越的性能。
2 Related Work
视觉-语言模型(VLMs)。近年来,关于大型视觉-语言模型(VLMs)的研究急剧增加,如MiniGPT-4、LLaVA、Qwen-VL以及其他工作所示。这些模型将预训练的视觉编码器与大型语言模型相结合,使得大型语言模型能够处理许多涉及图像输入的任务。一般来说,这些方法通过Q-former或线性映射将图像特征与语言模型的输入嵌入空间对齐。在训练过程中的一个关键步骤是使用包含图像和文本的教学数据对模型进行监督微调,从而提高视觉语言模型的总体性能。VLMs可以应用于各种场景,尤其是在机器人学中。具体来说,给定指令、输入图像和机器人状态,视觉语言模型输出相应的动作,这些动作可以是高级指令或低级机器人动作。DriveVLM专注于利用VLMs协助自动驾驶,从而建立了一个新框架。与作者的工作同时,DriveGPT4也分享了类似的动机。基于学习的规划。自Pomerleau的开创性贡献以来,将学习框架集成到运动规划中一直是研究的热点领域。一项有前景的研究线路是强化学习和模仿学习。这些方法可以学习一个端到端的规划策略,直接将原始感官输入映射到控制动作。它们特别适合于高维状态和动作空间,这是运动规划中的常见挑战。然而,直接从传感器数据生成控制输出在鲁棒性和安全性保证方面提出了重大挑战。几项工作通过明确构建来自基于学习模块的密集成本图,提高了可解释性。尽管密集成本图有效地整合了对交通代理未来移动和环境因素的预测,但它们的性能在很大程度上取决于通过人类经验和轨迹采样分布量身定制的成本。最近的一个趋势是端到端地训练多个模块。这些方法提高了整体性能,但依赖于从未来轨迹预测损失中进行反向传播,这在一个不太容易解释的决策过程中。DriveVLM通过利用视觉-语言模型的泛化和推理能力,解决了其他方法通常难以应对的长尾驾驶场景的复杂性。此外,用户可以通过视觉-语言模型提供的直观语言界面轻松地与DriveVLM互动,增强了可解释性。驾驶标注数据集。最近的工作认为语言标注是将人类知识连接到驾驶目标的重要媒介,有助于通知决策和行动。支持这一趋势,一些努力增强了主流驾驶场景数据集。Refer-KITTI在KITTI数据集中的目标标注了可以用语言提示引用目标集合的语言提示。Talk2Car,NuPrompt和nuScenes-QA为nuScenes数据集引入了自由形式的标题和QA标注。然而,这些工作丰富了以感知为重点且通常包含简单交通场景的数据集。与增强现有数据集不同,BDD-X和BDD-OIA提供了包含对 ego 车辆行动的自然语言解释的数据集。HAD使用自然语言命令从驾驶员的视线数据生成显著图。Rank2Tell和DRAMA为交通场景标注语言解释和风险定位。虽然这些数据集提供了适合利用自然语言的场景,但缺乏足够的数据来捕捉对于识别可能导致自动驾驶系统安全问题的关键场景。SUP-AD数据集则有意收集了多种具有挑战性的长尾场景,这对于处理复杂的场景理解和规划至关重要。3 DriveVLM
Overview
DriveVLM的整体流程如图1所示。一系列图像被大型视觉语言模型(VLM)处理,以执行特定的链式思维(CoT)推理,得出驾驶规划结果。这个大型VLM包括一个视觉编码器和一个大型语言模型(LLM)。- 首先,视觉编码器生成图像标记;
- 然后,基于注意力的提取器将这些标记与LLM对齐;
- 最后,LLM执行CoT推理。
CoT过程可以分为三个模块:场景描述、场景分析和分层规划。
DriveVLM-Dual是一个混合系统,它将DriveVLM与传统自动驾驶 Pipeline 相结合,取两家之长。它将3D感知结果作为语言提示,以增强3D场景理解能力,并使用实时运动规划器进一步细化轨迹航点。作者在第3.5节中详细介绍了其设计与优势。Scene Description
场景描述模块由环境描述和关键目标识别组成。环境描述。驾驶环境,如天气和道路状况,对驾驶难度有不可忽视的影响。因此,首先提示模型输出一个驾驶环境的语言描述,包括几种条件:,每个条件都代表驾驶环境的一个关键方面。- 详细描述了天气状况,从晴朗到下雪。像雨或雾这样的条件由于能见度和路面抓地力的降低,需要更加谨慎的驾驶方式。
- 包含了一天的不同时间,区分了白天和夜间驾驶场景。例如,夜间驾驶,由于能见度降低,需要采取谨慎的驾驶策略。
- 对道路类型进行分类,包括城市、郊区、乡村或高速公路,每种道路类型都呈现出独特的挑战。
- 描述了车道的状况,识别出车辆当前所在的车道以及潜在的操纵替代车道。这些信息对于车道选择和安全变道至关重要。
关键物体识别。除了环境条件外,驾驶场景中的各种物体显著影响驾驶行为。与传统的自动驾驶感知模块不同,后者检测特定范围内的所有物体,作者专注于识别那些最可能影响当前场景的关键物体,这一做法受到人类在驾驶过程中认知过程的启发。每个关键物体,表示为,包含两个属性:**物体类别及其在图像上的近似边界框坐标**。类别和坐标被映射到语言模态中对应的语言,使得能够无缝整合到后续模块中。此外,利用预训练的视觉编码器,DriveVLM能够识别可能逃避典型3D目标检测器的长尾关键物体,例如道路碎片或非同寻常的动物。Scene Analysis
在传统的自动驾驶流程中,预测模块通常专注于预测物体的未来轨迹。高级视觉语言模型的涌现为作者提供了对当前场景进行更全面分析的能力。关键物体分析。 在识别出关键物体后,作者分析它们的特性以及对 ego 车辆(注:指代自身车辆)的潜在影响。特性包含一个关键物体的三个层面:静态属性 ,运动状态 ,以及特定行为 。- 静态属性 描述物体的固有属性,比如路旁广告牌的视觉线索或卡车的超大货物,这些属性对于提前预防及规避潜在危险至关重要。
- 运动状态 描述物体在一段时间内的动态,包括位置、方向和动作——这些特性对于预测物体的未来轨迹以及与 ego 车辆的潜在交互至关重要。
- 特定行为 指的是物体的特殊动作或手势,这些行为可以直接影响 ego 车辆的下一个驾驶决策。例如,交通警察的手势在此情境下至关重要,因为它们可以覆盖常规交通规则,并且需要自动驾驶系统作出相应的反应。
作者不需要模型对所有物体分析这三个特性(,,)。实际上,对于一个关键物体,通常只适用一个或两个特性。在分析这些特性后,DriveVLM接着预测每个关键物体对 ego 车辆的潜在影响 。例如,路边的一个醉酒行人可能会突然走上道路,阻挡去路。与传统 Pipeline 中轨迹 Level 的预测相比,对关键物体潜在影响的分析对于系统适应现实世界和长尾驾驶场景的适应性至关重要。场景级摘要 . 场景级分析将所有关键物体与环境的描述综合在一起。这个摘要为场景提供了全面的理解,并将以下规划模块相连接。Hierarchical Planning
作者将场景描述和场景分析整合起来,形成了驾驶场景的概要。该概要进一步与路线、自身姿态和速度结合,形成了规划提示。最后,DriveVLM分三个阶段逐步生成驾驶计划:元动作、决策描述和轨迹航点。元动作 . 元动作,表示为 ,代表驾驶策略的一个短期决策。这些动作分为17类,包括但不限于加速、减速、左转、变道、小幅度位置调整和等待。为了规划本车在未来一定时间内的行驶操作,作者生成一系列元动作。在这个序列中,每个元动作都至关重要,它们累积贡献于场景中车辆的战略导航。决策描述 . 决策描述 阐述了自动驾驶车辆应采用的更细粒度的驾驶策略。它包含三个元素:动作 ,主体 ,以及持续时间 。动作涉及元动作,如“转弯”、“等待”或“加速”。主体指的是互动的物体,例如行人、交通信号或特定的车道。持续时间表示动作的时间方面,指明动作应执行多久或何时开始。一个决策描述的例子是:“等待()行人()过街,然后()开始加速()并并入右侧车道()。”这种结构化的决策描述为自动驾驶系统提供了清晰、简洁且可操作性的指令。轨迹航点 W。在建立决策描述 之后,作者的下一个阶段涉及生成相应的轨迹航点。这些航点,表示为 ,,描述了车辆在预定的未来一段时间内以预定的时间间隔 的路径。作者将这些数值航点映射成语言标记,以进行自回归生成。通过这种方式,DriveVLM 实现了其语言处理模块与空间导航的无缝集成。轨迹航点是元动作和决策描述的空间表现,可以直接输入到后续的控制模块中。DriveVLM-Dual
尽管视觉语言模型(VLMs)在识别长尾目标和理解复杂场景方面颇为熟练,但它们通常在精确理解物体的空间位置和详细运动状态方面存在困难。这一缺陷在之前的研究和作者的初步研究中都有所提及,构成了一个重大挑战。更糟糕的是,VLMs巨大的模型尺寸导致了高延迟,阻碍了它们在自动驾驶中对实时响应的能力。为了解决这些挑战,作者提出了DriveVLM-Dual,这是DriveVLM与传统自动驾驶系统之间的协作。这种新颖的方法包含两个关键策略:对关键物体分析融合3D感知,以及高频轨迹细化。整合3D感知。 将由3D检测器检测到的目标表示为 ,其中 表示第 个边界框, 表示其类别。这些3D边界框随后被反投影到2D图像上,以导出相应的2D边界框 。作者在这些2D边界框 和 之间进行IoU匹配。 是之前确定的关键目标 的边界框。作者将满足一定近似IoU阈值且属于同一类别的关键目标分类为匹配的关键目标 ,定义如下: 那些在3D数据中没有对应匹配的关键物体被记为 。在场景分析模块中,对于,将相应3D物体的中心坐标、方向和历史轨迹作为模型的语言提示,辅助物体分析。相反,对于,分析仅依赖于从图像中衍生出的语言标记。这种将3D感知结果作为提示的新颖用法使得DriveVLM-Dual能够更准确地理解关键物体的位置和动作,从而提升整体性能。高频轨迹细化。 与传统规划器相比,由于DriveVLM具有视觉语言模型(VLMs)固有的巨大参数量,在生成轨迹时速度显著较慢。为了实现实时的高频推理能力,作者将它与传统的规划器结合形成了一个慢-快双系统,将DriveVLM的高级能力与传统的规划方法的效率相结合。在从DriveVLM以低频获得一个轨迹,记作之后,作者将其作为一个经典规划器的高频轨迹细化的参考轨迹。在基于优化的规划器的情况下,作为优化求解器的初始解。对于基于神经网络的规划器,与额外的输入特征结合使用,然后解码成一个新的规划轨迹,记作。这一过程的公式描述如下:这个细化步骤确保了由DriveVLM-Dual生成的轨迹具有更高的轨迹质量,也满足实时性要求。4 Task and Dataset
为了充分利用DriveVLM和DriveVLM-Dual在处理复杂和长尾驾驶场景中的潜力,作者正式定义了一个名为“规划场景理解”的任务(第4.1节),以及一组评估指标(第4.2节)。此外,作者还提出了一种数据挖掘和标注协议,以策划一个场景理解和规划数据集(第4.3节)。Task Definition
场景理解规划任务的定义如下。输入数据包括来自周围摄像头的多视角视频集,以及可选的来自感知模块的3D感知结果。输出包括以下几部分:场景描述: 由天气条件、时间、路况以及车道情况组成。场景分析:包括目标 Level 的分析以及场景 Level 的总结。元动作:代表任务级操作的一系列动作。决策描述: 对驾驶决策的详细说明。轨迹航点:这些航点定义了自车计划行驶的轨迹轮廓。Evaluation Metrics
为了全面评估一个模型的性能,作者关心其对驾驶场景的解释以及所做的决策。因此,作者的评估包含两个方面:场景描述/分析评估和元动作评估。场景描述/分析评估。鉴于人类在场景描述中的评估具有主观性,作者采用了一种结构化的方法,使用预训练的大型语言模型(LLM)。这种方法包括将生成的场景描述与人工标注的基准真实描述进行比较。基准真实描述包含了结构化数据,如环境条件、导航、车道信息以及与特定目标、动词及其影响相关的关键事件。大型语言模型根据生成描述与基准真实的一致性来评估并评分。元动作评估。 元动作是一组预定义的决策选项。驾驶决策被表述为一连串的元动作。作者的评估方法采用动态规划算法将模型生成的序列与手动标注的真实序列进行比较。评估还应该权衡各种元动作的相对重要性,将一些指定为对序列整体语境影响较低的“保守动作”。为了提高鲁棒性,作者首先使用LLM生成与真实序列在语义上等效的替代序列以增强鲁棒性。与这些替代序列相似度最高的序列计算出最终的驾驶决策得分。关于所提出指标的更多细节,请参见附录B。Dataset Construction
作者提出了一个全面的数据挖掘和标注流程,如图3所示,用于构建一个针对所 Proposal 任务的Scene Understanding for Planning (SUP-AD) 数据集。具体来说,作者从大型数据库中进行长尾目标挖掘和挑战性场景挖掘以收集样本,然后从每个样本中选择一个关键帧,并进行场景标注。数据集的统计数据在附录A中提供。
长尾目标挖掘。 根据现实世界中道路目标的分布,作者首先定义了一系列长尾目标类别,例如异形车辆、道路碎片和横穿马路的动物。接下来,作者使用基于CLIP的搜索引擎挖掘这些长尾场景,该搜索引擎能够使用语言 Query 从大量的日志中挖掘驾驶数据。在此之后,作者进行人工检查,以筛选出与指定类别不一致的场景。挑战性场景挖掘。 除了长尾物体外,作者还对具有挑战性的驾驶场景感兴趣,在这些场景中,需要根据不断变化的驾驶条件调整自车(ego vehicle)的驾驶策略。这些场景是根据记录的驾驶操作变化进行挖掘的。关键帧选择。 每个场景都是一个视频片段,识别出需要标注的“关键帧”至关重要。在大多数具有挑战性的场景中,关键帧是在需要显著改变速度或方向之前的时刻。根据综合测试,作者选择在实际操作前0.5秒到1秒的关键帧,以确保决策的最佳反应时间。对于不涉及驾驶行为变化的场景,作者选择与当前驾驶情景相关的帧作为关键帧。场景标注。 作者雇佣一组标注员进行场景标注,包括场景描述、场景分析和规划,但不包括航点,因为航点可以自动从车辆的IMU记录中标注。为了便于场景标注,作者开发了一个视频标注工具,具备以下功能:- 标注员可以前后拖动进度条,重放视频的任何部分;
- 在标注关键帧时,标注员可以在图像上绘制边界框,并附上语言描述;
- 在标注驾驶计划时,标注员可以从一系列动作和决策选项中进行选择。每个标注都由3个标注员仔细验证其准确性和一致性,确保为模型训练提供一个可靠的数据集。
图2展示了一个带有详细标注的样本场景。
5 Experiments
Settings
5.1.1 Datasets
SUP-AD 数据集。 SUP-AD 数据集是通过作者提出的数据挖掘和标注流程构建的。它被划分为训练、验证和测试集,比例分别为 。作者在训练集上训练模型,并使用作者提出的环境描述和元动作度量标准来评估模型在验证/测试集上的性能。nuScenes 数据集。 nuScenes数据集是一个大规模的城市驾驶场景数据集,包含1000个场景,每个场景持续大约20秒。关键帧在整个数据集中以2Hz的频率均匀标注。遵循之前的工作,作者采用位移误差(DE)和碰撞率(CR)作为指标来评估模型在验证集上的性能。5.1.2 Base Model
作者采用Qwen-VL 作为作者默认的大规模视觉-语言模型,它在诸如问答、视觉定位和文本识别等任务中表现出色的性能。它总共包含96亿个参数,包括视觉编码器(19亿)、视觉-语言 Adapter (0.8亿)以及大型语言模型(Qwen,77亿)。在由视觉编码器进行编码之前,图像会被调整至 的分辨率。在训练期间,作者会随机选择当前时间 、、 和 的一系列图像作为输入。所选择的图像确保包含当前时间帧,并按照升序的时间顺序排列。Main Results
SUP-AD. 作者展示了DriveVLM与几种大型视觉-语言模型的性能比较,并与GPT-4V进行了对比,如表1所示。
DriveVLM采用Qwen-VL作为其基础架构,由于在问题回答和灵活互动方面的强大能力,相较于其他开源VLMs取得了最佳性能。尽管GPT-4V在视觉和语言处理方面表现出强大的能力,但其无法进行微调,仅限于上下文学习,这通常会导致在场景描述任务中生成无关信息。在作者评估的指标下,这些额外信息经常被分类为虚构,因此导致得分降低。nuScenes数据集。 如表2所示,当与VAD协同工作时,DriveVLM-Dual在nuScenes规划任务上取得了最先进的表现。这表明DriveVLM,虽然是为理解复杂场景而定制的,但在普通场景中也同样表现出色。
请注意,DriveVLM-Dual在UniAD的基础上有显著提升:在平均规划位移误差上减少了0.64米,并将碰撞率降低了51%。Ablation Study
模型设计。 为了更好地理解在DriveVLM中作者设计的模块的重要性,作者对不同模块组合进行了消融研究,如表3所示。
包含关键目标分析使DriveVLM能够识别并优先处理驾驶环境中的重要元素,提高了决策的准确性,从而实现了更安全的导航。整合3D感知数据,DriveVLM对周围环境有了更细致的理解,这对于捕捉运动动态并改善轨迹预测至关重要。推理速度。 DriveVLM 和 DriveVLM-Dual 在 NVIDIA Orin 平台上的推理速度如表4所示。由于 LLM 的参数量巨大,DriveVLM 的推理速度比类似于 VAD 的传统自动驾驶方法慢一个数量级,这阻碍了它在车载环境中的运行。然而,在与传统自动驾驶 Pipeline 以慢速-快速协作模式配合后,整体延迟取决于快速分支的速度,使得 DriveVLM-Dual 成为了现实世界部署的理想解决方案。Qualitative Results
DriveVLM的定性结果展示在图4中。在图4(a)中,DriveVLM准确预测了当前场景状况,并对向作者靠近的骑车人做出了周到的规划决策。在图4(b)中,DriveVLM有效理解了前方交警的手势,示意作者的车辆前进,并考虑了右侧骑三轮车的人,从而做出了合理的驾驶决策。
这些定性结果展示了DriveVLM在理解复杂场景和制定合适驾驶计划方面的卓越能力。DriveVLM的更多可视化输出展示在附录C中。6 Conclusion
总之,作者介绍了DriveVLM和DriveVLM-Dual。DriveVLM利用了VLMs,在解读复杂驾驶环境方面取得了显著进步。DriveVLM-Dual通过协同现有的3D感知和规划方法,进一步增强了这些能力,有效地解决了VLMs中固有的空间推理和计算挑战。此外,作者为自动驾驶定义了场景理解与规划任务,以及评估指标和数据集构建协议。通过严格的评估,DriveVLM和DriveVLM-Dual已经证明它们在自动驾驶方面超越了现有最先进的方法,尤其是在处理复杂和动态场景方面。作者相信这项研究为未来安全且可解释的自动驾驶车辆的发展提供了路线图。Appendix A SUP-AD Dataset
Meta-actions
元动作统计。作者使用元动作序列来正式表示驾驶策略。元动作被分为17个类别。作者在图5中展示了每个元动作在元动作序列中作为第一/第二/第三位置的出现分布。这表明在SUP-AD数据集中,元动作是相当多样的。作者还展示了每场场景中元动作长度的分布,如图6所示。大多数场景包含两个或三个元动作,而少数具有复杂驾驶策略的场景包含四个或更多的元动作。元动作标注。每个驾驶场景的元动作序列是根据未来帧中的实际驾驶策略手动标注的。这些元动作旨在包含完整的驾驶策略,并结构化以与自车未来的轨迹保持一致。它们可以主要分为三类:速度控制动作。 从自我状态数据中的加速和制动信号中可以辨别出这些动作,这些动作包括 加速、减速、快速减速、缓慢直行、匀速直行、停止、等待 和 倒车。转向动作。 这些动作是由方向盘信号推理出来的,包括 向左转,向右转 和 掉头。车道控制行为。这些行为包括车道选择决策,源自方向盘信号与地图数据或感知数据的结合。它们包括向左变道、向右变道、轻微向左调整和轻微向右调整。Scenario Categories
如图7所示,SUP-AD数据集包含了多种驾驶场景,涵盖了超过40个类别。下面为某些场景类别的详细解释:
AEB 数据:自动紧急制动(AEB)数据。道路施工:前方有一个临时作业区,带有警告标志、障碍物和施工设备。近距离切入:另一辆车突然侵入自我车辆的行车道。环岛:一种交通交叉口,车辆在其中连续绕圈行驶。动物穿越道路:动物在 ego 车辆前方穿越道路。制动:制动是由本车的人类驾驶员按下的。交通警察官员:管理和指导交通的交通警察官员。阻挡交通信号灯:一个庞大的车辆遮挡了交通信号的视线。切入其他车辆:侵入前方其他车辆的车道。坡道:连接高速公路主线与支线的弯曲道路。路上的碎片:带有不同种类碎片的道路。狭窄道路:需要谨慎导航的狭窄道路。突然出现的行人:行人突然出现在 ego 车辆前方,需要减速或刹车。公交车上的海报:带有海报的公交车,可能会干扰感知系统。合并进入高速:从低速道路驶入高速道路,需要加速。屏障门:可以升起以阻碍道路的屏障门。倒树:路上的倒树,需要谨慎导航以避免潜在的危险。复杂环境:需要谨慎导航的复杂驾驶环境。混合交通:一个拥堵的场景,其中汽车、行人和自行车出现在相同或相邻的道路上。穿越河流:通过驾车过桥来穿越河流。屏幕:仅有一侧有屏幕的道路,这可能干扰感知系统。牛羊群:一条乡村道路上有成群的牛羊,需要小心驾驶以避免给这些动物带来困扰。易受伤害的道路使用者:在使用道路时更容易受到伤害的道路用户,例如行人、自行车骑行者和摩托车手。带有砾石的道路:一条表面散布着砾石的尘土道路。剩余的场景类别包括:摩托车和三轮车,交叉路口,携带雨伞的人,载有汽车的车辆,载有树枝的车辆,带有管子的车辆,婴儿车,儿童,隧道,下坡道,人行道摊位,雨天,穿越铁轨,未受保护的U型转弯,降雪,大型车辆侵占,落叶,烟花,喷水器,坑洞,翻倒的摩托车,自燃和火灾,风筝,农业机械。Appendix B Evaluation Method
自动驾驶系统准确解读驾驶场景并做出合理、适当决策的能力至关重要。正如本文所展示的,对自主驾驶中视觉语言模型(VLMs)的评估主要集中在两个主要组成部分:场景描述/分析的评估和元动作的评估。Scene Description/Analysis Evaluation
在场景描述/分析评估方面,解释和阐述驾驶场景的过程具有固有的主观性,因为有多种有效的方式来文本化表达类似的描述,这使得使用固定指标难以有效评估场景描述。为了克服这一挑战,作者利用GPT-4 来评估由模型生成的场景描述与手动标注的真相之间的相似性。最初,作者提示GPT-4从每个场景描述中提取独立的信息片段。随后,作者根据每个提取信息片段的匹配状态对结果进行评分和汇总。真实场景描述标签包括环境描述和事件摘要。环境条件描述包括天气条件、时间条件、道路环境和车道状况。事件摘要则是关键物体的特征及其影响。作者使用GPT-4从环境描述和事件摘要中提取独特的关键信息。提取的信息随后被比较并量化。每对匹配的信息被赋予一个分数,该分数基于匹配程度来估计,是完全匹配、部分匹配还是无匹配。出现虚构信息的实例将会受到惩罚,从而降低整体分数。这些分数的总和构成了场景描述得分。 如表5所示,用于评估场景描述的GPT-4提示语经过精心设计。起初,采用角色提示来建立一个作为智能且逻辑评估者的身份,拥有对适当驾驶风格的全面理解。接下来是指定输入格式,这告知GPT-4其任务涉及将输出描述与真实描述进行比较。这种比较是基于从两个描述中提取和分析关键信息。最后,提示语概述了评分的标准以及评估输出的格式,确保评估过程具有结构化和系统化的方法。Appendix C Qualitative Results
为了进一步展示DriveVLM的有效性和鲁棒性,作者在图14、15、16、17和18中提供了额外的可视化结果。在图14中,DriveVLM识别出前方缓慢移动的车辆,并提供了变道超车的驾驶决策。
在图15和16中,DriveVLM准确识别了非常规车辆的类型和一个倒下的树木,这展示了其在识别长尾目标方面的能力。
在图17中,交通警察用手势信号指示前进的动作已经被DriveVLM准确捕捉。
在图18中,DriveVLM成功识别了环岛的道路环境,并生成了一个带曲线路径的规划轨迹。
给定一个预定义的动作标记集合和一个参考驾驶动作的序列,找出所有具有相似意义但选择稍微不同的动作标记的替代动作序列,这些动作标记来自预定义的动作标记集。预定义的动作标记:[加速,减速,快速加速,快速减速,缓慢直行,以恒定速度直行,左转,右转,向左变道,向右变道,轻微向左调整,轻微向右调整,停止,等待,掉头,倒车]。例如,如果参考的驾驶动作序列是:减速 -> 稍微向右调整 -> 以恒定速度直行,具有类似含义的其他动作序列可能是:减速 -> 向右变道 -> 以恒定速度直行;慢速迅速降低 -> 稍微向右偏移 -> 以恒定速度直行;减速 -> 向右变更车道 -> 缓慢直行;慢下来 -> 向右轻微调整 -> 缓慢直行。现在的参考动作序列是:减速 -> 稍微向右偏移 -> 以恒定速度直行。那么还有哪些替代的动作序列?Response: 给定参考序列:“减速 -> 稍微向右调整 -> 以恒定速度直行。”基于所提供动作标记,具有相似含义的替代动作序列为:1. 减速 -> 变道至右车道 -> 以恒定速度直行。慢下来迅速 -> 向右轻微调整 -> 以恒定速度直行。放慢速度 -> 向右变道 -> 缓慢直行。减速 -> 稍微向右调整 -> 缓慢直行。你在问题中提供了这个例子。基于标记和上下文,这些确实是最合适的替代序列。来源:StrongerTang-END-
关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯
会务组联系方式 展会咨询13248139830