这项由GigaAI、多伦多大学和香港中文大学多媒体实验室联合开展的研究发表于2026年4月,论文编号为arXiv:2604.01765v1。有兴趣深入了解的读者可以通过该编号查询完整论文内容。

当我们开车时,大脑会同时做两件事:预测前方路况会如何变化,以及决定接下来该往哪个方向行驶。现在,研究团队成功让人工智能也学会了这种"边想象边决策"的能力,开发出了一个名为DriveDreamer-Policy的系统。这个系统就像给自动驾驶汽车装上了一个会做白日梦的大脑,能够在驾驶过程中想象未来几秒钟的路况变化,并基于这些"预见"来制定最佳的行驶路线。

这项研究的突破性在于,它首次将三种不同的AI能力完美融合到了一个系统中。第一种能力是深度感知,就像给汽车装上了立体眼镜,能够准确判断周围物体的距离和位置。第二种能力是视频想象,能够预测接下来几秒钟路面上会发生什么变化,比如其他车辆会如何移动、行人会走向何方。第三种能力是路径规划,能够根据前面两种信息制定出最安全、最合理的行驶方案。

研究团队在业界权威的Navsim测试平台上进行了大规模验证,结果令人惊喜。在包含10万个训练样本和1.2万个测试样本的严格评估中,DriveDreamer-Policy在各项关键指标上都取得了显著突破。特别是在综合驾驶表现评分上,该系统在Navsim v1版本上达到了89.2分,在v2版本上达到了88.7分,超越了此前所有的同类系统。更令人兴奋的是,它生成的未来场景视频质量也大幅提升,视频失真度比之前最好的方法降低了32.36分。

一、从"盲目驾驶"到"预见未来"的技术革命

传统的自动驾驶系统就像一个只会机械反应的司机,看到红灯就停车,看到绿灯就前进,完全不会思考"如果我现在变道会发生什么"或者"前面那个行人可能会突然冲到马路上"。这种被动反应式的驾驶方式在复杂路况下往往显得笨拙,甚至可能错过最佳的行驶时机。

近年来,随着大语言模型技术的成熟,一些研究团队开始尝试让自动驾驶系统具备更强的推理能力。这类系统被称为视觉-语言-行动模型,它们能够理解自然语言指令,比如"请在下个路口左转",并据此调整驾驶行为。然而,这些系统虽然变得更加智能,但仍然缺少一个关键能力:想象力。

与此同时,另一个技术分支专门研究如何让AI系统学会"做梦"。这些被称为世界模型的系统能够根据当前的路况预测未来几秒钟内可能发生的情况,生成逼真的未来场景视频。但问题是,这些系统虽然会想象,却不会根据想象的结果来调整自己的行为,就像一个只会做白日梦但不知道如何行动的人。

DriveDreamer-Policy的创新之处正是将这两种能力结合起来,创造出了一个既会想象又会决策的AI系统。更进一步的是,研究团队意识到,仅仅预测未来的画面还不够,还需要理解三维空间的几何结构。毕竟,自动驾驶本质上是一个在三维物理世界中的导航问题,距离、深度、遮挡关系这些几何信息对安全驾驶至关重要。

二、三位一体的AI大脑架构

DriveDreamer-Policy的核心架构可以比作一个高效的团队合作模式。在这个团队中,有一个总指挥(大语言模型)负责理解环境和指令,还有三个专业助手分别负责不同的任务:深度感知专家、视频想象专家和路径规划专家。

总指挥的工作是处理多方面的输入信息。它需要同时理解来自多个摄像头的实时画面,解读人类给出的自然语言指令(比如"保持直行"或"准备右转"),以及分析当前的行驶状态。这个总指挥使用的是Qwen3-VL-2B大语言模型,具备强大的多模态理解能力。

深度感知专家的任务是构建周围环境的三维地图。它不仅要识别出哪里有车辆、行人、建筑物,还要准确判断它们距离自车有多远,是否会对行驶路线构成障碍。这个专家使用扩散变换器技术,能够生成高精度的深度图像,为后续的决策提供准确的几何信息基础。

视频想象专家则负责预测未来场景的演变。基于当前的路况和可能的行驶动作,它能够生成未来几秒钟内路面可能出现的各种情况。比如,如果现在选择变道,其他车辆会如何反应;如果保持当前车道,前方的交通状况会如何发展。这种预见能力让系统能够提前做好准备,而不是被动地对突发情况做出反应。

路径规划专家最后登场,它需要综合前面两位专家提供的信息,制定出最优的行驶策略。它不仅要考虑几何约束(比如不能撞到障碍物),还要考虑动态变化(比如其他车辆的预期行为),最终输出一条既安全又高效的行驶轨迹。

这三个专家之间的信息流动是有序的:深度信息首先生成,为视频想象提供几何基础;视频想象的结果再传递给路径规划专家,为最终决策提供时间维度的信息。这种分层递进的设计确保了信息的充分利用和决策的合理性。

三、让AI学会"立体思考"的深度感知技术

在现实世界的驾驶过程中,距离判断是生死攸关的技能。一个有经验的司机能够凭直觉判断出前车距离自己多少米,旁边的行人是否会突然冲到马路上,这些判断都基于对三维空间的准确感知。DriveDreamer-Policy的深度感知模块就是要让AI也具备这种"立体视觉"。

传统的计算机视觉系统往往只关注图像的二维信息,就像看一张平面照片一样,很难准确判断物体的真实距离。而DriveDreamer-Policy采用了一种全新的方法,它不是简单地从图像中计算深度,而是用生成式AI的方法来"想象"深度信息。

这个过程就像一个艺术家在画立体画。艺术家不仅要观察物体的表面颜色和纹理,还要理解物体在三维空间中的位置关系,然后用画笔将这种立体感表现在平面上。DriveDreamer-Policy的深度生成器也是类似的工作原理,它接收来自多个摄像头的图像信息,然后结合大语言模型提供的场景理解,生成出详细的深度图。

这种生成式的方法有一个重要优势:它能够处理单目相机(只有一个摄像头)难以解决的模糊情况。比如,当看到一个人形轮廓时,传统方法很难确定这是一个真人还是一个广告牌,因为仅从二维图像很难判断。但生成式方法能够结合上下文信息,比如这个人形轮廓是否在人行道上、周围是否有其他行人等,从而做出更准确的判断。

深度信息不仅用于避免碰撞,还为后续的视频想象提供了重要支撑。当系统要预测未来场景时,准确的深度信息能够帮助它理解哪些物体会被其他物体遮挡,哪些区域是空旷的可行驶空间。这种几何约束确保了想象出来的未来场景在物理上是合理的,而不是天马行空的幻想。

四、预见未来的视频想象技术

如果说深度感知让AI具备了"立体视觉",那么视频想象技术就是让AI拥有了"时间眼镜",能够看到还未发生的事情。这种能力对自动驾驶来说意义重大,因为很多交通事故都是因为司机没有预见到即将发生的危险情况。

DriveDreamer-Policy的视频想象模块采用了先进的文本-图像-视频扩散变换器技术。这个技术的工作原理可以比作一个经验丰富的交通分析师。当这个分析师看到当前的路况快照时,他能够基于对交通规律的深度理解,推演出接下来几秒钟内各种交通参与者可能的行为模式。

这个想象过程并不是随意的猜测,而是基于大量真实交通数据训练出来的规律认知。系统学习了数以万计的真实驾驶场景,了解了各种交通情况下的典型演变模式。比如,当绿灯亮起时,行人通常会如何穿过斑马线;当有车辆打转向灯时,其他车辆会如何反应;在拥堵路段,车流会以什么样的模式缓慢前进。

视频想象的一个关键创新在于它充分利用了深度信息的指导。传统的视频生成技术往往只关注表面的视觉效果,容易产生一些看起来漂亮但在物理上不合理的结果。比如,可能会生成一辆车"穿墙而过"的场景,或者让一个行人"飘浮"在半空中。

而DriveDreamer-Policy通过将深度信息作为几何约束,确保生成的未来视频在三维空间上是合理的。这就像给想象力加上了物理学的约束,让AI的"白日梦"更加贴近现实。当系统预测一辆车会向左变道时,它会确保这辆车遵循合理的运动轨迹,不会突然瞬移到另一个车道。

这种基于几何约束的视频想象不仅提高了预测的准确性,也为最终的路径规划提供了更可靠的参考信息。路径规划专家可以基于这些逼真的未来场景预测,评估不同驾驶策略的安全性和效率,从而做出更明智的决策。

五、智慧决策的路径规划技术

在获得了准确的深度信息和可靠的未来场景预测后,DriveDreamer-Policy需要将这些信息转化为具体的驾驶行为。这就是路径规划专家的职责,它需要在复杂的约束条件下找到最优的行驶策略。

路径规划的过程可以比作一个象棋高手在思考下一步棋。高手不仅要考虑当前棋盘的局势,还要预见对手可能的应对策略,然后选择一个既能达成自己目标又能有效应对各种变化的最佳走法。同样,DriveDreamer-Policy的路径规划专家需要综合考虑当前路况、预测的未来变化、安全约束、效率要求等多个因素。

这个专家采用了扩散变换器技术来生成行驶轨迹。这种方法的优势在于它能够处理路径规划中的不确定性。在真实的交通环境中,很少有绝对标准的"正确答案",往往存在多种可行的驾驶策略。传统的规则驱动方法可能会过于僵化,而DriveDreamer-Policy能够生成多样化的候选路径,然后选择其中最符合当前情况的方案。

路径规划专家的另一个重要特点是它能够充分利用前面两个专家提供的信息。来自深度感知专家的几何信息帮助它理解空间约束,比如哪些区域是不可通行的,哪些地方存在碰撞风险。来自视频想象专家的时间信息则帮助它理解动态约束,比如其他车辆的预期行为,未来几秒内交通状况的可能变化。

为了确保生成的轨迹在数学上是连续和平滑的,系统采用了一种特殊的轨迹表示方法。每个轨迹点不仅包含位置坐标,还包含方向信息,并且用连续的数学函数来表示转向角度,避免了角度突变可能带来的不稳定性。这种设计让生成的行驶轨迹更加符合真实车辆的物理特性。

六、协调统一的训练策略

要让这三个AI专家能够默契配合,就需要一套精心设计的训练策略。DriveDreamer-Policy采用了端到端的联合训练方法,让三个专家在同一个学习过程中逐步磨合,最终形成高效的团队协作。

这个训练过程可以比作培养一支管弦乐队。每个乐手都需要掌握自己的演奏技巧,但更重要的是要学会与其他乐手协调配合,共同演奏出和谐的音乐。在DriveDreamer-Policy的训练中,每个专家模块都有自己的专业任务,但它们需要在统一的目标下协同优化。

训练使用的数据来自Navsim基准测试集,包含了大量真实世界的驾驶场景。每个训练样本都包含多视角的图像序列、对应的深度信息、未来场景的演变以及人类专家驾驶员的行为轨迹。这些丰富的多模态数据为系统提供了全面的学习素材。

训练目标函数巧妙地平衡了三个不同任务的重要性。深度预测任务的权重设置较低,因为深度信息主要起到辅助作用,不需要过度拟合。视频生成和轨迹规划任务的权重相等,体现了它们在整体系统中的同等重要性。这种权重设计确保了各个模块能够均衡发展,避免某个任务过度主导整个训练过程。

特别值得注意的是,系统的深度标签来自最先进的深度基础模型Depth Anything 3,而不是传统的激光雷达或立体视觉方法。这种选择不仅降低了数据获取的成本,还保证了深度信息的一致性和准确性。

训练过程采用了单阶段策略,所有模块同时进行优化。这种方法虽然在计算上更加复杂,但能够确保各个模块之间的紧密协调。经过10万个训练步骤的优化,系统在8张NVIDIA H20 GPU上完成了完整的训练过程。

七、突破性的实验验证结果

为了全面验证DriveDreamer-Policy的性能,研究团队在业界权威的Navsim基准测试平台上进行了详尽的对比实验。Navsim是基于真实世界驾驶日志构建的评估系统,包含了复杂多样的交通场景,被广泛认为是自动驾驶系统性能评估的金标准。

在规划性能的对比中,DriveDreamer-Policy展现出了全面的优势。在Navsim v1版本的测试中,系统达到了89.2分的综合驾驶评分,超越了所有参与对比的基准方法。这个分数不仅在世界模型驱动的方法中排名第一,甚至超过了许多专门设计的端到端驾驶系统。

更详细地分析各项子指标,DriveDreamer-Policy在关键的安全性指标上表现尤为突出。在道路区域遵守性方面达到了97.1分,意味着系统几乎总能保持在合法的行驶区域内。在避免碰撞方面得到了98.4分,显示出了极高的安全性。在行驶效率方面也达到了83.5分,说明系统不仅安全,还能保持合理的行驶速度。

在更加严格的Navsim v2版本测试中,系统同样保持了领先地位,达到了88.7分的扩展综合评分。这个版本的测试增加了方向遵循、交通信号灯遵守、车道保持等更加细致的评估维度,DriveDreamer-Policy在这些方面的得分分别达到了99.5、99.9、97.6分,展现出了全面而均衡的驾驶能力。

在世界生成质量的评估中,系统同样取得了显著突破。与此前最好的方法PWM相比,DriveDreamer-Policy在视频生成的关键指标FVD(Fréchet视频距离)上实现了32.36分的大幅改进,从85.95分降低到53.59分。这意味着生成的未来场景视频与真实情况更加接近,为规划决策提供了更可靠的参考。

在深度估计精度方面,系统也超越了基础模型PPD的表现。绝对相对误差从18.5%降低到8.1%,准确率指标在各个阈值下都有显著提升。这种改进主要得益于大语言模型提供的全局语义信息,帮助深度生成器更好地理解场景结构。

八、深入的消融实验分析

为了深入理解系统各个组件的贡献,研究团队进行了一系列精心设计的消融实验。这些实验就像拆解一台精密机器来研究每个零件的作用,帮助我们理解为什么DriveDreamer-Policy能够取得如此出色的性能。

首先,研究团队验证了世界建模对规划性能的影响。他们对比了四种不同的配置:纯动作规划(不使用任何世界建模)、深度加动作、视频加动作,以及完整的深度加视频加动作。实验结果清晰地展现了世界建模的价值。纯动作方法只能达到88.0分,而加入深度信息后提升到88.5分,加入视频信息后进一步提升到88.9分,完整系统则达到了89.2分的最佳性能。

这个结果告诉我们一个重要的道理:在复杂的驾驶任务中,仅仅依靠当前观察来做决策是不够的,需要对环境有更深层的理解和前瞻性的预测。深度信息帮助系统理解空间结构,视频预测帮助系统理解时间演变,两者结合才能实现最优的驾驶性能。

第二个重要发现是深度学习对视频生成的促进作用。当系统同时学习深度和视频生成任务时,视频质量得到了显著改善。FVD分数从65.82分降低到53.59分,PSNR从19.89提升到21.05。这说明几何信息确实为视频想象提供了有效的约束和指导,让生成的未来场景更加符合物理规律。

查询令牌数量的消融实验揭示了另一个有趣的现象。当将查询令牌从较少的配置(32个深度查询+32个视频查询+4个动作查询)增加到标准配置(64个深度查询+64个视频查询+8个动作查询)时,所有任务的性能都有所提升。这表明更多的查询令牌提供了更大的信息存储容量,能够保留更丰富的上下文信息用于生成和规划。

特别值得关注的是,研究团队还通过可视化分析展示了不同组件配置对实际驾驶行为的影响。在一些关键场景中,比如需要避免潜在碰撞风险的情况下,包含世界建模的版本能够提前采取更安全的行驶策略,保持更大的安全距离。在需要纠正初始错误决策的情况下,世界建模帮助系统更早地发现问题并进行调整。

九、技术创新的深层意义

DriveDreamer-Policy的成功不仅仅是一个技术指标的突破,更代表了自动驾驶技术发展的一个重要方向转变。传统的自动驾驶系统往往将感知、预测和规划作为相互独立的模块,每个模块都有自己的优化目标和评估标准。这种模块化设计虽然便于开发和调试,但可能导致整体性能的次优化。

DriveDreamer-Policy提出的统一建模方法打破了这种传统界限。通过让同一个AI系统同时学习几何理解、时间预测和行为规划,它实现了更深层次的信息整合和协调优化。这种方法的核心哲学是:真正智能的驾驶不应该是分离的感知-决策过程,而应该是统一的理解-想象-行动循环。

几何约束的引入是另一个重要创新点。在之前的世界模型研究中,研究者们往往专注于生成视觉上逼真的图像或视频,但可能忽略了物理世界的几何一致性。DriveDreamer-Policy通过显式建模深度信息,确保了生成的未来场景在三维空间上是合理的。这不仅提高了预测的准确性,也为规划算法提供了更可靠的几何约束。

从计算架构的角度来看,DriveDreamer-Policy展示了大语言模型在多模态任务中的强大潜力。通过使用LLM作为统一的特征提取和推理引擎,系统能够有效地整合来自不同传感器的信息,理解自然语言指令,并生成结构化的输出。这种设计为未来更加智能和灵活的自动驾驶系统提供了重要启示。

查询机制的设计也体现了深刻的技术洞察。通过使用固定大小的查询令牌作为不同生成专家之间的接口,系统实现了模块化和可扩展性的平衡。这种设计允许系统根据具体需求灵活地激活不同的功能组合,比如在计算资源受限的情况下只使用规划功能,或者在需要详细仿真的情况下启用完整的世界建模能力。

十、面向未来的技术展望

DriveDreamer-Policy的成功为自动驾驶技术的未来发展开辟了新的可能性。当前的系统虽然已经在标准测试集上取得了优异的性能,但要真正实现大规模部署,还需要在几个关键方向上继续深入研究。

首先是计算效率的进一步优化。虽然系统采用了模块化的设计,允许根据需要选择性地激活不同功能,但完整系统的计算需求仍然相当可观。未来的研究可能需要探索更高效的模型架构,比如采用更轻量级的生成模型,或者开发专门的硬件加速方案。

其次是泛化能力的增强。当前系统主要在Navsim数据集上进行训练和测试,虽然该数据集包含了丰富的驾驶场景,但与真实世界的复杂性相比仍有差距。未来的工作需要验证系统在不同地理环境、天气条件、交通规则下的表现,并开发相应的适应机制。

安全性保障是另一个关键挑战。虽然实验结果显示系统具有良好的安全性能,但生成式AI的不确定性特征意味着需要更加严格的安全验证机制。这可能包括对抗性测试、边界情况分析、失效模式研究等多个方面。

从技术发展的角度来看,DriveDreamer-Policy代表的统一建模方法可能会影响更广泛的AI应用领域。将感知、预测和决策统一在一个端到端系统中的思路,同样适用于机器人导航、无人机控制、游戏AI等其他需要在动态环境中进行智能决策的场景。

长期来看,这种能够"既看见现在又预见未来"的AI系统可能会成为通用人工智能发展的重要组成部分。当AI系统能够准确理解当前环境、可靠预测未来变化、并基于这些信息做出明智决策时,它们就具备了在复杂现实世界中自主行动的基本能力。

说到底,DriveDreamer-Policy不仅仅是一个改进的自动驾驶算法,更是向我们展示了AI系统如何才能真正理解和适应这个复杂多变的物理世界。通过将几何感知、时间想象和行为规划有机结合,它为我们描绘了一幅更加智能、更加安全的未来交通图景。随着这类技术的不断成熟和完善,我们有理由期待一个车祸更少、出行更便捷、交通更高效的美好未来。而这一切的起点,正是让机器学会像人类一样思考:不仅要看见当下,更要预见未来,然后基于这种预见做出最明智的选择。

Q&A

Q1:DriveDreamer-Policy与传统自动驾驶系统有什么区别?

A:传统自动驾驶系统只能被动地对当前路况做出反应,就像只会机械操作的司机。而DriveDreamer-Policy能够主动预测未来几秒钟的路况变化,并基于这些"预见"制定最佳行驶策略,就像有经验的司机会提前判断交通状况一样。它首次将深度感知、视频想象和路径规划三种能力统一在一个系统中。

Q2:DriveDreamer-Policy的深度感知技术是如何工作的?

A:DriveDreamer-Policy的深度感知就像给汽车装上了立体眼镜,能够准确判断周围物体的距离和位置。它不是简单地从图像计算深度,而是用生成式AI来"想象"深度信息,结合大语言模型的场景理解能力,即使在单个摄像头的情况下也能准确判断物体的真实距离和空间关系。

Q3:这个系统在实际测试中表现如何?

A:在权威的Navsim测试平台上,DriveDreamer-Policy取得了突破性成绩。综合驾驶评分在v1版本达到89.2分,v2版本达到88.7分,超越了所有同类方法。特别是在安全性方面表现优异,避免碰撞得分98.4分,道路区域遵守性97.1分。同时生成的未来场景视频质量也大幅提升,比之前最好方法的失真度降低了32.36分。