实现最强自动驾驶街景仿真,百度ECCV 2020视频修复论文解读

视频修复的基本思想是在同一视频的其他帧中观察到帧内缺失的区域或像素,现有的一些研究已经成功应用于不同的场景中,并获得了无缝修复结果。然而,无论流计算是否基于学习,都会受到无纹理区域的影响。此外,视频中的视角变化也会降低光流估计的质量。当我们从一个时间较远的帧中填充缺失的像素时,这些帧流误差会累积起来,从而导致失真的修复结果。此外,基于 GAN 的方法与基于补丁的方法存在相同的问题,即它们在处理图像中的透视变化方面很差。



为了在自动驾驶中获得清晰的街景和逼真的仿真,来自百度的研究者提出了一种自动视频修复算法。该算法可以从视频中删除移动的物体,并在深度 / 点云信息的指导下合成缺失的区域。通过点云信息构建密集的 3D 地图,视频中的帧会通过此 3D 地图产生几何关联。为了填充帧中的目标修补区域,可以通过将像素从其他帧转换到当前帧被遮挡的位置。

此外,这一算法能够通过 3D 点云融合多个视频,从而可以用多个源视频修复目标视频。这样做的目的是解决长时间遮挡问题,即在整个视频中都被遮挡的区域。为了验证方法的有效性,研究在真实的城市道路环境中使用同步的图像和激光雷达数据(包括许多挑战场景,例如长时间遮挡)构建了一个大型的视频修复数据集。实验结果表明,在所有的量化标准中,该方法均优于 SOTA 方法,尤其是 RMSE(均方根误差)降低了约 13%。


图 1:使用 LOAM 将逐帧点云(a)缝合到 3D 地图(b)中。将 3D 地图投影到框架(c)上以生成深度地图。对于目标区域(e)中的每个像素,使用其深度(d)作为指导,从其他帧(f)中采样颜色。最终像素值由 BP 正则化和颜色协调来确定,以确保光度一致性。(g) 显示最终修复结果。 


据我们所知,所有用于视频修复的公共数据集(包括 DAVIS 数据集 [16])并不具有深度,这是我们的算法必须具备的。自动驱动数据集 ApolloScape[12] 确实有摄像机图像和点云,但研究团体并没有采用它来评估视频修复。另外,它的数据集是由专业的测图激光雷达 RIEGL 捕捉的,这不是自动驾驶汽车的典型设置。因此,我们捕获了我们自己的数据集,并与之前在数据集上的工作进行了比较。


研究者使用自动驾驶汽车在城市街道上收集大规模的数据集。这些数据是由各种传感器产生的,包括合赛潘多拉一体式传感器(40 束激光雷达、4 个覆盖 360 度的单声道摄像机、1 个前向彩色摄像机),总共录制了 5 小时长的 RGB 视频。

数据集包括许多具有挑战性的场景,例如背景被交叉口的大型公共汽车、穿梭车或卡车遮挡,以及前面的景色一直挡住了视线。对于那些长时间遮挡的场景,背景在整个视频序列中是缺失的。过程中不止一次捕捉到这些困难的街道 / 十字路口,提供了视频融合修复的数据。


研究者将本文方法与其他三种 SOTA 方法进行了定性和定量的比较,通过随机抽样输入帧上的缺失区域,在本文数据集上重新训练它们的模型,以进行公平的比较。

图 7:从不同的视频剪辑演示了 5 帧,以比较该方法与其他的结果。尽管 Huang[8]得到了平滑的修复结果,但几乎所有的纹理细节都在其结果中缺失。如图所示,Yu[25]和 Xu[24]有时会在目标区域填充完全杂乱的纹理。

图 8 展示了该方法处理源帧和目标帧之间的透视变化的能力。

图 8:第一行中标记出了需要从源图像中修复的目标图像中的遮挡区域。虽然从源图像到目标图像有显著的透视变化,但是该方法可以产生几何和视觉上正确的结果。而其他方法要么无法恢复细节纹理,要么无法将纹理放置在正确的位置。

表 1:与其他方法进行定量比较,最好的结果用粗体突出显示。需要说明的是,“MAE”和 “RMSE” 的值越低越好,“PSNR”和 “SSIM” 的值越高越好。


下图 9 展示了两个视频的融合。第一行展示了一个视频中的四帧,第二行展示了同一个交通路口不同日期捕获的另一个视频的四帧。此处的目标是修复第二个视频中的前景对象。第三行显示输出仅使用了存在大量空白的视频 2。这是因为在整个拍摄过程中,前方车辆一直遮挡着某些区域。很明显,Poisson 图像混合无法填补大的空白区域。第四行展示了 BP 输出,将第一视频融合到第二个,其中空白都不见了。第五行是最终结果。


