ECCV 2020 Spotlight | CFBI：前背景整合的协作式视频目标分割

杨宗鑫 PaperWeekly 2022-03-17

©PaperWeekly · 作者｜杨宗鑫

学校｜悉尼科技大学博士生

研究方向｜视频分割、网络结构设计

半监督视频目标分割

视频目标分割（VOS）是计算机视觉领域的一个基础任务，具有非常多潜在的应用场景，例如增强现实和自动驾驶。而半监督视频目标分割的任务，意图在给出视频第一帧中的目标分割的前提下，分割出剩余的整个视频中的该目标。

半监督视频目标分割的发展有利于促进很多相关任务的提升，比如视频实例分割和交互式视频目标分割。本文的方法就是聚焦于半监督视频目标分割任务上。

论文标题：Collaborative Video Object Segmentation by Foreground-Background Integration

论文链接：https://arxiv.org/abs/2003.08333

代码链接：https://github.com/z-x-yang/CFBI （即将放出，目前处于代码清理阶段）

被轻视的背景信息

较早的半监督 VOS 工作（例如 OnAVOS 和 PReMVOS）会在测试过程中将模型在视频第一帧（具有 groundtruth）上进行微调训练（fine-tuning），这可以显著地提升性能但会大幅降低模型的推断速度。最近的工作都旨在直接提升网络的表征能力，从而避开使用微调训练，以达到更好的推断速度。

STMVOS 引入了一个记忆模块来存储过往帧的信息，但训练的过程中需要使用大量的图片来模拟生成视频序列。FEELVOS 基于第一帧和前一帧的像素特征来匹配当前帧中目标的像素，网络结构简单且快速，但性能上却远不能比拟 STMVOS。

我们观察到之前的工作都把精力放在如何更好的匹配前景目标上，很少有工作关注背景的特征学习。直观上，如果我们能准确地匹配出背景区域中的物体，那么与背景相对的、剩下的就是前景的物体。

此外，视频场景中往往会存在多个相似的目标，例如会议中的多个人、赛车比赛中的多辆车还有农场中的一群动物等等。在这些场景下，如果我们关注其中的某一个物体却忽视其他背景中的相似物体时，我们的预测结果就很容易被这些背景中的物体所影响甚至产生混淆。

这张图便是一个简单的例子，如果我们忽略背景中的羊群，我们的预测就可能出现错误。但如果我们同时对背景中的羊以及前景中的羊都做匹配，那么原先出错的羊就有可能被正确的归类到背景中，从而避免了混淆的发生。

CFBI：前背景整合的协作式视频目标分割

上图便是我们 CFBI 的整体框架，给定参考帧（第一帧）和前一帧的图像和目标分割，我们的框架会预测出当前帧的分割。

融合不同尺度的信息在 VOS 中是必要的，因为视频中往往存在着不同尺度大小的物体。一个好的模型需要在处理不同尺度的物体时都有较好的鲁棒性。为此，我们设计的CFBI的模型部分分为两个大部分，第一部分为像素尺度的匹配（框架图的中部），第二部分为实例尺度的注意力模块（框架图的右侧）。

在这两个大部分上，我们都会同时、同等地处理前景和背景信息。前背景信息的分离是简单且直接的，我们直接根据给定的目标分割将参考帧和前一帧的像素特征分为了前景像素特征和背景像素特征，这两种特征被分别用于匹配前景像素区域和背景像素区域。

基于参考帧的前景和背景匹配：

基于前一帧的前景和背景匹配：

在与参考帧的像素进行匹配时，我们会在当前帧的全平面上进行匹配搜索。而在与前一帧的像素进行匹配时，我们只会在前一帧像素的领域内进行匹配搜索，这是由于帧间的运动范围是有限的。

不过，在 VOS 的数据集上，不同的视频往往有着不同的运动速率，所以我们采用了多窗口（领域）的匹配形式，以使得模型对在处理不同运动速率的物体时更为鲁棒。

此外，我们将前景像素特征和背景像素特征在特征通道上进行了全局池化，将像素尺度的特征转为实例尺度的池化向量。池化向量会基于一个启发于 SE-Net 的注意力结构，对 CFBI 的输出模块（Collaborative Ensembler）中的特征的通道进行调整。由此，我们的模型能更好的获取实例尺度的信息。

在训练的过程中，我们发现很多的目标要远小于视频图片的尺寸，在这样的情况下，随机裁剪增强时有很大的概率返回一张没有目标物体的图片，因此我们设计了一种均衡的随机裁剪算法，以使得前景目标更容易被裁剪到。

实验结果

与现有的最佳方法进行对比，我们在三个最受欢迎的数据集上（DAVIS-2016，DAVIS-2017，YouTube-VOS）上均取得了最佳结果。特别是在大型数据集 YouTube-VOS 2018 Validation 上我们要大幅领先之前的方法。

而且在 YouTube-VOS 2019 Testing 上，我们的方法的单模型性能要高于 2019 年 YouTube-VOS 竞赛中的冠军方法。

与 STMVOS 的可视化结果对比显示出我们的方法对于模糊和遮挡有着更好的鲁棒性。

对于复杂的多相似目标的场景，我们的模型也能很好地处理。但当相似的物体直接相邻接时，还是可能会出现部分混淆。

消融实验充分体现了前背景信息整合对于性能提升的重要性。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

ECCV 2020 Spotlight | CFBI：前背景整合的协作式视频目标分割

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

ECCV 2020 Spotlight | CFBI：前背景整合的协作式视频目标分割

您可能也对以下帖子感兴趣