论文标题:Collaborative Video Object Segmentation by Foreground-Background Integration论文链接:https://arxiv.org/abs/2003.08333代码链接:https://github.com/z-x-yang/CFBI (即将放出,目前处于代码清理阶段)
融合不同尺度的信息在 VOS 中是必要的,因为视频中往往存在着不同尺度大小的物体。一个好的模型需要在处理不同尺度的物体时都有较好的鲁棒性。为此,我们设计的CFBI的模型部分分为两个大部分,第一部分为像素尺度的匹配(框架图的中部),第二部分为实例尺度的注意力模块(框架图的右侧)。 在这两个大部分上,我们都会同时、同等地处理前景和背景信息。前背景信息的分离是简单且直接的,我们直接根据给定的目标分割将参考帧和前一帧的像素特征分为了前景像素特征和背景像素特征,这两种特征被分别用于匹配前景像素区域和背景像素区域。基于参考帧的前景和背景匹配:
基于前一帧的前景和背景匹配:
在与参考帧的像素进行匹配时,我们会在当前帧的全平面上进行匹配搜索。而在与前一帧的像素进行匹配时,我们只会在前一帧像素的领域内进行匹配搜索,这是由于帧间的运动范围是有限的。 不过,在 VOS 的数据集上,不同的视频往往有着不同的运动速率,所以我们采用了多窗口(领域)的匹配形式,以使得模型对在处理不同运动速率的物体时更为鲁棒。 此外,我们将前景像素特征和背景像素特征在特征通道上进行了全局池化,将像素尺度的特征转为实例尺度的池化向量。池化向量会基于一个启发于 SE-Net 的注意力结构,对 CFBI 的输出模块(Collaborative Ensembler)中的特征的通道进行调整。由此,我们的模型能更好的获取实例尺度的信息。