论文阅读多模态LSeg
目录
【论文阅读】多模态——LSeg
文献基本信息
- 标题: Language-Driven Semantic Segmentation
- 作者: Boyi Li、Kilian Q. Weinberger、Serge Belongie、Vladlen Koltun、René Ranftl
- 单位: Cornell University、University of Copenhagen、Apple、Intel Labs
- 会议/期刊: ICLR
- 发表时间: 2022年4月3日
- 代码:
背景与意义
- 语义分割 可以看做是 像素级的分类 ,因此分类的新技术、新思路,一般可以直接用过来。
- 本文实现了 zero-shot的语义分割 ,实现方式与 CLIP实现zero-shot 的方式类似,都是通过类别prompt作为文本输入,然后计算相似度。
- 给定一张图片,然后通过文本prompt给定任意的类别,从而实现对应的语义分割。
- 从上图中可以看到,给定了对应的类别prompt:
- 对于 图中明确出现了的语义类别(如dog、tree) ,模型能够很清楚地分割出来。
- 对于 图中没有的类别(如vehicle) ,模型也不会误召回(容错率高)。
- 对于 图中有、但是类别prompt没给的类别(如grass) ,也能正确分类为other。
- 同样可以检测 类别的子类或父类(如dog、pet) ,模型也能够通过语义识别出来。
- 由于CLIP类的模型实质上都是通过计算 图文相似度 来实现分类或分割的,因此对于 “other” 类的类别,prompt文本实际可以是 任何无意义的文本 ,如“me”、“a”或“an” 等,只要与目标类别不要太接近即可。
研究方法与创新点
- 如上图所示,模型整体看来与 CLIP 模型非常相似,图像先输入 图像编码器(DPT ViT+decoder) 得到特征向量,再进行一些 upscaling ,输出图像与原图像大小保持一致,输出再与ground-truth做 交叉熵 ,其中将 单个的图像文本特征 换成 语义分割中逐像素的密集特征 。
- 文本编码器
提取
的文本特征(
个类别,
为特征维度), 图像编码器 提取
的密集图像特征(跟原来相比有所降维,比如1/4、1/16),文本-图像二者相乘得到
的特征,再经过 空间规整模块 上采样回原图尺寸,完成 语义分割 ,其中
、
- 在训练过程中,模型是以 有监督 的方式进行训练的,也就是说训练过程中是存在 标注的分割图 的,模型在7个分割数据集上进行训练。
- 在推理时,可以指定 任意个数、任意内容 的类别prompt来进行 zero-shot 的语义分割。
- 创新: 通过在 传统的有监督分割模型 上加入 文本特征 ,通过 特征相乘 把文本特征和图像特征结合起来,学到一些 languge-aware的特征 ,在最后就能用 文本prompt 得到 任意的分割效果 。
- LSeg整个 文本编码器 就是 CLIP的文本编码器的模型和权重 ,并且训练、推理全程中都是 冻结 的;LSeg的 图像编码器 可以是 任何网络(CNN/ViT) ,需要进行训练。
- 空间规整模块 是本文提出的一个模块,为了在计算完像素级图文相似度后有一些可学习的参数来理解计算结果,由一些 卷积 和 逐深度卷积 组成。
研究结论
- 在PASCAL-5、COCO20、FSS-1000上作评价,如PASCAL-5有20类,现在把20类分成4份,每份5类,将其中5类作为已知,其他15类未知,做zero-shot实验。
- 由上图可知, LSeg在zero-shot的语义分割上确实大幅领先之前方法 ,但是 与few-shot哪怕是one-shot相比,还是有很大的提升空间 。
- 由上图可知,LSeg 在zero-shot的语义分割上确实大幅领先之前方法 ,但是 与few-shot哪怕是one-shot相比,还是有很大的提升空间 。
存在的问题
- 空间规整层是简单的conv卷积或者DWconv,这一层进一步学习文本图像融合后的特征,理解文本与图像如何交互。 消融实验证明,两层空间规整层效果最好,但是四层空间规整层突然就崩了,本文中并没有对此解释原因 ,因此无法得知空间规整是否是一个稳定有效的技巧。
启发与思考
- 图像分类任务 和 图像分割任务 很像,无非就是把图像级别的分类转变成像素级别的分类,前者的技术往往都能直接应用到后者。
- 提供了一种利用CLIP的新思路,可以 单独 使用其中的文本或图像编码器,并且也可以用 有监督 的方式进行训练。