论文阅读多模态LSeg

JAY.LIN 收录于论文阅读

2025-03-06 约 1646 字预计阅读 4 分钟

https://bing.ee123.net/img/rand?artid=146080874

【论文阅读】多模态——LSeg

文献基本信息

标题： Language-Driven Semantic Segmentation
作者： Boyi Li、Kilian Q. Weinberger、Serge Belongie、Vladlen Koltun、René Ranftl
单位： Cornell University、University of Copenhagen、Apple、Intel Labs
会议/期刊： ICLR
发表时间： 2022年4月3日
代码：

背景与意义

语义分割 可以看做是 像素级的分类 ，因此分类的新技术、新思路，一般可以直接用过来。
本文实现了 zero-shot的语义分割 ，实现方式与 CLIP实现zero-shot 的方式类似，都是通过类别prompt作为文本输入，然后计算相似度。

给定一张图片，然后通过文本prompt给定任意的类别，从而实现对应的语义分割。
从上图中可以看到，给定了对应的类别prompt：

对于 图中明确出现了的语义类别（如dog、tree） ，模型能够很清楚地分割出来。
对于 图中没有的类别（如vehicle） ，模型也不会误召回（容错率高）。
对于 图中有、但是类别prompt没给的类别（如grass） ，也能正确分类为other。
同样可以检测 类别的子类或父类（如dog、pet） ，模型也能够通过语义识别出来。

由于CLIP类的模型实质上都是通过计算 图文相似度 来实现分类或分割的，因此对于 “other” 类的类别，prompt文本实际可以是 任何无意义的文本 ，如“me”、“a”或“an” 等，只要与目标类别不要太接近即可。

研究方法与创新点

如上图所示，模型整体看来与 CLIP 模型非常相似，图像先输入 图像编码器（DPT ViT+decoder） 得到特征向量，再进行一些 upscaling ，输出图像与原图像大小保持一致，输出再与ground-truth做 交叉熵 ，其中将 单个的图像文本特征 换成 语义分割中逐像素的密集特征 。
文本编码器 提取 $N \times C$ 的文本特征（个类别，为特征维度）， 图像编码器 提取 $\tilde H \times \tilde W \times C$ 的密集图像特征（跟原来相比有所降维，比如1/4、1/16），文本-图像二者相乘得到 $\tilde H \times \tilde W \times N$ 的特征，再经过 空间规整模块 上采样回原图尺寸，完成 语义分割 ，其中、
在训练过程中，模型是以 有监督 的方式进行训练的，也就是说训练过程中是存在 标注的分割图 的，模型在7个分割数据集上进行训练。
在推理时，可以指定 任意个数、任意内容 的类别prompt来进行 zero-shot 的语义分割。
创新： 通过在 传统的有监督分割模型 上加入 文本特征 ，通过 特征相乘 把文本特征和图像特征结合起来，学到一些 languge-aware的特征 ，在最后就能用 文本prompt 得到 任意的分割效果 。
LSeg整个 文本编码器 就是 CLIP的文本编码器的模型和权重 ，并且训练、推理全程中都是冻结的；LSeg的 图像编码器 可以是 任何网络（CNN/ViT） ，需要进行训练。
空间规整模块 是本文提出的一个模块，为了在计算完像素级图文相似度后有一些可学习的参数来理解计算结果，由一些卷积和 逐深度卷积 组成。