P2P从点监督到显式视觉提示的物体检测与分割

JAY.LIN 收录于未分类

2025-03-12 约 2715 字预计阅读 6 分钟

https://bing.ee123.net/img/rand?artid=146212299

P2P:从点监督到显式视觉提示的物体检测与分割

一、简介

论文题目：P2P: Transforming from Point Supervision to Explicit Visual Prompt for Object

Detection and Segmentation

论文下载地址：

项目代码：

2024年7月发表在 IJCAI(CCF-A类会议)

二、论文背景与动机

点监督视觉任务，包括目标检测和语义分割，旨在学习一个从点到伪标签的网络。然而，在点监督条件下，缺乏精确的对象大小和边界标注，导致点监督方法和全监督方法之间的性能差距很大。

论文提出一个从“Point”到“Prompt”（框和掩码）迭代式框架，从点监督转变为基础模型的明确视觉提示。P2P是一个迭代的细化过程，分为语义显式提示生成(SEPG)和提示引导空间细化(PGSR)两个阶段。具体来说，SEPG作为一个提示生成器，通过基于组的学习策略从点输入生成语义明确的提示。在PGSR阶段，提示符引导可视化基础模型进一步细化目标区域，利用基础模型突出的泛化能力。这两个阶段被多次迭代以逐步提高预测的质量。

基础框架如下图1：

三、方法

1.Framework(框架)

我们将P2P构建为语义显式提示生成(SEPG)阶段和提示引导空间细化(PGSR)阶段的迭代细化过程。这两个阶段分别起到“point to prompt”和“prompt to pseudo-mask”的作用。在P2P中，点注释p首先被视为SAM为每个对象生成初始掩码的提示符。掩码的外矩形用作提议种子S0。P2P以S0为输入，启动第一轮迭代。虽然proposal seed S0可能不完全准确，但它仍然可以提供有关对象大小的有价值的先验信息。然后，以初始proposal seed S0为输入，在语义监督下，由两个提示细化器生成refined box。与S0相比，改进后的框覆盖了对象的主要语义部分，可以用作后续提示，称为P1。然后，在PGSR中，SAM在语义显式提示P1的引导下对空间区域进行细化，并生成下一轮proposal seed S1。这两个模块迭代T次，最终通过PGSR生成预测的pseudo-mask和pseudo-box.

2.Semantic-explicit Prompt Generation(语义显式提示生成)

2.1 Seeds-based Group Sampling（基于seed的群体抽样）

我们的方法在两个精炼器上采用先集体后个人的策略，如上图1所示。最初，特征图是由ResNet-50 的backbone提取的。在Prompt Refiner I 中，我们得到一个语义准确的提案组B∗，随后在Prompt Refiner II中，我们进一步细化提案组以获得细化的提案B∗。

以前的方法通常使用neighbor sampling来构建包含数百个单独提案的proposal bags，这些proposal通常质量较低且缺乏良好的优先级。为了缓解这一问题，我们引入了一种基于初始proposal seed S0的组抽样策略。第一阶段,我们基于proposal seed对每个实例逐步抽样n个提案组{Bi}n i=1，即B1 = {Bi}n i=1，从而创建proposal bags B1。这些不同的proposal 组是通过在不同的尺度上缩放提案种子来生成的。每个提案组包含m个具有较强空间相关性的提案，记为Bi = {Bi,j}m j=1，其中Bi,j表示第i组中的第j个提案，m表示提案组中的提案个数。第二阶段，我们通过增加第一阶段产生的proposal 组来构建proposal bagsB2。我们采用“提案抖动”策略]在四个方向上生成随机抖动的proposal。

2.2Proposal-to-Prompt Semantic Lifting.(候选框到提示的语音提升)

本文采用群体-个体策略，即首先选择一组空间相关性较强的候选框，然后在第二阶段根据该候选框进一步细化候选框。我们采用了一个更稳定的特征原型来计算基于组的语义分布。P2P中的细化器包括分类头和嵌入头，它们分别计算分类分数和特征嵌入。

In Prompt Refiner I

，问题在于识别一个语义准确的prosal group, 它决定了模型优化的方向。我们使用原型表示来获得稳定的基于 prosal-group 语义分布。建立一个内存缓冲区，为每个类别保留一组原型V = {Vc}C =1….C，从而保留了语义显式的特征。通过指数移动平均(EMA)算法，在每次迭代中使用Prompt Refiner II中选择的高质量嵌入特征来更新这些原型。之后，基于组的实例级概率分布Pins(Bi;yc)可以通过提案组的特征嵌入与其对应的语义原型之间的相似度来度量。

其中，Zi表示proposal group Bi的特征嵌入,将组中所有proposal的特征嵌入求平均值,其中Zi,j表示Bi中的第j个proposal，|Bi|表示proposal的个数。进一步，我们为u每个proposal group Bi计算了基于组的语义级概率Psem(Bi;yc)。

其中O(bi,j;yc)表示第j个proposal在Bi中的得分。最后，我们定义了一个基于组的联合概率分布

In Prompt Refiner II , 执行进一步的 proposal refinement 以及 prototype update, 其结构与第一阶段相似，即包括分类头和嵌入头。为了进一步细化，基于 proposal 组B ，将 proposal bags B2构造为该阶段的输入。B2中的建议保持了很强的空间相关性，并确定了主要的语义区域。因此，在这一阶段，我们只使用具有Sigmoid函数的一般分类头来计算提案得分s(b;Yc)，并采用焦损进行进一步细化。对得分最高的前k个 proposal 进行加权，得到最终的refined box b。

对于 prototype update ，我们将此阶段的 proposal 得分作为一个指标。例如，对于 proposal b∈B2，对应的嵌入特征和得分分别记为z和s。在每次训练迭代中，选取相应得分s超过某一阈值τ的嵌入特征为

其中vc为类别c当前迭代的局部原型，然后通过EMA算法将全局语义原型更新为局部语义原型;

因此，我们得到一组原型V = {V1, V2，…， VC}，在训练过程中不断更新。

原型的设计允许两个refiners相互加强。我们使用Prompt Refiner II的分数作为一个指标，用高质量的嵌入来更新语义原型。然后在Prompt Refiner I中使用高质量的原型来计算实例概率，从而产生高质量的proposal。当这些建议被输入到Prompt Refiner II中时，语义原型的质量将得到进一步提高，从而形成一个相互改进的过程。

3.Prompt Guided Spatial Refinement(提示引导的空间细化)

在这个阶段，我们利用SAM（整体冻结）进一步细化对象的空间区域。我们使用预先训练好的SAM权值，不修改原始结构和微调其参数。SAM由三个主要组件组成，一个图像编码器(Φimg)，一个轻掩模解码器(Φmask)和一个提示编码器(Φpmt)。在我们的方法中，我们将预测框和原始点注释作为提示输入到提示编码器中以提取提示嵌入。我们使用图像编码器提前提取图像嵌入(训练之前离线将图像编码)，然后在模型训练时，将提示嵌入和现成的图像嵌入馈送到轻量级掩码解码器中，得到精细化的掩码km。预提取操作消除了重量级图像编码器的计算，大大减少了时间和计算消耗。

四、实验

1.main Experiment

2. Ablation Study

2.1 P2P中各组成部分的效果

2.2 其他消融实验

目录

P2P从点监督到显式视觉提示的物体检测与分割

P2P:从点监督到显式视觉提示的物体检测与分割