CVPR 2022 | UniDet：通用的多数据集目标检测

语言: CN / TW / HK

时间 2022-09-04 19:07:59 闪念基因

主题: 目标检测 CVPR

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

前言论文提出了一种在多个大规模数据集上训练统一检测器的通用方法。使用特定于数据集的训练协议和损失，但与特定于数据集中的输出共享公共检测架构。与之前的工作相比，该方法不需要手动分类协调。

实验表明，本文学习的分类法在所有数据集中都优于专家设计的分类法。并且多数据集检测器在每个训练域上的性能与特定于数据集的模型一样好，并且可以推广到新的不可见数据集，而无需对它们进行微调。

欢迎关注公众号 CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中，可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

论文： arxiv.org/abs/2102.13…

代码： github.com/xingyizhou/…

创新思路

单个数据集在图像域和标签表中都受到限制，不能产生通用识别系统。那幺是否可以通过统一不同的检测数据集来缓解这种限制吗？

一般来说，不同的数据集通常在不同的训练损失、数据采样策略和调度下进行训练，每个数据集训练具有单独输出的单个检测器，并对每个数据集应用特定于数据集的监督，训练模拟使用公共网络训练并行数据集特定模型。

本文的一个核心挑战是将不同的数据集集成到一个通用的分类法中，并训练一个检测器，该检测器可以对一般目标而不是特定于数据集的类进行推理。

为此，作者提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。利用来自不同数据集的类似概念的目标检测器对类似的新目标进行检测。这使得可以定义跨数据集合并概念的成本，并完全自动地优化通用分类法。本文的优化使用新的0-1整数规划公式，联合发现了统一分类法、从该分类法到每个数据集的映射以及统一分类法上的检测器。基于该统一分类法训练的目标检测器具有来自所有训练数据集的大量自动构建的概念标签表。

本文的主要贡献

1、提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。

2、证明了在不同的训练集上训练的模型在无需再训练的情况下推广到新的领域，并优于单数据集模型。

方法

训练多数据集检测器

本文旨在具有标签空间的K个数据集上训练单个检测器M，以及数据集特定的训练目标。只要不尝试合并不同数据集之间的标签空间，就可以像单独训练多个数据集特定检测器一样训练统一检测器。

这可以被认为是并行训练K个数据集特定检测器，同时共享它们的主干架构。每个数据集特定架构与公共主干共享除最后一层之外的所有层。每个数据集最后都使用自己的分类层。称之为分区检测器。通过最小化K个数据集的特定损失，在所有数据集上训练分区检测器：

虽然分区检测器学习检测所有类，但它仍产生不同的数据集特定输出。

学习统一标签空间

考虑多个数据集，每个数据集都有自己的标签空间，目标是共同学习一个用于所有数据集的公共标签空间L，并定义这个公共标签空间与数据集特定标签Tk之间的映射。每个关节标签c最多映射到一个数据集特定标签ˆc。此外，每个数据集特定的标签精确匹配一个关节标签:Tk1。

然后，给定一组分块检测器输出，对于边界框，通过简单平均常见类的输出来构建联合检测得分di:

从这个联合检测器，恢复特定于数据集的输出。目的是找到一组映射T ，并隐式定义一个联合标签空间L，使联合分类器的性能不下降。

对于特定的输出类c，让Lc是一个损失函数，衡量合并标签空间di及其重投影ˆdki与单个盒子i上原始不相交的标签空间dki的质量。目的是在给定映射上的布尔约束条件下，在所有检测器输出上优化这种损失：

公式6混合了L上的组合优化和T上的0-1整数程序。但是，有一种简单的重新参数化方法可以实现高效的优化。不直接对标签集L和变换T进行优化，而是对T的潜在列值进行组合优化。优化的目标简化为

损失函数

失真度衡量的是分区检测器和统一检测器之间检测得分的差异:

给定一个重投影的特定于数据集的输出，可以测量每个输出类c在Dk的验证集上的平均精度:

这两个损失函数允许训练一个分区检测器，并在训练后合并其输出空间。

实验

表1。多数据集训练策略的有效性。

图3。对学习到的统一标签空间进行采样。

表2.特定于数据集的检测器vs分区检测器。

表3.统一标签空间的评估。

表5所示。统一检测器与分区检测器。

表6所示。Cross-dataset评估。

结论

论文提出了一个简单的方法来训练跨多个数据集的单一目标检测器，以及一个公式来自动构建一个统一的分类法。得到的检测器可以部署在新的领域，而无需额外的知识。

本文的标签空间学习算法目前只使用视觉线索，结合语言线索作为辅助信息可以进一步提高性能。

「其他文章」