CVPR 2022 Oral | 以人为中心的多功能多模态预训练

语言: CN / TW / HK

关注公众号,发现CV技术之美

本篇分享 CVPR 2022 Oral 论文 Versatile Multi-Modal Pre-Training for Human-Centric Perception』 ,以人为中心的多功能多模态预训练。

详细信息如下:

  • 论文链接:http://arxiv.org/abs/2203.13815

  • 代码:http://github.com/hongfz16/HCMoCo

以人为中心的感知在计算机视觉与图形学应用中扮演着重要角色。但是这些应用通常需要大量的标注数据以达到较好的效果。而标注数据的成本非常高,尤其是密集标注例如分割和DensePose。因此,如图一所示,我们希望有一个多功能的预训练模型,作为一个基础模型,用以数据高效的下游任务迁移。

为了达到这个目标,我们提出了 以人为中心的多模态对比学习框架HCMoCo (Human-Centric Multi-Modal Contrastive Learning),利用人体数据多模态的特点(RGB,深度图,人体关键点),进行高效的人体表示学习。在研究中,我们面临两个挑战,其一为多模态数据的密集表达预训练此前并未被研究过,其二为如何高效地使用稀疏的人体数据,例如人体关键点。

图一:以人为中心的感知任务的多功能多模态预训练

为了解决这些挑战,如图二所示,我们设计了 层次化的对比学习目标 ,1)样本级别的模态无关的表示学习;2)密集的样本模态内部的对比学习;3)稀疏的人体结构指导的对比学习。通过层次化的对比学习,我们实现了模态无关的隐空间学习,并且隐空间的特征是连续有序并且结构与语义上一致的。

图二:HCMoCo层次化的对比学习

通过结合异构的数据集,HCMoCo提供的预训练模型可以使用现有的特定任务下的人体数据以 实现高效的迁移学习。 如图三所示,在四个不同模态的下游任务上,我们进行了充分的实验,展现了HCMoCo的有效性,尤其是在数据有限的情况下。只需一次预训练,我们将预训练模型迁移到DensePose预测,RGB人体分割,深度图人体分割和深度图3D关键点预测这四个任务上。如下图所示,HCMoCo的预训练均超过了大家常用的ImageNet预训练模型。更多的详细结果请参见原论文。

图三:HCMoCo在四个下游任务上实现了高效的迁移学习

此外,我们还通过 跨模态监督与模态缺失的推理,展现了HCMoCo的多样性 。如图四所示,通过HCMoCo的训练框架,我们可以实现在RGB上进行人体分割的监督学习,在测试时输入深度图也可以进行分割。同理,我们也可以实现训练时多模态同时训练,但是测试时只输入一种模态。Baseline方法均无法实现这两个任务,而我们的方法则可以达到合理的效果。

图四:HCMoCo在跨模态监督与测试中的应用

最后,我们还提出了 第一个完整人体的RGBD分割数据集NTURGBD-Parsing-4K ,如图五所示。我们从NTURGBD-60/120中采样了4000帧,进行了人工标注。

图五:人体RGBD分割数据集,NTURGBD-Parsing-4K

END

欢迎加入「计算机视觉 交流群:point_down:备注: CV

「其他文章」