CVPR 2022 Oral | 以人为中心的多功能多模态预训练
关注公众号,发现CV技术之美
本篇分享 CVPR 2022 Oral 论文 『 Versatile Multi-Modal Pre-Training for Human-Centric Perception』 ,以人为中心的多功能多模态预训练。
详细信息如下:
-
论文链接:http://arxiv.org/abs/2203.13815
-
代码:http://github.com/hongfz16/HCMoCo
以人为中心的感知在计算机视觉与图形学应用中扮演着重要角色。但是这些应用通常需要大量的标注数据以达到较好的效果。而标注数据的成本非常高,尤其是密集标注例如分割和DensePose。因此,如图一所示,我们希望有一个多功能的预训练模型,作为一个基础模型,用以数据高效的下游任务迁移。
为了达到这个目标,我们提出了 以人为中心的多模态对比学习框架HCMoCo (Human-Centric Multi-Modal Contrastive Learning),利用人体数据多模态的特点(RGB,深度图,人体关键点),进行高效的人体表示学习。在研究中,我们面临两个挑战,其一为多模态数据的密集表达预训练此前并未被研究过,其二为如何高效地使用稀疏的人体数据,例如人体关键点。
图一:以人为中心的感知任务的多功能多模态预训练
为了解决这些挑战,如图二所示,我们设计了 层次化的对比学习目标 ,1)样本级别的模态无关的表示学习;2)密集的样本模态内部的对比学习;3)稀疏的人体结构指导的对比学习。通过层次化的对比学习,我们实现了模态无关的隐空间学习,并且隐空间的特征是连续有序并且结构与语义上一致的。
图二:HCMoCo层次化的对比学习
通过结合异构的数据集,HCMoCo提供的预训练模型可以使用现有的特定任务下的人体数据以 实现高效的迁移学习。 如图三所示,在四个不同模态的下游任务上,我们进行了充分的实验,展现了HCMoCo的有效性,尤其是在数据有限的情况下。只需一次预训练,我们将预训练模型迁移到DensePose预测,RGB人体分割,深度图人体分割和深度图3D关键点预测这四个任务上。如下图所示,HCMoCo的预训练均超过了大家常用的ImageNet预训练模型。更多的详细结果请参见原论文。
图三:HCMoCo在四个下游任务上实现了高效的迁移学习
此外,我们还通过 跨模态监督与模态缺失的推理,展现了HCMoCo的多样性 。如图四所示,通过HCMoCo的训练框架,我们可以实现在RGB上进行人体分割的监督学习,在测试时输入深度图也可以进行分割。同理,我们也可以实现训练时多模态同时训练,但是测试时只输入一种模态。Baseline方法均无法实现这两个任务,而我们的方法则可以达到合理的效果。
图四:HCMoCo在跨模态监督与测试中的应用
最后,我们还提出了 第一个完整人体的RGBD分割数据集NTURGBD-Parsing-4K ,如图五所示。我们从NTURGBD-60/120中采样了4000帧,进行了人工标注。
图五:人体RGBD分割数据集,NTURGBD-Parsing-4K
END
欢迎加入「计算机视觉 」 交流群:point_down:备注: CV
- FedIC: 通过校准蒸馏对非独立同分布和长尾数据进行联合学习(ICME 2022)
- CVPR 2022 Oral | 以人为中心的多功能多模态预训练
- AFS 一种基于注意力机制的监督特征选择机制
- ICML 2022 基于共轭梯度法的多样化对抗性攻击
- 用双流网络也能学的又快又好?哈工大&微软提出用于视觉语言理解的蒸馏双编码器模型,在多个多模态...
- 人大、微软等提出InclusiveFL:异构设备上的包容性联邦学习
- UFO:微软学者提出视觉语言表征学习的统一Transformer,在多个多模态任务上达到SOTA性能!
- 清华&商汤&上海AI&CUHK提出Siamese Image Modeling,兼具linear probing和密集预测性能!
- 无需人工先验!港大&同济&LunarAI&旷视提出基于语义分组的自监督视觉表征学习,显著提升目标检测、...
- 多模态数据也能进行MAE?伯克利&谷歌提出M3AE,在图像和文本数据上进行MAE!最优掩蔽率可达75%,显...
- 一份Slide两张表格带你快速了解目标检测
- Recurrent Transformer 视频恢复领域的‘德艺双馨’
- ESRGCNN:西工大&CityU&中南大学&NTHU&哈工大&CUHK联合提出一种增强组卷积神经网络的图像超分辨方法
- RMIT&阿里&UTS&中山提出Target-aware Transformer,进行one-to-all知识蒸馏!性能SOTA
- 国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CV...
- 第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例
- 南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
- 深度强化学习中的对抗攻击和防御
- VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
- 提高对抗性迁移能力,通过基于神经元归属的攻击方法(CVPR 2022)