CVPR 2022 Oral | 以人為中心的多功能多模態預訓練
關注公眾號,發現CV技術之美
本篇分享 CVPR 2022 Oral 論文 『 Versatile Multi-Modal Pre-Training for Human-Centric Perception』 ,以人為中心的多功能多模態預訓練。
詳細資訊如下:
-
論文連結:http://arxiv.org/abs/2203.13815
-
程式碼:http://github.com/hongfz16/HCMoCo
以人為中心的感知在計算機視覺與圖形學應用中扮演著重要角色。但是這些應用通常需要大量的標註資料以達到較好的效果。而標註資料的成本非常高,尤其是密集標註例如分割和DensePose。因此,如圖一所示,我們希望有一個多功能的預訓練模型,作為一個基礎模型,用以資料高效的下游任務遷移。
為了達到這個目標,我們提出了 以人為中心的多模態對比學習框架HCMoCo (Human-Centric Multi-Modal Contrastive Learning),利用人體資料多模態的特點(RGB,深度圖,人體關鍵點),進行高效的人體表示學習。在研究中,我們面臨兩個挑戰,其一為多模態資料的密集表達預訓練此前並未被研究過,其二為如何高效地使用稀疏的人體資料,例如人體關鍵點。
圖一:以人為中心的感知任務的多功能多模態預訓練
為了解決這些挑戰,如圖二所示,我們設計了 層次化的對比學習目標 ,1)樣本級別的模態無關的表示學習;2)密集的樣本模態內部的對比學習;3)稀疏的人體結構指導的對比學習。通過層次化的對比學習,我們實現了模態無關的隱空間學習,並且隱空間的特徵是連續有序並且結構與語義上一致的。
圖二:HCMoCo層次化的對比學習
通過結合異構的資料集,HCMoCo提供的預訓練模型可以使用現有的特定任務下的人體資料以 實現高效的遷移學習。 如圖三所示,在四個不同模態的下游任務上,我們進行了充分的實驗,展現了HCMoCo的有效性,尤其是在資料有限的情況下。只需一次預訓練,我們將預訓練模型遷移到DensePose預測,RGB人體分割,深度圖人體分割和深度圖3D關鍵點預測這四個任務上。如下圖所示,HCMoCo的預訓練均超過了大家常用的ImageNet預訓練模型。更多的詳細結果請參見原論文。
圖三:HCMoCo在四個下游任務上實現了高效的遷移學習
此外,我們還通過 跨模態監督與模態缺失的推理,展現了HCMoCo的多樣性 。如圖四所示,通過HCMoCo的訓練框架,我們可以實現在RGB上進行人體分割的監督學習,在測試時輸入深度圖也可以進行分割。同理,我們也可以實現訓練時多模態同時訓練,但是測試時只輸入一種模態。Baseline方法均無法實現這兩個任務,而我們的方法則可以達到合理的效果。
圖四:HCMoCo在跨模態監督與測試中的應用
最後,我們還提出了 第一個完整人體的RGBD分割資料集NTURGBD-Parsing-4K ,如圖五所示。我們從NTURGBD-60/120中取樣了4000幀,進行了人工標註。
圖五:人體RGBD分割資料集,NTURGBD-Parsing-4K
END
歡迎加入「計算機視覺 」 交流群:point_down:備註: CV
- FedIC: 通過校準蒸餾對非獨立同分布和長尾資料進行聯合學習(ICME 2022)
- CVPR 2022 Oral | 以人為中心的多功能多模態預訓練
- AFS 一種基於注意力機制的監督特徵選擇機制
- ICML 2022 基於共軛梯度法的多樣化對抗性攻擊
- 用雙流網路也能學的又快又好?哈工大&微軟提出用於視覺語言理解的蒸餾雙編碼器模型,在多個多模態...
- 人大、微軟等提出InclusiveFL:異構裝置上的包容性聯邦學習
- UFO:微軟學者提出視覺語言表徵學習的統一Transformer,在多個多模態任務上達到SOTA效能!
- 清華&商湯&上海AI&CUHK提出Siamese Image Modeling,兼具linear probing和密集預測效能!
- 無需人工先驗!港大&同濟&LunarAI&曠視提出基於語義分組的自監督視覺表徵學習,顯著提升目標檢測、...
- 多模態資料也能進行MAE?伯克利&谷歌提出M3AE,在影象和文字資料上進行MAE!最優掩蔽率可達75%,顯...
- 一份Slide兩張表格帶你快速瞭解目標檢測
- Recurrent Transformer 影片恢復領域的‘德藝雙馨’
- ESRGCNN:西工大&CityU&中南大學&NTHU&哈工大&CUHK聯合提出一種增強組卷積神經網路的影象超分辨方法
- RMIT&阿里&UTS&中山提出Target-aware Transformer,進行one-to-all知識蒸餾!效能SOTA
- 國科大&港中文提出帶視覺語言驗證和迭代推理的Visual Grounding框架,效能SOTA,程式碼已開源!(CV...
- 第三屆大型VOS挑戰賽中排名第一!AOT將例項與Transformer相關聯來同時統一匹配和解碼多個例項
- 南理工&上海AI Lab提出Uniform Masking,為基於金字塔結構的視覺Transformer進行MAE預訓練!
- 深度強化學習中的對抗攻擊和防禦
- VideoMAE:南大MCG&騰訊AI Lab 提出第一個影片版MAE框架,使用90%甚至95%遮擋,效能SOTA!
- 提高對抗性遷移能力,通過基於神經元歸屬的攻擊方法(CVPR 2022)