CVPR2022 | 簡單高效的語義分割體系結構

語言: CN / TW / HK

前言 本文提出了一種簡單的編碼-解碼器體系結構,具有類似ResNet的主幹和一個小的多尺度頭,其性能與複雜的語義分割體系結構(如HRNet、FANet和DDRNets)相當或更好。另外,本文還為桌面和移動目標提供了一系列這樣的簡單架構。

*歡迎關注公眾號*CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘信息。目前公眾號正在徵稿中,可以獲取對應的稿費哦。

論文:http://arxiv.org/pdf/2206.08236

代碼:http://github.com/Qualcomm-AI-research/FFNet

背景

儘管語義分割架構(如HRNet)的狀態顯示出令人印象深刻的準確性,但其顯著的設計選擇所產生的複雜性阻礙了一系列模型加速工具,而且它們還利用了在當前硬件上效率低下的操作。

本文開始研究這些複雜設計相對於概念上更簡單的架構的有效性程度。使用的基線架構與FPN最為密切相關,FPN最初是為目標檢測而提出的。具體地説,作者研究了當將更復雜的體系結構的相關非體系結構改進應用於這個簡單的基線體系結構時,它們的精度增益是否有效。可以看到,在類似FPN的設計中使用由瓶頸塊組成的ResNet50/101骨幹網時,網絡確實比更復雜的設計要差得多。推測這種性能下降主要是由於使用瓶頸塊導致感受野下降。

結果表明,對於由基本塊組成的類似深ResNet主幹,具有更大的感受野,簡單的體系結構確實比更復雜的設計更有利。名為FFNet的簡單體系結構不僅減少了推理時間和計算成本,而且完全由各種硬件上支持的操作組成,進一步簡化了設備部署。

方法

圖1. FFNet體系結構包括一個主幹(編碼器),類似於ResNet,饋送到一個緊湊的多分支up-head(解碼器),該解碼器隨後將多尺度特徵饋送到任務特定的頭部。”s’表示步長。主幹塊的幹、寬度和深度、up-head中卷積的寬度、上採樣算子的選擇(雙線性vs最近鄰)以及任務頭的設計取決於目標平台和任務。

圖1描述了Fuss-Free網絡(FFNet)的模式:受FPN架構啟發的簡單架構。它具有編碼器-解碼器結構。編碼器由一個不帶分類頭的ResNet主幹網組成。不只是使用主幹網最後一層的特徵,而是從所有中間殘差階段提取不同空間分辨率的特徵。這些特徵被傳遞到一個輕型卷積解碼頭,該解碼頭對低分辨率分支到高分辨率分支的特徵進行上採樣和合並。這個解碼器頭,稱為“up-head”,以不同的空間分辨率輸出特徵。

這些多尺度特徵隨後被用作特定於任務的小型頭部的輸入,例如用於分割或分類。

圖2. 在本文中考慮的stem、up-head和segmentation head的各種選擇。這些連接到不同寬度和深度的骨幹網絡,如表1所示。對於GPU,使用雙線性上採樣。對於移動模型,使用最近鄰上採樣。所描述的選擇並不全面,僅表示潛在NAS搜索空間中的幾個不同點。本文將stem、up-head和segmentation head選項組合稱為A-B-B、C-B-C等。

FFNet的一般設置具有很大的靈活性,可以自由更改主幹構建塊的寬度、深度和類型、特徵比例的數量、頭部類型和頭部寬度。圖2描述了在本文中研究的各種stem、up-head和segmentation head,標記為A/B/C。這些選擇與表1中描述的各種主幹寬度和深度配置相結合,具體取決於目標平台。主幹中的第一個殘差塊可以具有1或2的步長,這會改變輸出的空間分辨率。

本文展示了桌面GPU和移動目標的模型。**桌面模型在Up-head中使用雙線性上採樣,而移動模型使用最近鄰上採樣。**這是一種簡單的設計,對主幹中的階段數量或輸出的特徵量表數量、主幹和主幹中步長的選擇沒有特別的限制。因此,該體系結構可以很容易地適應其他任務。

實驗

表1. 本文研究的主幹結構。遵循resnet的命名約定,儘管它們與圖2所示的不同stem和head配對,這改變了層的總體數量。

圖3. FFNet GPU大型模型的推理延遲與在CityScape上的精度:使用基本塊的簡單FFNet(藍色)與HRNET(紅色)相當,而使用瓶頸塊的FFNet(紫色)明顯更差。探索up-head寬度(青色)和主幹寬度(黑色)的各種組合,可以創建更好的模型。具有3級主幹(綠色)的FFNET可能比4級FFNET提供更好的帕累託性能。輸入分辨率1024×2048,輸出分割圖分辨率256×512。見表2。

*表2. 模型的輸出分割圖分辨率為256×512,輸入圖像分辨率為1024×2048。在ResNet主幹的第一個塊中,FFNET的步長為1。

*表3. 模型的輸出分割圖分辨率為128×256,輸入圖像分辨率為1024×2048。此處報吿的計時沒有批次標準摺疊,批次大小為1。†這些模型在ResNet主幹的第一階段使用步長=2。

圖5. FFNet GPU小型模型的推理延遲與在Cityscapes上的精度:(頂部)FFNet(藍色)的性能與DDRNet(紅色)和FANet(橙色和棕色)等複雜模型相當。對於FFNET,基本塊(藍色)總是優於瓶頸塊(紫色)。(底部)模型空間可以通過基本塊主幹和不同寬度(青色和黑色)的頂部組合來探索,以創建更好的模型。輸入分辨率1024×2048,輸出分割圖分辨率128×256。見表3。

表4. FFNet移動模型的推斷時間與Cityscapes驗證精度:驗證精度適用於FP16模型,而推斷時間適用於三星S21 DSP上的8位量化模型。推斷時間是針對批量大小為1的情況進行測量的。†這些模型在ResNet主幹的第一個塊中使用步長=2。

圖6. 三星S21上FFNet移動模型的推斷延遲與在Cityscapes上的精度:模型在移動DSP上實時運行。無論輸入分辨率如何,所有模型都以相同的分辨率輸出分割圖。

結論

本文表明,簡單的基於FPN的語義圖像分割基線是高效的,並且在各種設備上與SoTA體系結構不相上下。另外,為ImageNet設計的特定體系結構實例不一定是其他任務的最佳實例,並且在相同的設計空間中存在更好的特定於任務的體系結構。在決定從另一個任務移植網絡之前,考慮任務的具體要求是很有幫助的。

CV技術指南創建了一個計算機視覺技術交流羣和免費版的知識星球,目前星球內人數已經600+,主題數量達到200+。

知識星球內將會每天發佈一些作業,用於引導大家去學一些東西,大家可根據作業來持續打卡學習。

技術羣內每天都會發最近幾天出來的頂會論文,大家可以選擇感興趣的論文去閲讀,持續follow最新技術,若是看完後寫個解讀給我們投稿,還可以收到稿費。

另外,技術羣內和本人朋友圈內也將發佈各個期刊、會議的徵稿通知,若有需要的請掃描加好友,並及時關注。

加羣加星球方式:關注公眾號CV技術指南,獲取編輯微信,邀請加入。

其它文章

計算機視覺入門路線

CVPR2022 | iFS-RCNN:一種增量小樣本實例分割器

CVPR2022 | Time 3D:用於自動駕駛的端到端聯合單目三維物體檢測與跟蹤

CVPR2022 | A ConvNet for the 2020s & 如何設計神經網絡總結

CVPR2022 | PanopticDepth:深度感知全景分割的統一框架

CVPR2022 | 重新審視池化:你的感受野不是最理想的

CVPR2022 | 未知目標檢測模塊STUD:學習視頻中的未知目標

CVPR2022 | 基於排名的siamese視覺跟蹤

CVPR2022 | 通過目標感知Transformer進行知識蒸餾

CVPR2022丨無監督預訓練下的視頻場景分割

從零搭建Pytorch模型教程(六)編寫訓練過程和推理過程

從零搭建Pytorch模型教程(五)編寫訓練過程--一些基本的配置

從零搭建Pytorch模型教程(四)編寫訓練過程--參數解析

從零搭建Pytorch模型教程(三)搭建Transformer網絡

從零搭建Pytorch模型教程(二)搭建網絡

從零搭建Pytorch模型教程(一)數據讀取

一份熱力圖可視化代碼使用教程

一份可視化特徵圖的代碼

關於快速學習一項新技術或新領域的一些個人思維習慣與思想總結