CVPR2022 | 簡單高效的語義分割體系結構_CV技術指南

前言本文提出了一種簡單的編碼-解碼器體系結構，具有類似ResNet的主幹和一個小的多尺度頭，其性能與複雜的語義分割體系結構（如HRNet、FANet和DDRNets）相當或更好。另外，本文還為桌面和移動目標提供了一系列這樣的簡單架構。

*歡迎關注公眾號*CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘信息。目前公眾號正在徵稿中，可以獲取對應的稿費哦。

代碼：http://github.com/Qualcomm-AI-research/FFNet

背景

儘管語義分割架構（如HRNet）的狀態顯示出令人印象深刻的準確性，但其顯著的設計選擇所產生的複雜性阻礙了一系列模型加速工具，而且它們還利用了在當前硬件上效率低下的操作。

本文開始研究這些複雜設計相對於概念上更簡單的架構的有效性程度。使用的基線架構與FPN最為密切相關，FPN最初是為目標檢測而提出的。具體地説，作者研究了當將更復雜的體系結構的相關非體系結構改進應用於這個簡單的基線體系結構時，它們的精度增益是否有效。可以看到，在類似FPN的設計中使用由瓶頸塊組成的ResNet50/101骨幹網時，網絡確實比更復雜的設計要差得多。推測這種性能下降主要是由於使用瓶頸塊導致感受野下降。

結果表明，對於由基本塊組成的類似深ResNet主幹，具有更大的感受野，簡單的體系結構確實比更復雜的設計更有利。名為FFNet的簡單體系結構不僅減少了推理時間和計算成本，而且完全由各種硬件上支持的操作組成，進一步簡化了設備部署。

方法

圖1. FFNet體系結構包括一個主幹（編碼器），類似於ResNet，饋送到一個緊湊的多分支up-head（解碼器），該解碼器隨後將多尺度特徵饋送到任務特定的頭部。”s’表示步長。主幹塊的幹、寬度和深度、up-head中卷積的寬度、上採樣算子的選擇（雙線性vs最近鄰）以及任務頭的設計取決於目標平台和任務。

圖1描述了Fuss-Free網絡（FFNet）的模式：受FPN架構啟發的簡單架構。它具有編碼器-解碼器結構。編碼器由一個不帶分類頭的ResNet主幹網組成。不只是使用主幹網最後一層的特徵，而是從所有中間殘差階段提取不同空間分辨率的特徵。這些特徵被傳遞到一個輕型卷積解碼頭，該解碼頭對低分辨率分支到高分辨率分支的特徵進行上採樣和合並。這個解碼器頭，稱為“up-head”，以不同的空間分辨率輸出特徵。

這些多尺度特徵隨後被用作特定於任務的小型頭部的輸入，例如用於分割或分類。

圖2. 在本文中考慮的stem、up-head和segmentation head的各種選擇。這些連接到不同寬度和深度的骨幹網絡，如表1所示。對於GPU，使用雙線性上採樣。對於移動模型，使用最近鄰上採樣。所描述的選擇並不全面，僅表示潛在NAS搜索空間中的幾個不同點。本文將stem、up-head和segmentation head選項組合稱為A-B-B、C-B-C等。

FFNet的一般設置具有很大的靈活性，可以自由更改主幹構建塊的寬度、深度和類型、特徵比例的數量、頭部類型和頭部寬度。圖2描述了在本文中研究的各種stem、up-head和segmentation head，標記為A/B/C。這些選擇與表1中描述的各種主幹寬度和深度配置相結合，具體取決於目標平台。主幹中的第一個殘差塊可以具有1或2的步長，這會改變輸出的空間分辨率。

本文展示了桌面GPU和移動目標的模型。**桌面模型在Up-head中使用雙線性上採樣，而移動模型使用最近鄰上採樣。**這是一種簡單的設計，對主幹中的階段數量或輸出的特徵量表數量、主幹和主幹中步長的選擇沒有特別的限制。因此，該體系結構可以很容易地適應其他任務。

實驗

表1. 本文研究的主幹結構。遵循resnet的命名約定，儘管它們與圖2所示的不同stem和head配對，這改變了層的總體數量。

圖3. FFNet GPU大型模型的推理延遲與在CityScape上的精度：使用基本塊的簡單FFNet（藍色）與HRNET（紅色）相當，而使用瓶頸塊的FFNet（紫色）明顯更差。探索up-head寬度（青色）和主幹寬度（黑色）的各種組合，可以創建更好的模型。具有3級主幹（綠色）的FFNET可能比4級FFNET提供更好的帕累託性能。輸入分辨率1024×2048，輸出分割圖分辨率256×512。見表2。

*表2. 模型的輸出分割圖分辨率為256×512，輸入圖像分辨率為1024×2048。在ResNet主幹的第一個塊中，FFNET的步長為1。

*表3. 模型的輸出分割圖分辨率為128×256，輸入圖像分辨率為1024×2048。此處報吿的計時沒有批次標準摺疊，批次大小為1。†這些模型在ResNet主幹的第一階段使用步長=2。

圖5. FFNet GPU小型模型的推理延遲與在Cityscapes上的精度：（頂部）FFNet（藍色）的性能與DDRNet（紅色）和FANet（橙色和棕色）等複雜模型相當。對於FFNET，基本塊（藍色）總是優於瓶頸塊（紫色）。（底部）模型空間可以通過基本塊主幹和不同寬度（青色和黑色）的頂部組合來探索，以創建更好的模型。輸入分辨率1024×2048，輸出分割圖分辨率128×256。見表3。