CVPR2022:將X光圖片用於垃圾分割,探索大規模智能垃圾分類

語言: CN / TW / HK

關注並星標

從此不迷路

計算機視覺研究院

公眾號IDComputerVisionGzq

學習羣掃碼在主頁獲取加入方式

  • 論文鏈接: http://openaccess.thecvf.com/content/CVPR2022/papers/Qiu_ETHSeg_An_Amodel_Instance_Segmentation_Network_and_a_Real-World_Dataset_CVPR_2022_paper.pdf

  • 項目主頁: http://lingtengqiu.github.io/2022/ETHSeg/

  • GitHub 地址: GitHub - lingtengqiu/ETHSeg: ETHSeg: An Amodel Instance Segmentation Network and a Real-world Dataset for X-Ray Waste Inspection (CVPR2022

計算機視覺研究院專欄

轉自《機器之心專欄》

近些年來,社會的發展帶來了生活垃圾的爆發性增長,實行垃圾分類既可以減少對自然環境的破壞,同時對垃圾中的可回收資源進行回收再利用,也帶來更大經濟效益。垃圾分類的的檢查工作是其中的重要一環,只有正確的分類才能提升回收效率和避免環境污染。傳統的分類檢查方法依賴於人工的翻閲。而現有的圖像檢查方法也需要打開垃圾袋並且把垃圾攤開。這些檢查方法存在兩大缺點:

  1. 翻開垃圾袋的過程比較繁瑣,且對於接觸垃圾的人存在污染、傳播疾病的風險;

  2. 複雜繁多的垃圾容易產生視線遮擋,容易出現遺漏和錯判。

考慮到上述的問題,我們提出了以下的解決方案:

  • 提出了 第一個基於X光圖片的、實例級別的垃圾分割數據集 (WIXRay) 。數據集中包含 5,038 張X光圖片,共 30,845 個垃圾物品實例。對於每個實例,我們標註了高質量的類別、bbox 以及實例級別的分割。

  • 在現有實例分割方法的基礎上針對 X 光垃圾圖片遮擋嚴重、有穿透效果的特點進行改進,提出了從易到難的策略, 設計了Easy-to-Hard Instance Segmentation Network (ETHSeg) ,利用高置信度的預測結果來幫助嚴重重疊區域的難預測物體的分割。另外,我們還增加了一個全局輪廓模塊來更好地利用 X 光下物體的輪廓信息。

一、基於 X 光圖片的實例分割垃圾數據集 WIXRay (Waste Item X- Ray)

此前有關垃圾分類的數據集均為稀疏的、無遮擋的 RGB 圖片,這些數據的識別效率低,實際操作難度大。而已有的 X 光圖像實例分割數據集多為安檢物品數據集,並且這些數據集鮮有嚴重遮擋的情況。為了得到真實有效的垃圾分類數據集,我們提出了 用X光掃描垃圾袋來獲取稠密、有遮擋的垃圾識別數據集

數據收集

收集地點:近 8,000 居民的學校社區

垃圾類別。 我們根據現有的垃圾分類方法將所有的垃圾分為可回收垃圾,廚餘垃圾,有害垃圾和其他垃圾。在此基礎上,我們把收集到的最常見的垃圾分為十二小類:

  • 可回收垃圾: 塑料瓶,易拉罐(金屬罐),紙盒,玻璃瓶,木棒(筷子),餐具;

  • 廚餘垃圾: 主要為食物殘渣;

  • 其他垃圾 暖寶寶,乾燥劑,飯盒;

  • 有害垃圾 電池(充電寶),燈泡。

具體的數量統計如下:

注: 對於部分分佈不平衡的類別,我們在數據採集時人為添加了事先準備的物品,例如有害垃圾中的兩類。

數據標註

對於每一個垃圾物體,我們都標註了它們的類別、bbox 和實例級別的 mask。由於 X 光有穿透性, 我們可以在 X 光圖像上看到重疊的物體。

因此,與傳統實例分割標註不同,我們對於所有有遮擋的物體都標註了完整的形狀。平均每張圖片標註了 6.13個實例 ,遠高於此前的 X 光數據集(e.g. HiXray 2.27 個)

二、Easy-to-Hard 分割網絡 (ETHSeg)

現有的實例分割方法大多針對自然圖片設計,並沒有考慮 X 光圖像的穿透特性和一些嚴重遮擋的情況。因此,針對這兩點,我們設計了 ETHSeg 來解決 X 光下垃圾物體實例分割的問題,主要的方法有兩點:(1)顯式地利用全局輪廓引導模塊來獲取物體的輪廓信息;(2)提出了從易到難的分解策略 (ETH) 來幫助分割遮擋區域難以分割的物體。

Baseline: Bilayer convolution network (BCNet)

BCNet 是一個自上而下的實例分割的 SOTA 方法。該方法使用了雙層 GCN 結構來解決物體間遮擋的問題。儘管該方法在自然圖片中取得了很好地效果,但由於 X 光圖像的穿透效果和嚴重的遮擋,該方法在我們的數據集上效果不佳。我們在 BCNet 基礎上提出了改進。

BCNet 的分割網絡可以被表示為:

其中 X ∈ R (HW )×C 為輸入的特徵,A ∈ R (HW )×(HW ) 為自注意力模塊,W 是可學習的變換矩陣,σ 表示帶有 ReLU 的歸一化層,Z 為更新後的特徵。F 會計算兩個節點 X_i 和 X_j 的點乘相似度,θ 和 ϕ 為 1 × 1 卷積。

BCNet 會將提取的 ROI 特徵 X_roi 輸入到第一個 GCN 層得到更新的特徵 Z_0 並且求出遮擋物(occluder)的輪廓和 mask。之後更新的特徵 Z_0 會被加到 ROI 特徵上作為第二層 GCN 的輸入(X_f = X_roi + Z_0)。第二個 GCN 層會進一步求出被遮擋物(occludee)的輪廓和 mask。

全局輪廓引導模塊

BCNet 的方法雖然能夠通過兩層 GCN 以及輪廓和 mask 的監督解決一些局部的遮擋問題,但是該方法的輪廓監督只使用了 ROI 部分的局部監督,這對於嚴重遮擋而且物體輪廓比較清晰的 X 光圖像效果不佳。

因此,我們設計了一個全局輪廓引導模塊來更好地利用 X 光圖片中的輪廓信息。我們將 backbone 得到特徵上採樣並預測一個全局輪廓圖作為並行任務。輪廓圖的監督使用高斯分佈的熱圖表示。

從易到難的分解策略

針對數據集中的嚴重遮擋問題,受到人類在物體識別時,先認出簡單、清晰的物體,再分辨識別困難的物體的這種方式的啟發,我們提出了從易到難的分解策略。我們在分割前先根據置信度將所有物體的 bbox 分成 easy 和 hard 兩個集合。

對於 easy 集合中的 bbox,我們直接求出它們的mask,同時使用 GCN 層求出更新後的特徵(Z^i)_e:

easy 集合中求得的 mask 將被用於增強自注意力網絡來幫助 hard 集合的分割。

與 BCNet 不同的是,我們從 easy 和 hard 集合中提取的特徵是屬於不同的 ROI,因此不能將兩組特徵直接相加。因此,我們首先根據 ROI 座標將 easy 集合中預測的 mask 映射到整張圖片的相應位置,並使用 element-wise max 與全局的 mask P 融合。P 採用軟掩碼,表示每個像素包含於物體的概率。利用軟掩碼 P , 我們提出了 mask-guided attention (A_g) 來引導 hard 集合的實例分割:

其中⊙ 表示 Hadamard product。之後同樣求出 hard 實例的 mask 和更新後的特徵 Z^j 並更新全局軟掩碼 P :

三、實驗結果

基準實驗

我們在 WIXRay 數據集上進行了大量的實驗,包括了 one-stage 和 two-stage 的經典模型和 SOTA 模型。所有的模型均採用 ResNet-101-FPN 作為骨幹網絡並使用 COCO 預訓練模型。實驗得到的指標顯示我們提出的新數據集對於一般的實例分割模型具有很大的挑戰性。我們提出的 ETHSeg 模型 在 mask mAP 指標上超過原來的 SOTA BCNet 1.74 點,在 bbox mAP 上也有所提升

分割結果展示

如圖所示,相比於一般的實例分割模型或 BCNet,ETHSeg 在結果上漏檢更少,在重疊的區域的分割準確度更高。

消融實驗

實驗表明,在相同的檢測結果下,我們提出的兩個結構(Global Structure Guidance 和 Easy-to-Hard Dissembling)對於實例分割的結果均有提升。若同時使用兩個模塊,則 mask mAP 有進一步地提升(總共 + 1.32)

四、結論

針對現有的人工和視覺進行垃圾檢查的缺陷,我們提出用 X 光圖像幫助垃圾分類的檢查:

  • 我們提出了第一個基於 X 光圖片的、實例級別的垃圾分割數據集 (WIXRay);

  • 針對 X 光垃圾圖片遮擋嚴重、有穿透效果的特點進行了改進。我們提出了從易到難的策略, 設計了 Easy-to-Hard Instance Segmentation Network (ETHSeg),並在 WIXRay 數據集上達到了 SOTA。

© THE END 

轉載請聯繫本公眾號獲得授權

計算機視覺研究院學習羣等你加入!

我們開創“ 計算機視覺協會 ”知識星球兩年有餘,也得到很多同學的認可,最近我們又開啟了知識星球的運營。 我們 定時會 推送實踐型內容與大家分享 ,在星球裏的同學可以 隨時提問 ,隨時提需求,我們都會及時給予回覆及給出對應的答覆。

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要着重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脱理論的真實場景,培養愛動手編程愛動腦思考的習慣!

VX:2311123606

往期推薦 

:link:

「其他文章」