專欄中心

EEPW首頁 > 專欄 > 多任務(wù)學(xué)習(xí) | YOLOP，一個網(wǎng)絡(luò)同時完成三大任務(wù)

多任務(wù)學(xué)習(xí) | YOLOP，一個網(wǎng)絡(luò)同時完成三大任務(wù)

發(fā)布人：CV研究院時間：2022-07-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

YOLOP: You Only Look Once for Panoptic Driving Perception。提出了一個全景駕駛感知網(wǎng)絡(luò)（YOLOP）來同時執(zhí)行交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測。

一、前言

全景駕駛感知系統(tǒng)是自動駕駛的重要組成部分，高精度、實時的感知系統(tǒng)可以輔助車輛在行駛中做出合理的決策。本文提出了一個全景駕駛感知網(wǎng)絡(luò)（YOLOP）來同時執(zhí)行交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測。它由一個用于特征提取的編碼器和三個用于處理特定任務(wù)的****組成。所提模型在具有挑戰(zhàn)性的 BDD100K 數(shù)據(jù)集上表現(xiàn)非常出色，在準(zhǔn)確性和速度方面在所有三個任務(wù)上都達(dá)到了SOTA。此外，本文通過消融研究驗證了所提多任務(wù)學(xué)習(xí)模型對聯(lián)合訓(xùn)練的有效性，應(yīng)該第一個可以在嵌入式設(shè)備 Jetson TX2（23 FPS）上用一個網(wǎng)絡(luò)實時同時處理三個視覺感知任務(wù)并保持出色精度的工作。

論文作者 | 華科王興剛老師團隊

二、YOLOP多任務(wù)學(xué)習(xí)
全景駕駛感知系統(tǒng)中通常會涉及物體檢測，以幫助車輛避開障礙物并遵守交通規(guī)則，還需要可行駛區(qū)域分割和車道檢測，這對于規(guī)劃車輛的行駛路線至關(guān)重要。已經(jīng)有許多方法在分別處理這些任務(wù)，例如，F(xiàn)aster R-CNN 和 YOLOv4 處理對象檢測，UNet 、DeepLab 和 PSPNet 來執(zhí)行語義分割，SCNN 和 SAD-ENet 用于檢測車道。但在自動駕駛汽車常用的嵌入式設(shè)備上部署全景駕駛感知系統(tǒng)時，需要考慮有限的計算資源和延遲，單獨處理這些任務(wù)需要更長的耗時。另外，交通場景理解中的不同任務(wù)往往有很多相關(guān)的信息，如圖 1 所示，車道往往是可行駛區(qū)域的邊界，可行駛區(qū)域通常緊密圍繞著交通目標(biāo)。多任務(wù)網(wǎng)絡(luò)更適合這種情況，因為（1）它可以通過一次處理多個任務(wù)而不是一個接一個地處理來加速圖像分析過程，（2）它可以在多個任務(wù)之間共享信息，這可以提升每一個任務(wù)的性能，因為多任務(wù)網(wǎng)絡(luò)的每個任務(wù)通常共享相同的特征提取主干。因此，探索自動駕駛中的多任務(wù)方法至關(guān)重要。

圖1 多任務(wù)模型輸出結(jié)果

多任務(wù)學(xué)習(xí)的目標(biāo)是通過多個任務(wù)之間的共享信息來學(xué)習(xí)更好的表示，尤其是基于CNN的多任務(wù)學(xué)習(xí)方法還可以實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的卷積共享。Mask R-CNN 擴展了 Faster R-CNN，增加了一個預(yù)測對象掩碼的分支，有效地結(jié)合了實例分割和對象檢測任務(wù)，這兩個任務(wù)可以相互提升性能。

MultiNet共享一個編碼器和三個獨立的****，同時完成場景分類、目標(biāo)檢測和駕駛區(qū)域分割三個場景感知任務(wù)。它在這些任務(wù)上表現(xiàn)良好，并在 KITTI 可行駛區(qū)域分割任務(wù)上達(dá)到了最先進的水平。然而，分類任務(wù)在控制車輛方面不如車道檢測那么重要。

DLT-Net繼承了編碼器-****結(jié)構(gòu)，將交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測結(jié)合在一起，并提出上下文張量來融合****之間的特征圖，以在任務(wù)之間共享指定信息。雖然具有競爭力的性能，但它并沒有達(dá)到實時性。

張等人提出了車道區(qū)域分割和車道邊界檢測之間相互關(guān)聯(lián)的子結(jié)構(gòu)，同時提出了一種新的損失函數(shù)來將車道線限制在車道區(qū)域的外輪廓上，以便它們在幾何上重疊。然而，這個先驗的假設(shè)也限制了它的應(yīng)用，因為它只適用于車道線緊緊包裹車道區(qū)域的場景。

更重要的是，多任務(wù)模型的訓(xùn)練范式也值得思考。康等人指出只有當(dāng)所有這些任務(wù)確實相關(guān)時，聯(lián)合訓(xùn)練才是合適和有益的，否則需要采用交替優(yōu)化。所以 Faster R-CNN 采用實用的 4 步訓(xùn)練算法來學(xué)習(xí)共享特征，這種范式有時可能會有所幫助，但也乏善可陳。

本文為全景駕駛感知系統(tǒng)構(gòu)建了一個高效的多任務(wù)網(wǎng)絡(luò)YOLOP，包括目標(biāo)檢測、可行駛區(qū)域分割和車道檢測任務(wù)，并且可以在部署 TensorRT 的嵌入式設(shè)備 Jetson TX2 上實現(xiàn)實時。通過同時處理自動駕駛中的這三個關(guān)鍵任務(wù)，本文方法減少了全景駕駛感知系統(tǒng)的推理時間，將計算成本限制在一個合理的范圍內(nèi)，并提高了每個任務(wù)的性能。

為了獲得高精度和快速的速度，YOLOP設(shè)計了一個簡單高效的網(wǎng)絡(luò)架構(gòu)。本文使用輕量級 CNN 作為編碼器從圖像中提取特征，然后將這些特征圖饋送到三個****以完成各自的任務(wù)。檢測****基于當(dāng)前性能最佳的單級檢測網(wǎng)絡(luò) YOLOv4，主要有兩個原因：（1）單級檢測網(wǎng)絡(luò)比兩級檢測網(wǎng)絡(luò)更快，(2) 單級檢測器基于網(wǎng)格的預(yù)測機制與其他兩個語義分割任務(wù)相關(guān)，而實例分割通常與基于區(qū)域的檢測器相結(jié)合。編碼器輸出的特征圖融合了不同級別和尺度的語義特征，分割分支可以利用這些特征圖出色地完成像素級語義預(yù)測。

除了端到端的訓(xùn)練策略外，本文還嘗試了一些交替優(yōu)化范式，逐步訓(xùn)練模型。一方面，將不相關(guān)的任務(wù)放在不同的訓(xùn)練步驟中，以防止相互限制，另一方面，先訓(xùn)練的任務(wù)可以指導(dǎo)其他任務(wù)，所以這種范式有時雖然繁瑣但效果很好。然而，實驗表明本文所提的模型并沒有這個必要，因為端到端訓(xùn)練的模型可以表現(xiàn)得足夠好。最終，所設(shè)計的全景駕駛感知系統(tǒng)在單個 NVIDIA TITAN XP 上達(dá)到了 41 FPS，在 Jetson TX2 上達(dá)到了 23 FPS；同時，它在 BDD100K 數(shù)據(jù)集的三個任務(wù)上取得SOTA。

YOLOP主要貢獻是：

（1）提出了一個高效的多任務(wù)網(wǎng)絡(luò)，可以一個網(wǎng)絡(luò)模型同時處理自動駕駛中的三個關(guān)鍵任務(wù)：物體檢測、可行駛區(qū)域分割和車道檢測，減少推理時間的同時提高了每項任務(wù)的性能，顯著節(jié)省計算成本。應(yīng)該是第一個在嵌入式設(shè)備上一個模型同時跑三個任務(wù)實現(xiàn)實時性，同時在 BDD100K 數(shù)據(jù)集上保持SOTA的工作。

(2)設(shè)計了消融實驗驗證了所提多任務(wù)處理方案的有效性，證明了三個任務(wù)可以聯(lián)合學(xué)習(xí)，無需繁瑣的交替優(yōu)化。

三、YOLOP方法細(xì)節(jié)

本文提出了一個簡單高效的前饋網(wǎng)絡(luò)，可以同時完成交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測任務(wù)。如圖 2 所示，本文的全景駕駛感知單次網(wǎng)絡(luò) YOLOP，包含一個共享編碼器和三個后續(xù)****來解決特定任務(wù)。不同****之間沒有復(fù)雜和冗余的共享塊，這減少了計算消耗并使網(wǎng)絡(luò)能夠輕松地進行端到端的訓(xùn)練。

圖2 YOLOP網(wǎng)絡(luò)結(jié)構(gòu)

A. 編碼器

網(wǎng)絡(luò)共享一個編碼器，它由骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)組成。

1. Backbone

骨干網(wǎng)絡(luò)用于提取輸入圖像的特征。通常將一些經(jīng)典的圖像分類網(wǎng)絡(luò)作為主干。鑒于YOLOv4在物體檢測上的優(yōu)異性能，本文選擇CSPDarknet 作為主干，其解決了優(yōu)化 Cspnet 時梯度重復(fù)的問題。它支持特征傳播和特征重用，減少了參數(shù)量和計算量，有利于保證網(wǎng)絡(luò)的實時性。

2. Neck

Neck 用于融合 backbone 產(chǎn)生的特征。YOLOP 的 Neck 主要由空間金字塔池（SPP）模塊和特征金字塔網(wǎng)絡(luò)（FPN）模塊組成。SPP生成并融合不同尺度的特征，F(xiàn)PN融合不同語義層次的特征，使得生成的特征包含多尺度、多語義層次的信息，采用串聯(lián)的方法來融合這些特征。

B. ****

網(wǎng)絡(luò)中的三個頭是三個任務(wù)的特定****。

1. Detect Head

與YOLOv4類似，采用基于anchor的多尺度檢測方案。首先，使用一種稱為路徑聚合網(wǎng)絡(luò)（PAN）的結(jié)構(gòu)，其是一種自下而上的特征金字塔網(wǎng)絡(luò)。FPN自頂向下傳遞語義特征，PAN自底向上傳遞定位特征，將它們結(jié)合起來以獲得更好的特征融合效果，直接使用PAN中的多尺度融合特征圖進行檢測。多尺度特征圖的每個網(wǎng)格將被分配三個不同長寬比的先驗anchor，檢測頭將預(yù)測位置的偏移量、尺度化的高度和寬度，以及每個類別的對應(yīng)概率和預(yù)測的置信度。

2. Drivable Area Segment Head & Lane Line Segment Head

可行駛區(qū)域分割頭和車道線分割頭采用相同的網(wǎng)絡(luò)結(jié)構(gòu)，將 FPN 的底層饋送到分割分支，大小為 (W/8, H/8, 256)。分割分支非常簡單，經(jīng)過三個上采樣過程，將輸出特征圖恢復(fù)到(W, H, 2)的大小，兩個通道分別代表了輸入圖像中每個像素對于可行駛區(qū)域/車道線和背景的概率。由于頸部網(wǎng)絡(luò)中共享SPP，本文沒有像其他人通常所做的那樣添加額外的SPP模塊到分割分支，因為這不會對所提網(wǎng)絡(luò)的性能帶來任何改善。此外，上采樣層使用最鄰近插值方法來降低計算成本而不是反卷積。因此，模型的分割****不僅獲得了高精度的輸出，而且在推理過程中也非常快。

C. 損失函數(shù)

由于網(wǎng)絡(luò)中有三個****，因此多任務(wù)損失包含三個部分。對于檢測損失，它是分類損失、目標(biāo)損失和邊界框損失的加權(quán)和，如公式（1）所示：

ααα

其中和采用的是 Focal Loss 損失，用于減少分類良好的樣本的損失，從而迫使網(wǎng)絡(luò)專注于困難的樣本。用于懲罰分類，用于懲罰一個預(yù)測的置信度。采用的是 CIoU，它考慮了預(yù)測框和 ground truth 之間的距離、重疊率、尺度和縱橫比的相似性。

可行駛區(qū)域分割的損失和車道線分割損失都是包含具有 Logits 的交叉熵?fù)p失，旨在最小化網(wǎng)絡(luò)輸出像素和目標(biāo)之間的分類誤差。值得提出的是 IoU loss: 添加到了，它對于車道線稀疏類別的預(yù)測特別有效。和分別定義為等式（2）和（3）：

最終損失函數(shù)是三個部分的加權(quán)和，如公式 (4) 所示： γγγ

D. 訓(xùn)練范式

本文嘗試了不同的范式來訓(xùn)練模型。最簡單的一種是端到端的訓(xùn)練，可以聯(lián)合學(xué)習(xí)三個任務(wù)。當(dāng)所有任務(wù)確實相關(guān)時，這種訓(xùn)練范式很有用。

此外，還嘗試了一些交替優(yōu)化算法，逐步訓(xùn)練模型。在每一步中，模型都可以專注于一個或多個相關(guān)的任務(wù)，而不管那些不相關(guān)的任務(wù)。即使不是所有的任務(wù)都是相關(guān)的，所提模型仍然可以通過這種范式對每個任務(wù)進行充分的學(xué)習(xí)。算法 1 說明了一種逐步訓(xùn)練方法的過程。

算法1 一種逐步訓(xùn)練多任務(wù)模型的方法

四、實驗

A. 設(shè)置

1. 數(shù)據(jù)集設(shè)置

BDD100K 數(shù)據(jù)集支持自動駕駛領(lǐng)域多任務(wù)學(xué)習(xí)的研究，擁有 10 萬幀圖片和 10 個任務(wù)的注釋，是最大的駕駛視頻數(shù)據(jù)集。由于數(shù)據(jù)集具有地理、環(huán)境和天氣的多樣性，在 BDD100K 數(shù)據(jù)集上訓(xùn)練的算法足夠健壯，可以遷移到新環(huán)境，因此用 BDD100K 數(shù)據(jù)集來訓(xùn)練和評估網(wǎng)絡(luò)是很好的選擇。BDD100K 數(shù)據(jù)集分為三部分，70K 圖像的訓(xùn)練集，10K 圖像的驗證集，20K 圖像的測試集。由于測試集的標(biāo)簽不是公開的，所以在驗證集上進行模型評估。

2. 實現(xiàn)細(xì)節(jié)

為了提高模型的性能，根據(jù)經(jīng)驗采用了一些實用的技術(shù)和數(shù)據(jù)增強方法。

為了使檢測器能夠獲得更多交通場景中物體的先驗知識，使用 k-means 聚類算法從數(shù)據(jù)集的所有檢測幀中獲取先驗錨點。使用 Adam 作為優(yōu)化器來訓(xùn)練模型，初始學(xué)習(xí)率、β1 和 β2 分別設(shè)置為 0.001、0.937 和 0.999。在訓(xùn)練過程中使用預(yù)熱（Warm-up）和余弦退火來調(diào)整學(xué)習(xí)率，旨在引導(dǎo)模型更快更好地收斂。

使用數(shù)據(jù)增強來增加圖像的變化，使模型在不同環(huán)境中具有魯棒性。訓(xùn)練方案中考慮了光度失真和幾何畸變，調(diào)整圖像的色調(diào)（hue）、飽和度（saturation）和像素值進行光度失真，使用隨機旋轉(zhuǎn)、縮放、平移、剪切和左右翻轉(zhuǎn)進行幾何畸變。

3. 實驗設(shè)置

實驗中選擇了一些優(yōu)秀的多任務(wù)網(wǎng)絡(luò)和專注于單個任務(wù)的網(wǎng)絡(luò)與本文所提網(wǎng)絡(luò)進行比較。

MultiNet 和 DLT-Net 都同時處理多個全景駕駛感知任務(wù)，并且在 BDD100K 數(shù)據(jù)集上的目標(biāo)檢測和可行駛區(qū)域分割任務(wù)中取得了很好的性能，F(xiàn)aster-RCNN 是兩階段目標(biāo)檢測網(wǎng)絡(luò)的杰出代表，YOLOv5 是在 COCO 數(shù)據(jù)集上實現(xiàn)最先進性能的單級網(wǎng)絡(luò)，PSPNet憑借其超強的聚合全局信息能力在語義分割任務(wù)上取得了出色的表現(xiàn)。通過在 BDD100k 數(shù)據(jù)集上重新訓(xùn)練上述網(wǎng)絡(luò)，與本文在目標(biāo)檢測和可行駛區(qū)域分割任務(wù)上的網(wǎng)絡(luò)進行比較。

由于在 BDD100K 數(shù)據(jù)集上沒有合適的現(xiàn)有多任務(wù)網(wǎng)絡(luò)處理車道檢測任務(wù)，本文將所提網(wǎng)絡(luò)與 Enet、SCNN 和 Enet-SAD 這三個先進的車道檢測網(wǎng)絡(luò)進行了比較。

另外，將聯(lián)合訓(xùn)練范式的性能與多種交替訓(xùn)練范式進行了比較，將經(jīng)過訓(xùn)練以處理多項任務(wù)的多任務(wù)模型的準(zhǔn)確性和速度與經(jīng)過訓(xùn)練以執(zhí)行特定任務(wù)的模型進行比較。實驗中將BDD100K 數(shù)據(jù)集中的圖像從 1280×720×3 調(diào)整為 640×384×3，所有對照實驗都遵循相同的實驗設(shè)置和評估指標(biāo)，均在 NVIDIA GTX TITAN XP 上運行。

B. 結(jié)果

通過簡單的端到端訓(xùn)練YOLOP，將其與所有三個任務(wù)的其他代表性模型進行比較。

1. 交通目標(biāo)檢測結(jié)果

由于 Multinet 和 DLT-Net 只能檢測車輛，我們只考慮BDD100K數(shù)據(jù)集上5個模型的車輛檢測結(jié)果。如表 I 所示，使用 Recall 和 mAP50 作為檢測精度的評估指標(biāo)。YOLOP在檢測精度上超過了 Faster RCNN、MultiNet 和 DLT-Net，并且可以與實際上使用更多技巧的 YOLOv5s 相媲美。速度上模型可以實時推斷，YOLOv5s 更快是因為它沒有車道線頭和可行駛區(qū)域頭。交通目標(biāo)檢測的可視化如圖 3 所示。

2. 可行駛區(qū)域分割結(jié)果

本文將 BDD100K 數(shù)據(jù)集中的“區(qū)域/可行駛”和“區(qū)域/替代”類都?xì)w為“可行駛區(qū)域”，模型只需要區(qū)分圖像中的可行駛區(qū)域和背景。mIoU 用于評估不同模型的分割性能。從結(jié)果表II可以看出，YOLOP 分別優(yōu)于 MultiNet、DLT-Net 和 PSPNet 19.9%、20.2% 和 1.9%，而且推理速度快 4 到 5 倍。可行駛區(qū)域分割的可視化結(jié)果如圖 4 所示。

3. 車道檢測結(jié)果

BDD100K 數(shù)據(jù)集中的車道線用兩條線標(biāo)注，所以直接使用標(biāo)注非常棘手。實驗遵循侯等人的設(shè)置以便進行比較，首先根據(jù)兩條標(biāo)線計算中心線，然后將訓(xùn)練集中的車道線寬度設(shè)置為8個像素，同時保持測試集的車道線寬度為2個像素，使用像素精度和車道的 IoU 作為評估指標(biāo)。如表 III 所示，YOLOP的性能大幅超過了其他三個模型。車道檢測的可視化結(jié)果如圖5所示。

C. 消融研究

本文設(shè)計了以下兩個消融實驗來進一步說明所提方案的有效性。

1. End-to-end vs Step-by-step

表 IV 比較了聯(lián)合訓(xùn)練范式與多種交替訓(xùn)練范式的性能。可以看出YOLOP通過端到端的訓(xùn)練已經(jīng)表現(xiàn)得非常好，已經(jīng)不再需要進行交替優(yōu)化。有趣的是，端到端范式訓(xùn)練檢測任務(wù)首先似乎表現(xiàn)更好，這可能主要是因為整個模型更接近一個完整的檢測模型，并且模型在執(zhí)行檢測任務(wù)時更難收斂（更難的任務(wù)用更適配的模型能達(dá)到更好的效果）。另外，由三步組成的范式略勝于兩步，類似的交替訓(xùn)練可以運行更多的步驟，但改進已可以忽略不計。

注：E, D, S 和 W 分別表示Encoder, Detect head, two Segment heads and whole network。比如 ED-S-W 表示先只訓(xùn)練 Encoder and Detect head，然后凍結(jié) Encoder and Detect head訓(xùn)練two Segmentation heads，最后聯(lián)合三個任務(wù)訓(xùn)練whole network。

2. Multi-task vs Single task

為了驗證多任務(wù)學(xué)習(xí)方案的有效性，對多任務(wù)方案和單任務(wù)方案的性能進行了比較。表 V 顯示了這兩種方案在每個特定任務(wù)上的性能比較，可以看出采用多任務(wù)方案訓(xùn)練的模型性能接近于專注單個任務(wù)的性能，更重要的是，與單獨執(zhí)行每個任務(wù)相比，多任務(wù)模型可以節(jié)省大量時間。

五、總結(jié)

本文提出了一個簡單高效的多任務(wù)網(wǎng)絡(luò)YOLOP，它可以同時處理物體檢測、可行駛區(qū)域分割和車道線檢測三個典型的駕駛感知任務(wù)，并且可以進行端到端的訓(xùn)練。訓(xùn)練出的模型在具有挑戰(zhàn)性的 BDD100k 數(shù)據(jù)集上表現(xiàn)異常出色，在所有三個任務(wù)上都達(dá)到或大大超過了最先進的水平，并且可以在嵌入式設(shè)備Jetson TX2上進行實時推理，使得模型可以在真實場景中使用。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞： AI