久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

專欄中心

EEPW首頁 > 專欄 > 多任務(wù)學(xué)習(xí) | YOLOP,一個網(wǎng)絡(luò)同時完成三大任務(wù)

多任務(wù)學(xué)習(xí) | YOLOP,一個網(wǎng)絡(luò)同時完成三大任務(wù)

發(fā)布人:CV研究院 時間:2022-07-23 來源:工程師 發(fā)布文章
YOLOP: You Only Look Once for Panoptic Driving Perception。提出了一個全景駕駛感知網(wǎng)絡(luò)(YOLOP)來同時執(zhí)行交通目標(biāo)檢測可行駛區(qū)域分割車道檢測


一、前言


全景駕駛感知系統(tǒng)是自動駕駛的重要組成部分,高精度、實時的感知系統(tǒng)可以輔助車輛在行駛中做出合理的決策。本文提出了一個全景駕駛感知網(wǎng)絡(luò)(YOLOP)來同時執(zhí)行交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測。它由一個用于特征提取的編碼器和三個用于處理特定任務(wù)的****組成。所提模型在具有挑戰(zhàn)性的 BDD100K 數(shù)據(jù)集上表現(xiàn)非常出色,在準(zhǔn)確性和速度方面在所有三個任務(wù)上都達(dá)到了SOTA。此外,本文通過消融研究驗證了所提多任務(wù)學(xué)習(xí)模型對聯(lián)合訓(xùn)練的有效性,應(yīng)該第一個可以在嵌入式設(shè)備 Jetson TX2(23 FPS)上用一個網(wǎng)絡(luò)實時同時處理三個視覺感知任務(wù)并保持出色精度的工作。

論文作者 | 華科王興剛老師團隊


二、YOLOP多任務(wù)學(xué)習(xí)
全景駕駛感知系統(tǒng)中通常會涉及物體檢測,以幫助車輛避開障礙物并遵守交通規(guī)則,還需要可行駛區(qū)域分割和車道檢測,這對于規(guī)劃車輛的行駛路線至關(guān)重要。已經(jīng)有許多方法在分別處理這些任務(wù),例如,F(xiàn)aster R-CNN 和 YOLOv4 處理對象檢測,UNet 、DeepLab 和 PSPNet 來執(zhí)行語義分割,SCNN 和 SAD-ENet 用于檢測車道。但在自動駕駛汽車常用的嵌入式設(shè)備上部署全景駕駛感知系統(tǒng)時,需要考慮有限的計算資源和延遲,單獨處理這些任務(wù)需要更長的耗時。另外,交通場景理解中的不同任務(wù)往往有很多相關(guān)的信息,如圖 1 所示,車道往往是可行駛區(qū)域的邊界,可行駛區(qū)域通常緊密圍繞著交通目標(biāo)。多任務(wù)網(wǎng)絡(luò)更適合這種情況,因為(1)它可以通過一次處理多個任務(wù)而不是一個接一個地處理來加速圖像分析過程,(2)它可以在多個任務(wù)之間共享信息,這可以提升每一個任務(wù)的性能,因為多任務(wù)網(wǎng)絡(luò)的每個任務(wù)通常共享相同的特征提取主干。因此,探索自動駕駛中的多任務(wù)方法至關(guān)重要。

圖片

圖1 多任務(wù)模型輸出結(jié)果

多任務(wù)學(xué)習(xí)的目標(biāo)是通過多個任務(wù)之間的共享信息來學(xué)習(xí)更好的表示,尤其是基于CNN的多任務(wù)學(xué)習(xí)方法還可以實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的卷積共享。Mask R-CNN 擴展了 Faster R-CNN,增加了一個預(yù)測對象掩碼的分支,有效地結(jié)合了實例分割和對象檢測任務(wù),這兩個任務(wù)可以相互提升性能。

MultiNet共享一個編碼器和三個獨立的****,同時完成場景分類、目標(biāo)檢測和駕駛區(qū)域分割三個場景感知任務(wù)。它在這些任務(wù)上表現(xiàn)良好,并在 KITTI 可行駛區(qū)域分割任務(wù)上達(dá)到了最先進的水平。然而,分類任務(wù)在控制車輛方面不如車道檢測那么重要。

DLT-Net繼承了編碼器-****結(jié)構(gòu),將交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測結(jié)合在一起,并提出上下文張量來融合****之間的特征圖,以在任務(wù)之間共享指定信息。雖然具有競爭力的性能,但它并沒有達(dá)到實時性。 

張等人提出了車道區(qū)域分割和車道邊界檢測之間相互關(guān)聯(lián)的子結(jié)構(gòu),同時提出了一種新的損失函數(shù)來將車道線限制在車道區(qū)域的外輪廓上,以便它們在幾何上重疊。然而,這個先驗的假設(shè)也限制了它的應(yīng)用,因為它只適用于車道線緊緊包裹車道區(qū)域的場景。

更重要的是,多任務(wù)模型的訓(xùn)練范式也值得思考。康等人指出只有當(dāng)所有這些任務(wù)確實相關(guān)時,聯(lián)合訓(xùn)練才是合適和有益的,否則需要采用交替優(yōu)化。所以 Faster R-CNN 采用實用的 4 步訓(xùn)練算法來學(xué)習(xí)共享特征,這種范式有時可能會有所幫助,但也乏善可陳。

本文為全景駕駛感知系統(tǒng)構(gòu)建了一個高效的多任務(wù)網(wǎng)絡(luò)YOLOP,包括目標(biāo)檢測、可行駛區(qū)域分割和車道檢測任務(wù),并且可以在部署 TensorRT 的嵌入式設(shè)備 Jetson TX2 上實現(xiàn)實時。通過同時處理自動駕駛中的這三個關(guān)鍵任務(wù),本文方法減少了全景駕駛感知系統(tǒng)的推理時間,將計算成本限制在一個合理的范圍內(nèi),并提高了每個任務(wù)的性能。

為了獲得高精度和快速的速度,YOLOP設(shè)計了一個簡單高效的網(wǎng)絡(luò)架構(gòu)。本文使用輕量級 CNN 作為編碼器從圖像中提取特征,然后將這些特征圖饋送到三個****以完成各自的任務(wù)。檢測****基于當(dāng)前性能最佳的單級檢測網(wǎng)絡(luò) YOLOv4,主要有兩個原因:(1)單級檢測網(wǎng)絡(luò)比兩級檢測網(wǎng)絡(luò)更快,(2) 單級檢測器基于網(wǎng)格的預(yù)測機制與其他兩個語義分割任務(wù)相關(guān),而實例分割通常與基于區(qū)域的檢測器相結(jié)合。編碼器輸出的特征圖融合了不同級別和尺度的語義特征,分割分支可以利用這些特征圖出色地完成像素級語義預(yù)測。

除了端到端的訓(xùn)練策略外,本文還嘗試了一些交替優(yōu)化范式,逐步訓(xùn)練模型。一方面,將不相關(guān)的任務(wù)放在不同的訓(xùn)練步驟中,以防止相互限制,另一方面,先訓(xùn)練的任務(wù)可以指導(dǎo)其他任務(wù),所以這種范式有時雖然繁瑣但效果很好。然而,實驗表明本文所提的模型并沒有這個必要,因為端到端訓(xùn)練的模型可以表現(xiàn)得足夠好。最終,所設(shè)計的全景駕駛感知系統(tǒng)在單個 NVIDIA TITAN XP 上達(dá)到了 41 FPS,在 Jetson TX2 上達(dá)到了 23 FPS;同時,它在 BDD100K 數(shù)據(jù)集的三個任務(wù)上取得SOTA。

YOLOP主要貢獻是:

(1)提出了一個高效的多任務(wù)網(wǎng)絡(luò),可以一個網(wǎng)絡(luò)模型同時處理自動駕駛中的三個關(guān)鍵任務(wù):物體檢測、可行駛區(qū)域分割和車道檢測,減少推理時間的同時提高了每項任務(wù)的性能,顯著節(jié)省計算成本。應(yīng)該是第一個在嵌入式設(shè)備上一個模型同時跑三個任務(wù)實現(xiàn)實時性,同時在 BDD100K 數(shù)據(jù)集上保持SOTA的工作。

(2)設(shè)計了消融實驗驗證了所提多任務(wù)處理方案的有效性,證明了三個任務(wù)可以聯(lián)合學(xué)習(xí),無需繁瑣的交替優(yōu)化。


三、YOLOP方法細(xì)節(jié)

本文提出了一個簡單高效的前饋網(wǎng)絡(luò),可以同時完成交通目標(biāo)檢測、可行駛區(qū)域分割和車道檢測任務(wù)。如圖 2 所示,本文的全景駕駛感知單次網(wǎng)絡(luò) YOLOP,包含一個共享編碼器和三個后續(xù)****來解決特定任務(wù)。不同****之間沒有復(fù)雜和冗余的共享塊,這減少了計算消耗并使網(wǎng)絡(luò)能夠輕松地進行端到端的訓(xùn)練。

圖片

圖2 YOLOP網(wǎng)絡(luò)結(jié)構(gòu)

A. 編碼器

網(wǎng)絡(luò)共享一個編碼器,它由骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)組成。

1. Backbone

骨干網(wǎng)絡(luò)用于提取輸入圖像的特征。通常將一些經(jīng)典的圖像分類網(wǎng)絡(luò)作為主干。鑒于YOLOv4在物體檢測上的優(yōu)異性能,本文選擇CSPDarknet 作為主干,其解決了優(yōu)化 Cspnet 時梯度重復(fù)的問題。它支持特征傳播和特征重用,減少了參數(shù)量和計算量,有利于保證網(wǎng)絡(luò)的實時性。

2. Neck

Neck 用于融合 backbone 產(chǎn)生的特征。YOLOP 的 Neck 主要由空間金字塔池(SPP)模塊和特征金字塔網(wǎng)絡(luò)(FPN)模塊組成。SPP生成并融合不同尺度的特征,F(xiàn)PN融合不同語義層次的特征,使得生成的特征包含多尺度、多語義層次的信息,采用串聯(lián)的方法來融合這些特征。

B. ****

網(wǎng)絡(luò)中的三個頭是三個任務(wù)的特定****。

1. Detect Head

與YOLOv4類似,采用基于anchor的多尺度檢測方案。首先,使用一種稱為路徑聚合網(wǎng)絡(luò)(PAN)的結(jié)構(gòu),其是一種自下而上的特征金字塔網(wǎng)絡(luò)。FPN自頂向下傳遞語義特征,PAN自底向上傳遞定位特征,將它們結(jié)合起來以獲得更好的特征融合效果,直接使用PAN中的多尺度融合特征圖進行檢測。多尺度特征圖的每個網(wǎng)格將被分配三個不同長寬比的先驗anchor,檢測頭將預(yù)測位置的偏移量、尺度化的高度和寬度,以及每個類別的對應(yīng)概率和預(yù)測的置信度。

2. Drivable Area Segment Head & Lane Line Segment Head

可行駛區(qū)域分割頭和車道線分割頭采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將 FPN 的底層饋送到分割分支,大小為 (W/8, H/8, 256)。分割分支非常簡單,經(jīng)過三個上采樣過程,將輸出特征圖恢復(fù)到(W, H, 2)的大小,兩個通道分別代表了輸入圖像中每個像素對于可行駛區(qū)域/車道線和背景的概率。由于頸部網(wǎng)絡(luò)中共享SPP,本文沒有像其他人通常所做的那樣添加額外的SPP模塊到分割分支,因為這不會對所提網(wǎng)絡(luò)的性能帶來任何改善。此外,上采樣層使用最鄰近插值方法來降低計算成本而不是反卷積。因此,模型的分割****不僅獲得了高精度的輸出,而且在推理過程中也非常快。

C. 損失函數(shù)

由于網(wǎng)絡(luò)中有三個****,因此多任務(wù)損失包含三個部分。對于檢測損失  ,它是分類損失、目標(biāo)損失和邊界框損失的加權(quán)和,如公式(1)所示:

ααα

其中  和  采用的是 Focal Loss 損失,用于減少分類良好的樣本的損失,從而迫使網(wǎng)絡(luò)專注于困難的樣本。  用于懲罰分類,  用于懲罰一個預(yù)測的置信度。  采用的是 CIoU,它考慮了預(yù)測框和 ground truth 之間的距離、重疊率、尺度和縱橫比的相似性。


可行駛區(qū)域分割的損失  和車道線分割損失  都是包含具有 Logits  的交叉熵?fù)p失,旨在最小化網(wǎng)絡(luò)輸出像素和目標(biāo)之間的分類誤差。值得提出的是 IoU loss:   添加到了  ,它對于車道線稀疏類別的預(yù)測特別有效。  和  分別定義為等式(2)和(3):


 
 


最終損失函數(shù)是三個部分的加權(quán)和,如公式 (4) 所示: γγγ

D. 訓(xùn)練范式

本文嘗試了不同的范式來訓(xùn)練模型。最簡單的一種是端到端的訓(xùn)練,可以聯(lián)合學(xué)習(xí)三個任務(wù)。當(dāng)所有任務(wù)確實相關(guān)時,這種訓(xùn)練范式很有用。

此外,還嘗試了一些交替優(yōu)化算法,逐步訓(xùn)練模型。在每一步中,模型都可以專注于一個或多個相關(guān)的任務(wù),而不管那些不相關(guān)的任務(wù)。即使不是所有的任務(wù)都是相關(guān)的,所提模型仍然可以通過這種范式對每個任務(wù)進行充分的學(xué)習(xí)。算法 1 說明了一種逐步訓(xùn)練方法的過程。圖片

算法1 一種逐步訓(xùn)練多任務(wù)模型的方法


四、實驗

A. 設(shè)置

1. 數(shù)據(jù)集設(shè)置

BDD100K 數(shù)據(jù)集支持自動駕駛領(lǐng)域多任務(wù)學(xué)習(xí)的研究,擁有 10 萬幀圖片和 10 個任務(wù)的注釋,是最大的駕駛視頻數(shù)據(jù)集。由于數(shù)據(jù)集具有地理、環(huán)境和天氣的多樣性,在 BDD100K 數(shù)據(jù)集上訓(xùn)練的算法足夠健壯,可以遷移到新環(huán)境,因此用 BDD100K 數(shù)據(jù)集來訓(xùn)練和評估網(wǎng)絡(luò)是很好的選擇。BDD100K 數(shù)據(jù)集分為三部分,70K 圖像的訓(xùn)練集,10K 圖像的驗證集,20K 圖像的測試集。由于測試集的標(biāo)簽不是公開的,所以在驗證集上進行模型評估。

2. 實現(xiàn)細(xì)節(jié)

為了提高模型的性能,根據(jù)經(jīng)驗采用了一些實用的技術(shù)和數(shù)據(jù)增強方法。

為了使檢測器能夠獲得更多交通場景中物體的先驗知識,使用 k-means 聚類算法從數(shù)據(jù)集的所有檢測幀中獲取先驗錨點。使用 Adam 作為優(yōu)化器來訓(xùn)練模型,初始學(xué)習(xí)率、β1 和 β2 分別設(shè)置為 0.001、0.937 和 0.999。在訓(xùn)練過程中使用預(yù)熱(Warm-up)和余弦退火來調(diào)整學(xué)習(xí)率,旨在引導(dǎo)模型更快更好地收斂。

使用數(shù)據(jù)增強來增加圖像的變化,使模型在不同環(huán)境中具有魯棒性。訓(xùn)練方案中考慮了光度失真和幾何畸變,調(diào)整圖像的色調(diào)(hue)、飽和度(saturation)和像素值進行光度失真,使用隨機旋轉(zhuǎn)、縮放、平移、剪切和左右翻轉(zhuǎn)進行幾何畸變。

3. 實驗設(shè)置

實驗中選擇了一些優(yōu)秀的多任務(wù)網(wǎng)絡(luò)和專注于單個任務(wù)的網(wǎng)絡(luò)與本文所提網(wǎng)絡(luò)進行比較。 

MultiNet 和 DLT-Net 都同時處理多個全景駕駛感知任務(wù),并且在 BDD100K 數(shù)據(jù)集上的目標(biāo)檢測和可行駛區(qū)域分割任務(wù)中取得了很好的性能,F(xiàn)aster-RCNN 是兩階段目標(biāo)檢測網(wǎng)絡(luò)的杰出代表,YOLOv5 是在 COCO 數(shù)據(jù)集上實現(xiàn)最先進性能的單級網(wǎng)絡(luò),PSPNet憑借其超強的聚合全局信息能力在語義分割任務(wù)上取得了出色的表現(xiàn)。通過在 BDD100k 數(shù)據(jù)集上重新訓(xùn)練上述網(wǎng)絡(luò),與本文在目標(biāo)檢測和可行駛區(qū)域分割任務(wù)上的網(wǎng)絡(luò)進行比較。

由于在 BDD100K 數(shù)據(jù)集上沒有合適的現(xiàn)有多任務(wù)網(wǎng)絡(luò)處理車道檢測任務(wù),本文將所提網(wǎng)絡(luò)與 Enet、SCNN 和 Enet-SAD 這三個先進的車道檢測網(wǎng)絡(luò)進行了比較。

另外,將聯(lián)合訓(xùn)練范式的性能與多種交替訓(xùn)練范式進行了比較,將經(jīng)過訓(xùn)練以處理多項任務(wù)的多任務(wù)模型的準(zhǔn)確性和速度與經(jīng)過訓(xùn)練以執(zhí)行特定任務(wù)的模型進行比較。實驗中將BDD100K 數(shù)據(jù)集中的圖像從 1280×720×3 調(diào)整為 640×384×3,所有對照實驗都遵循相同的實驗設(shè)置和評估指標(biāo),均在 NVIDIA GTX TITAN XP 上運行。


B. 結(jié)果

通過簡單的端到端訓(xùn)練YOLOP,將其與所有三個任務(wù)的其他代表性模型進行比較。

1. 交通目標(biāo)檢測結(jié)果

由于 Multinet 和 DLT-Net 只能檢測車輛,我們只考慮BDD100K數(shù)據(jù)集上5個模型的車輛檢測結(jié)果。如表 I 所示,使用 Recall 和 mAP50 作為檢測精度的評估指標(biāo)。YOLOP在檢測精度上超過了 Faster RCNN、MultiNet 和 DLT-Net,并且可以與實際上使用更多技巧的 YOLOv5s 相媲美。速度上模型可以實時推斷,YOLOv5s 更快是因為它沒有車道線頭和可行駛區(qū)域頭。交通目標(biāo)檢測的可視化如圖 3 所示。

圖片

圖片

2. 可行駛區(qū)域分割結(jié)果

本文將 BDD100K 數(shù)據(jù)集中的“區(qū)域/可行駛”和“區(qū)域/替代”類都?xì)w為“可行駛區(qū)域”,模型只需要區(qū)分圖像中的可行駛區(qū)域和背景。mIoU 用于評估不同模型的分割性能。從結(jié)果表II可以看出,YOLOP 分別優(yōu)于 MultiNet、DLT-Net 和 PSPNet 19.9%、20.2% 和 1.9%,而且推理速度快 4 到 5 倍。可行駛區(qū)域分割的可視化結(jié)果如圖 4 所示。

圖片

圖片

3. 車道檢測結(jié)果

BDD100K 數(shù)據(jù)集中的車道線用兩條線標(biāo)注,所以直接使用標(biāo)注非常棘手。實驗遵循侯等人的設(shè)置以便進行比較,首先根據(jù)兩條標(biāo)線計算中心線,然后將訓(xùn)練集中的車道線寬度設(shè)置為8個像素,同時保持測試集的車道線寬度為2個像素,使用像素精度和車道的 IoU 作為評估指標(biāo)。如表 III 所示,YOLOP的性能大幅超過了其他三個模型。車道檢測的可視化結(jié)果如圖5所示。

圖片

圖片

C. 消融研究

本文設(shè)計了以下兩個消融實驗來進一步說明所提方案的有效性。

1. End-to-end vs Step-by-step

表 IV 比較了聯(lián)合訓(xùn)練范式與多種交替訓(xùn)練范式的性能。可以看出YOLOP通過端到端的訓(xùn)練已經(jīng)表現(xiàn)得非常好,已經(jīng)不再需要進行交替優(yōu)化。有趣的是,端到端范式訓(xùn)練檢測任務(wù)首先似乎表現(xiàn)更好,這可能主要是因為整個模型更接近一個完整的檢測模型,并且模型在執(zhí)行檢測任務(wù)時更難收斂(更難的任務(wù)用更適配的模型能達(dá)到更好的效果)。另外,由三步組成的范式略勝于兩步,類似的交替訓(xùn)練可以運行更多的步驟,但改進已可以忽略不計。

圖片

注:E, D, S 和 W 分別表示Encoder, Detect head, two Segment heads and whole network。比如 ED-S-W 表示先只訓(xùn)練 Encoder and Detect head,然后凍結(jié) Encoder and Detect head訓(xùn)練two Segmentation heads,最后聯(lián)合三個任務(wù)訓(xùn)練whole network


2. Multi-task vs Single task

為了驗證多任務(wù)學(xué)習(xí)方案的有效性,對多任務(wù)方案和單任務(wù)方案的性能進行了比較。表 V 顯示了這兩種方案在每個特定任務(wù)上的性能比較,可以看出采用多任務(wù)方案訓(xùn)練的模型性能接近于專注單個任務(wù)的性能,更重要的是,與單獨執(zhí)行每個任務(wù)相比,多任務(wù)模型可以節(jié)省大量時間。

圖片


五、總結(jié)

本文提出了一個簡單高效的多任務(wù)網(wǎng)絡(luò)YOLOP,它可以同時處理物體檢測、可行駛區(qū)域分割和車道線檢測三個典型的駕駛感知任務(wù),并且可以進行端到端的訓(xùn)練。訓(xùn)練出的模型在具有挑戰(zhàn)性的 BDD100k 數(shù)據(jù)集上表現(xiàn)異常出色,在所有三個任務(wù)上都達(dá)到或大大超過了最先進的水平,并且可以在嵌入式設(shè)備Jetson TX2上進行實時推理,使得模型可以在真實場景中使用。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

關(guān)鍵詞: AI

相關(guān)推薦

基于Microchip MCU的AI/ML培訓(xùn)教程2

視頻 2025-11-12

基于Microchip MCU的AI/ML培訓(xùn)教程1

視頻 2025-11-12

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

盡管與亞馬遜達(dá)成芯片合作,英偉達(dá)股價仍下跌 3%,油價與加息擔(dān)憂沖擊 AI 交易

基于Microchip MCU的AI/ML培訓(xùn)教程3

視頻 2025-11-12

尼吉康的事業(yè)介紹

視頻 2025-07-25

EEPW2018年6月刊(5G)

資源下載 2018-06-11

AI正在成為美國軍事系統(tǒng)核心

2026-03-24

電子元件培訓(xùn)教材

英偉達(dá) Groq 3:AI 推理時代已至

在工業(yè)自動化和智能家用電器設(shè)計中實現(xiàn)支持邊緣 AI 的電機控制

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

視頻 2025-12-19

Gartner發(fā)布三大AI價值實現(xiàn)路徑

邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產(chǎn)品注入更強智能

嵌入式系統(tǒng) 2026-03-25

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 2017-12-14

芯片互連初創(chuàng)企業(yè)Kandou AI完成2.25億美元融資

賦能AI與新能源時代的高動態(tài)MW級負(fù)載平臺

AI狂潮 半導(dǎo)體通膨壓力重重

TI 攜手 NVIDIA 推出面向下一代 AI 數(shù)據(jù)中心的完整 800 VDC 電源架構(gòu)

更多 培訓(xùn)課堂
更多 焦點
更多 視頻

技術(shù)專區(qū)