專欄中心

EEPW首頁 > 專欄 > “目標檢測”+“視覺理解”實現(xiàn)對輸入圖像的理解及翻譯

“目標檢測”+“視覺理解”實現(xiàn)對輸入圖像的理解及翻譯

發(fā)布人：CV研究院時間：2022-07-23 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

提出了GLIPv2，一種基于VL的理解模型，它服務(wù)于localization任務(wù)（例如，目標檢測、實例分割）和視覺語言（VL）理解任務(wù)（例如，VQA、圖像字幕）。

概述

GLIPv2優(yōu)雅地將localization預(yù)訓(xùn)練和視覺語言預(yù)訓(xùn)練 (VLP) 與三個預(yù)訓(xùn)練任務(wù)相結(jié)合：phrase grounding作為檢測任務(wù)的VL重構(gòu)，區(qū)域-詞對比學(xué)習(xí)作為新的區(qū)域-詞級對比學(xué)習(xí)任務(wù)和掩碼語言建模。這種統(tǒng)一不僅簡化了之前的多階段VLP程序，而且實現(xiàn)了定位和理解任務(wù)之間的互惠互利。實驗結(jié)果表明，單個GLIPv2模型（所有模型權(quán)重共享）在各種定位和理解任務(wù)上實現(xiàn)了接近SoTA的性能。該模型還展示了：

在開放詞匯目標檢測任務(wù)上的強大的零樣本和少樣本自適應(yīng)性能；
在 VL 理解任務(wù)上的出色grounding能力

背景

最近，人們普遍關(guān)注構(gòu)建通用視覺系統(tǒng)，也稱為視覺基礎(chǔ)模型，它可以同時解決各種視覺任務(wù)，例如圖像分類、物體檢測，以及視覺語言 (VL) 理解。特別感興趣的是定位任務(wù)（例如，目標檢測和分割）和VL理解任務(wù)（例如，VQA和圖像字幕）之間的統(tǒng)一。

localization預(yù)訓(xùn)練有利于VL任務(wù)，“l(fā)ocalization->VLP”兩階段預(yù)訓(xùn)練過程是VL社區(qū)。一個長期存在的挑戰(zhàn)是localization和理解的統(tǒng)一，旨在這兩種任務(wù)之間互惠互利，簡化預(yù)訓(xùn)練程序并降低預(yù)訓(xùn)練成本。

然而，這兩種任務(wù)似乎有很大的不同：定位任務(wù)僅是視覺任務(wù)，需要細粒度的輸出（例如，邊界框或像素掩碼），而VL理解任務(wù)強調(diào)兩種模式之間的融合，需要高級語義輸出。例如，答案或標題）。

新框架

Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.

A Unified VL Formulation and Architecture

GLIPv2統(tǒng)一公式的核心是分類匹配技巧，它將任何特定于任務(wù)的固定詞匯分類問題重新表述為與任務(wù)無關(guān)的開放詞匯視覺語言匹配問題。最好的例子是在CLIP中將圖像分類重新表述為圖像-文本匹配，這使模型能夠直接從原始圖像-文本數(shù)據(jù)中學(xué)習(xí)，并在開放詞匯分類任務(wù)上實現(xiàn)強大的零樣本結(jié)果。在GLIPv2 中，我們用視覺語言匹配點積層替換了傳統(tǒng)單模態(tài)視覺模型中的每個語義分類線性層。

GLIPv2 Pre-training

GLIPv2使用三個預(yù)訓(xùn)練損失進行預(yù)訓(xùn)練：來自目標檢測任務(wù)的視覺語言重構(gòu)的phrase grounding損失Lground、來自新的區(qū)域單詞級別對比學(xué)習(xí)任務(wù)的區(qū)域單詞對比損失 Linter，以及標準掩碼BERT中提出的語言建模損失Lmlm。

Transfer GLIPv2 to Localization and VL Tasks

我們引入了兩種輕松將GLIPv2傳輸?shù)礁鞣N下游任務(wù)的方法。此外，GLIPv2可以在本地化的同時執(zhí)行傳統(tǒng)的VL任務(wù)（例如VQA），有效地使我們認為的每項任務(wù)都成為“基礎(chǔ)的VL理解”任務(wù)。

GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.

實驗及可視化