"); //-->
提出了GLIPv2,一種基于VL的理解模型,它服務(wù)于localization任務(wù)(例如,目標檢測、實例分割)和視覺語言(VL)理解任務(wù)(例如,VQA、圖像字幕)。
01
概述
02
背景
最近,人們普遍關(guān)注構(gòu)建通用視覺系統(tǒng),也稱為視覺基礎(chǔ)模型,它可以同時解決各種視覺任務(wù),例如圖像分類、物體檢測,以及視覺語言 (VL) 理解。特別感興趣的是定位任務(wù)(例如,目標檢測和分割)和VL理解任務(wù)(例如,VQA和圖像字幕)之間的統(tǒng)一。
localization預(yù)訓(xùn)練有利于VL任務(wù),“l(fā)ocalization->VLP”兩階段預(yù)訓(xùn)練過程是VL社區(qū)。一個長期存在的挑戰(zhàn)是localization和理解的統(tǒng)一,旨在這兩種任務(wù)之間互惠互利,簡化預(yù)訓(xùn)練程序并降低預(yù)訓(xùn)練成本。
然而,這兩種任務(wù)似乎有很大的不同:定位任務(wù)僅是視覺任務(wù),需要細粒度的輸出(例如,邊界框或像素掩碼),而VL理解任務(wù)強調(diào)兩種模式之間的融合,需要高級語義輸出。例如,答案或標題)。
03
新框架
Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2統(tǒng)一公式的核心是分類匹配技巧,它將任何特定于任務(wù)的固定詞匯分類問題重新表述為與任務(wù)無關(guān)的開放詞匯視覺語言匹配問題。最好的例子是在CLIP中將圖像分類重新表述為圖像-文本匹配,這使模型能夠直接從原始圖像-文本數(shù)據(jù)中學(xué)習(xí),并在開放詞匯分類任務(wù)上實現(xiàn)強大的零樣本結(jié)果。在GLIPv2 中,我們用視覺語言匹配點積層替換了傳統(tǒng)單模態(tài)視覺模型中的每個語義分類線性層。
GLIPv2 Pre-training
GLIPv2使用三個預(yù)訓(xùn)練損失進行預(yù)訓(xùn)練:來自目標檢測任務(wù)的視覺語言重構(gòu)的phrase grounding損失Lground、來自新的區(qū)域單詞級別對比學(xué)習(xí)任務(wù)的區(qū)域單詞對比損失 Linter,以及標準掩碼BERT中提出的語言建模損失Lmlm。
Transfer GLIPv2 to Localization and VL Tasks
我們引入了兩種輕松將GLIPv2傳輸?shù)礁鞣N下游任務(wù)的方法。此外,GLIPv2可以在本地化的同時執(zhí)行傳統(tǒng)的VL任務(wù)(例如VQA),有效地使我們認為的每項任務(wù)都成為“基礎(chǔ)的VL理解”任務(wù)。
GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
實驗及可視化
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
相關(guān)推薦
芯片互連初創(chuàng)企業(yè)Kandou AI完成2.25億美元融資
基于Microchip MCU的AI/ML培訓(xùn)教程3
盡管與亞馬遜達成芯片合作,英偉達股價仍下跌 3%,油價與加息擔憂沖擊 AI 交易
基于VisitionX制造智能眼鏡
萬家樂JSYZ5-AI燃氣熱水器電路圖
釋說芯語16:硬科技:構(gòu)建企業(yè)未來之路(附PPT)
人工智能是如何幫助阻止造假者的?
尼吉康的事業(yè)介紹
邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產(chǎn)品注入更強智能
Gartner發(fā)布三大AI價值實現(xiàn)路徑
英偉達 Groq 3:AI 推理時代已至
基于Microchip MCU的AI/ML培訓(xùn)教程2
EEPW2018年6月刊(5G)
CSR8670CSR8675智能語音Alexa藍牙方案開發(fā)
基于Microchip MCU的AI/ML培訓(xùn)教程1
賦能AI與新能源時代的高動態(tài)MW級負載平臺
AI狂潮 半導(dǎo)體通膨壓力重重
TI 攜手 NVIDIA 推出面向下一代 AI 數(shù)據(jù)中心的完整 800 VDC 電源架構(gòu)
WTC-AI太陽能熱水器電路圖
基于Ai-WB2-12F與Rd-04的雷達檢測系統(tǒng)
繼上次海聯(lián)達Ai-ap100拆機之電源改造
在工業(yè)自動化和智能家用電器設(shè)計中實現(xiàn)支持邊緣 AI 的電機控制
海聯(lián)達(Aigale)Ai-HD1 無線全高清套件拆解
WTC-AI型太陽能熱水器電路圖
EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))
電子元件培訓(xùn)教材
瑞薩電子AI單元解決方案成功提高GE醫(yī)療(日本)日野工廠的生產(chǎn)力
AI正在成為美國軍事系統(tǒng)核心
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
iCAN-4017 AI功能模塊