久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

專欄中心

EEPW首頁 > 專欄 > 精度提升方法:自適應Tokens的高效視覺Transformer框架

精度提升方法:自適應Tokens的高效視覺Transformer框架

發布人:CV研究院 時間:2022-07-23 來源:工程師 發布文章

YOLOv7相同體量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。


01

概述


今天介紹的,是研究者新提出了A-ViT,一種針對不同復雜度的圖像自適應調整vision transformers (ViT) 的推理成本的方法。A-ViT通過在推理進行時自動減少在網絡中處理的視覺轉換器中的tokens數量來實現這一點

圖片

研究者為這項任務重新制定了自適應計算時間(ACT[Adaptive computation time for recurrent neural networks]),擴展了停止以丟棄冗余空間標記。vision transformers吸引人的架構特性使我們的自適應tokens減少機制能夠在不修改網絡架構或推理硬件的情況下加速推理A-ViT不需要額外的參數或子網絡來停止,因為將自適應停止的學習建立在原始網絡參數的基礎上。與之前的ACT方法相比,進一步引入了分布式先驗正則化,可以穩定訓練。在圖像分類任務(ImageNet1K)中,展示了提出的A-ViT在過濾信息空間特征和減少整體計算方面的高效性。所提出的方法將DeiT-Tiny的吞吐量提高了62%,將DeiT-Small的吞吐量提高了38%,準確率僅下降了0.3%,大大優于現有技術。


02

背景


Transformers已經成為一類流行的神經網絡架構,它使用高度表達的注意力機制來計算網絡輸出。它們起源于自然語言處理(NLP)社區,已被證明可有效解決NLP中的廣泛問題,例如機器翻譯、表示學習和問答。最近,vision transformers在視覺社區中越來越受歡迎,它們已成功應用于廣泛的視覺應用,例如圖像分類、目標檢測、圖像生成和語義分割。最流行的范式仍然是vision transformers通過將圖像拆分為一系列有序的補丁來形成tokens并在tokens之間執行inter-/intra-calculations以解決基礎任務。使用vision transformers處理圖像在計算上仍然很昂貴,這主要是由于tokens之間的交互次數的平方數。因此,在大量計算和內存資源的情況下,在數據處理集群或邊緣設備上部署vision transformers具有挑戰性

03

新框架分析


首先看下圖:

圖片

上圖是一種為vision transformers啟用自適應tokens計算的方法。使用自適應停止模塊來增加vision transformers塊,該模塊計算每個tokens的停止概率。該模塊重用現有塊的參數,并從每個塊的最后一個密集層借用單個神經元來計算停止概率,不施加額外的參數或計算。一旦達到停止條件,tokens就會被丟棄。通過自適應停止tokens,我們僅對被認為對任務有用的活動tokens執行密集計算。結果,vision transformers中的連續塊逐漸接收到更少的tokens,從而導致更快的推理。學習到的tokens停止因圖像而異,但與圖像語義非常吻合(參見上面的示例)。這會在現成的計算平臺上立即實現開箱即用的推理加速

圖片

A-ViT的一個例子:在可視化中,為了簡單起見,省略了(i)其他補丁標記,(ii)類和補丁標記之間的注意力以及(iii)殘差連接。 每個標記的第一個元素保留用于停止分數計算,不增加計算開銷。我們用下標c表示類標記,因為它有特殊處理。由k索引的每個token都有一個單獨的Nk累加器,并停在不同的深度。與標準ACT不同,平均場公式僅適用于分類標記,而其他標記通過注意力對類別標記做出貢獻。這允許在不聚合圖像/補丁token的情況下進行自適應tokens計算。

圖片


04

實驗分析及可視化


圖片

Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.

圖片

(a) ImageNet-1K驗證集上A-ViT-T的每個圖像補丁位置的平均tokens深度。(b)通過變壓器塊的停止分數分布。每個點與一個隨機采樣的圖像相關聯,表示該層的平均tokens分數。

圖片

由平均tokens深度確定的ImageNet-1K驗證集中的難易樣本的視覺比較。請注意,上面的所有圖像都被正確分類——唯一的區別是難樣本需要更多的深度來處理它們的語義信息。與右側圖像相比,左側圖像中的標記退出大約5層。

圖片

圖片

圖片


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

關鍵詞: AI

相關推薦

基于Microchip MCU的AI/ML培訓教程2

視頻 2025-11-12

AI正在成為美國軍事系統核心

2026-03-24

AI狂潮 半導體通膨壓力重重

智能計算 2026-03-23

邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產品注入更強智能

嵌入式系統 2026-03-25

賦能AI與新能源時代的高動態MW級負載平臺

CSR8670CSR8675智能語音Alexa藍牙方案開發

資源下載 2017-12-14

芯片互連初創企業Kandou AI完成2.25億美元融資

電子元件培訓教材

英偉達 Groq 3:AI 推理時代已至

基于Microchip MCU的AI/ML培訓教程3

視頻 2025-11-12

在工業自動化和智能家用電器設計中實現支持邊緣 AI 的電機控制

EEPW2018年6月刊(5G)

資源下載 2018-06-11

Gartner發布三大AI價值實現路徑

盡管與亞馬遜達成芯片合作,英偉達股價仍下跌 3%,油價與加息擔憂沖擊 AI 交易

EEPW2018年3月刊(工業物聯網)

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

視頻 2025-12-19

TI 攜手 NVIDIA 推出面向下一代 AI 數據中心的完整 800 VDC 電源架構

基于Microchip MCU的AI/ML培訓教程1

視頻 2025-11-12

尼吉康的事業介紹

視頻 2025-07-25
更多 培訓課堂
更多 焦點
更多 視頻

技術專區