"); //-->
YOLOv7相同體量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。
01
概述
今天介紹的,是研究者新提出了A-ViT,一種針對不同復雜度的圖像自適應調整vision transformers (ViT) 的推理成本的方法。A-ViT通過在推理進行時自動減少在網絡中處理的視覺轉換器中的tokens數量來實現這一點。
研究者為這項任務重新制定了自適應計算時間(ACT[Adaptive computation time for recurrent neural networks]),擴展了停止以丟棄冗余空間標記。vision transformers吸引人的架構特性使我們的自適應tokens減少機制能夠在不修改網絡架構或推理硬件的情況下加速推理。A-ViT不需要額外的參數或子網絡來停止,因為將自適應停止的學習建立在原始網絡參數的基礎上。與之前的ACT方法相比,進一步引入了分布式先驗正則化,可以穩定訓練。在圖像分類任務(ImageNet1K)中,展示了提出的A-ViT在過濾信息空間特征和減少整體計算方面的高效性。所提出的方法將DeiT-Tiny的吞吐量提高了62%,將DeiT-Small的吞吐量提高了38%,準確率僅下降了0.3%,大大優于現有技術。
02
背景
Transformers已經成為一類流行的神經網絡架構,它使用高度表達的注意力機制來計算網絡輸出。它們起源于自然語言處理(NLP)社區,已被證明可有效解決NLP中的廣泛問題,例如機器翻譯、表示學習和問答。最近,vision transformers在視覺社區中越來越受歡迎,它們已成功應用于廣泛的視覺應用,例如圖像分類、目標檢測、圖像生成和語義分割。最流行的范式仍然是vision transformers通過將圖像拆分為一系列有序的補丁來形成tokens并在tokens之間執行inter-/intra-calculations以解決基礎任務。使用vision transformers處理圖像在計算上仍然很昂貴,這主要是由于tokens之間的交互次數的平方數。因此,在大量計算和內存資源的情況下,在數據處理集群或邊緣設備上部署vision transformers具有挑戰性。
03
新框架分析
首先看下圖:
上圖是一種為vision transformers啟用自適應tokens計算的方法。使用自適應停止模塊來增加vision transformers塊,該模塊計算每個tokens的停止概率。該模塊重用現有塊的參數,并從每個塊的最后一個密集層借用單個神經元來計算停止概率,不施加額外的參數或計算。一旦達到停止條件,tokens就會被丟棄。通過自適應停止tokens,我們僅對被認為對任務有用的活動tokens執行密集計算。結果,vision transformers中的連續塊逐漸接收到更少的tokens,從而導致更快的推理。學習到的tokens停止因圖像而異,但與圖像語義非常吻合(參見上面的示例)。這會在現成的計算平臺上立即實現開箱即用的推理加速。
A-ViT的一個例子:在可視化中,為了簡單起見,省略了(i)其他補丁標記,(ii)類和補丁標記之間的注意力以及(iii)殘差連接。 每個標記的第一個元素保留用于停止分數計算,不增加計算開銷。我們用下標c表示類標記,因為它有特殊處理。由k索引的每個token都有一個單獨的Nk累加器,并停在不同的深度。與標準ACT不同,平均場公式僅適用于分類標記,而其他標記通過注意力對類別標記做出貢獻。這允許在不聚合圖像/補丁token的情況下進行自適應tokens計算。
04
實驗分析及可視化
Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.
(a) ImageNet-1K驗證集上A-ViT-T的每個圖像補丁位置的平均tokens深度。(b)通過變壓器塊的停止分數分布。每個點與一個隨機采樣的圖像相關聯,表示該層的平均tokens分數。
由平均tokens深度確定的ImageNet-1K驗證集中的難易樣本的視覺比較。請注意,上面的所有圖像都被正確分類——唯一的區別是難樣本需要更多的深度來處理它們的語義信息。與右側圖像相比,左側圖像中的標記退出大約5層。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
相關推薦
萬家樂JSYZ5-AI燃氣熱水器電路圖
海聯達(Aigale)Ai-HD1 無線全高清套件拆解
基于Microchip MCU的AI/ML培訓教程2
AI正在成為美國軍事系統核心
基于Ai-WB2-12F與Rd-04的雷達檢測系統
AI狂潮 半導體通膨壓力重重
邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產品注入更強智能
iCAN-4017 AI功能模塊
賦能AI與新能源時代的高動態MW級負載平臺
人工智能是如何幫助阻止造假者的?
WTC-AI太陽能熱水器電路圖
繼上次海聯達Ai-ap100拆機之電源改造
CSR8670CSR8675智能語音Alexa藍牙方案開發
芯片互連初創企業Kandou AI完成2.25億美元融資
電子元件培訓教材
英偉達 Groq 3:AI 推理時代已至
基于Microchip MCU的AI/ML培訓教程3
瑞薩電子AI單元解決方案成功提高GE醫療(日本)日野工廠的生產力
在工業自動化和智能家用電器設計中實現支持邊緣 AI 的電機控制
EEPW2018年6月刊(5G)
Gartner發布三大AI價值實現路徑
WTC-AI型太陽能熱水器電路圖
盡管與亞馬遜達成芯片合作,英偉達股價仍下跌 3%,油價與加息擔憂沖擊 AI 交易
EEPW2018年3月刊(工業物聯網)
釋說芯語16:硬科技:構建企業未來之路(附PPT)
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
基于VisitionX制造智能眼鏡
TI 攜手 NVIDIA 推出面向下一代 AI 數據中心的完整 800 VDC 電源架構
基于Microchip MCU的AI/ML培訓教程1
尼吉康的事業介紹