"); //-->
但有一件事讓人非常疑惑:19 年 T5 通過“調(diào)參”發(fā)現(xiàn),設(shè)計(jì)預(yù)訓(xùn)練模型時,Encoder-Decoder 的模型結(jié)構(gòu) + MLM 任務(wù),在下游任務(wù) finetune 效果是最好的。可是在 2202 年的當(dāng)下,主流的大模型用的都是僅 decoder 的模型結(jié)構(gòu)設(shè)計(jì),比如 OpenAI 的 GPT 系列、Google 的 PaLM [1]、Deepmind 的 Chinchilla [2] 等等。這是為什么?難道這些大模型設(shè)計(jì)都有問題?
今天帶來一篇 Hugging Face 和 Google 的文章。這篇文章與 T5 在實(shí)驗(yàn)上的思路相似,通過大量對比設(shè)計(jì),得到一個重磅結(jié)論:要是為了模型的 zero-shot 泛化能力,decoder 結(jié)構(gòu) + 語言模型任務(wù)最好;要是再 multitask finetuning,encoder-decoder 結(jié)構(gòu) + MLM 任務(wù)最好。
除了找到最好的訓(xùn)練方式,作者通過大量的實(shí)驗(yàn),還找到了最好的同時還能最節(jié)省成本的訓(xùn)練方式。訓(xùn)練計(jì)算量只需要九分之一!
論文題目:
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?
論文鏈接:
https://arxiv.org/abs/2204.05832
模型設(shè)計(jì)
模型設(shè)計(jì)可以分成圖中的四個方面,即選什么結(jié)構(gòu)?什么訓(xùn)練目標(biāo)?要不要搞 adaptation?multitask finetuning?文章還在兩個 benchmark 進(jìn)行了評測。
模型結(jié)構(gòu)都基于 transformer,有三個選項(xiàng),如圖所示:
小結(jié)一下,CD 是只用 decoder,ND 是給提示的 decoder,ED 是 encoder-decoder。后面將用縮寫表示。
與模型結(jié)構(gòu)對應(yīng),訓(xùn)練目標(biāo)也有三種:
小結(jié)一下,F(xiàn)LM 就是語言模型目標(biāo),PLM 是帶提示的語言模型目標(biāo),MLM 是掩碼目標(biāo)。后面也會用縮寫表示。
適應(yīng)任務(wù)是預(yù)訓(xùn)練之后,換一個新的訓(xùn)練目標(biāo),繼續(xù)訓(xùn)練。與 finetune 不同的是,適應(yīng)的過程并沒有使用新的下游任務(wù)的數(shù)據(jù),只是繼續(xù)使用預(yù)訓(xùn)練的數(shù)據(jù)。適應(yīng)任務(wù)也可以分成兩類。
多任務(wù)微調(diào) multitask finetuning (MT-F) 是 Hugging Face 去年年底的工作 [3],即拿到預(yù)訓(xùn)練模型,給他在 171 個任務(wù)上用 prompt 的方式同時 finetune。這種方式可以極大地增加預(yù)訓(xùn)練模型的 zero-shot 能力。
實(shí)驗(yàn)和結(jié)論
這篇文章用了兩個 benchmark:
這兩個測試集都是用 prompt 的方式進(jìn)行測試,即直接構(gòu)建 prompt 輸入給預(yù)訓(xùn)練模型,讓模型生成預(yù)測結(jié)果。兩個測試集不同的地方在于,EAI-Eval 的每個任務(wù)只給了一個 prompt,因此評測受 prompt 波動影響比較大,因此在本文的測試?yán)铮髡邆優(yōu)槊總€任務(wù)多設(shè)計(jì)了一些 prompts,來消除隨機(jī)性。
實(shí)驗(yàn)得到如下結(jié)論:
CD 的模型結(jié)構(gòu) + FLM 訓(xùn)練目標(biāo) = zero shot 最好的模型。
這里就跟現(xiàn)在的大模型對上了。大模型都用的是這個組合,有最好的零樣本泛化能力。
ED 的模型結(jié)構(gòu) + MLM 訓(xùn)練目標(biāo) = zero shot 最好的模型。
這張圖左右表示兩個評測集。每張圖上都有九個點(diǎn),代表九個模型架構(gòu)和訓(xùn)練目標(biāo)的組合。左邊 T0-Eval 上結(jié)果非常明顯:可以將九個組合分成三組,左邊是幾個 baseline,中間是三種模型結(jié)構(gòu) + 語言模型訓(xùn)練目標(biāo),右邊是三種模型結(jié)構(gòu) + MLM 訓(xùn)練目標(biāo)。可以明顯看到,MLM 訓(xùn)練目標(biāo)明顯更好,MLM + ED 最好。
預(yù)訓(xùn)練之后,換一個新的訓(xùn)練目標(biāo),繼續(xù)訓(xùn)練,這帶來的主要是訓(xùn)練成本的降低。比如左圖,本身我們想要一個 CD + FLM 的結(jié)合,那就先訓(xùn)一個 ND + MLM,然后改成 CD + FLM 再做適應(yīng)任務(wù),這樣可以總體提速 1.6 倍。
經(jīng)過一系列實(shí)驗(yàn),作者最后總結(jié)出一個結(jié)論:如果想最低成本的構(gòu)建效果好的大模型,那就用 CD + FLM 預(yù)訓(xùn)練,然后再改用 ND + MLM 做適應(yīng)任務(wù),最后再使用多任務(wù)微調(diào)。這樣的訓(xùn)練方式要比直接訓(xùn)練提速 9.1 倍,同時效果最好。
總結(jié)
這篇文章跟 T5 非常像,也是用調(diào)參的感覺在設(shè)計(jì)實(shí)驗(yàn),最終找到最好的模型設(shè)計(jì)和訓(xùn)練方式。這樣的論文讀下來也感覺邏輯清晰嚴(yán)謹(jǐn)。
但是從另外一個角度想,這樣的文章似乎也有些無聊:現(xiàn)在大模型的使用,變成了找 prompt 的特征工程。這篇文章的訓(xùn)練和設(shè)計(jì)也變成了調(diào)參,而失去了創(chuàng)新的靈機(jī)一動。這可能代表了大模型領(lǐng)域的內(nèi)卷吧。
參考文獻(xiàn):
[1] Aakanksha Chowdhery, et. el., "Palm: Scaling language modeling with pathways.", https://arxiv.org/abs/2204.02311
[2]Jordan Hoffmann, et. al., "Training Compute-Optimal Large Language Models.", https://arxiv.org/abs/2203.15556[3]Victor Sanh, et. al., "Multitask Prompted Training Enables Zero-Shot Task Generalization", https://arxiv.org/abs/2110.08207*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。
相關(guān)推薦
釋說芯語16:硬科技:構(gòu)建企業(yè)未來之路(附PPT)
Gartner發(fā)布三大AI價值實(shí)現(xiàn)路徑
英偉達(dá) Groq 3:AI 推理時代已至
萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D
海聯(lián)達(dá)(Aigale)Ai-HD1 無線全高清套件拆解
基于Microchip MCU的AI/ML培訓(xùn)教程1
人工智能是如何幫助阻止造假者的?
AI正在成為美國軍事系統(tǒng)核心
EEPW2018年6月刊(5G)
瑞薩電子AI單元解決方案成功提高GE醫(yī)療(日本)日野工廠的生產(chǎn)力
WTC-AI型太陽能熱水器電路圖
基于VisitionX制造智能眼鏡
邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產(chǎn)品注入更強(qiáng)智能
基于Microchip MCU的AI/ML培訓(xùn)教程2
EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))
電子元件培訓(xùn)教材
iCAN-4017 AI功能模塊
芯片互連初創(chuàng)企業(yè)Kandou AI完成2.25億美元融資
TI 攜手 NVIDIA 推出面向下一代 AI 數(shù)據(jù)中心的完整 800 VDC 電源架構(gòu)
尼吉康的事業(yè)介紹
賦能AI與新能源時代的高動態(tài)MW級負(fù)載平臺
在工業(yè)自動化和智能家用電器設(shè)計(jì)中實(shí)現(xiàn)支持邊緣 AI 的電機(jī)控制
盡管與亞馬遜達(dá)成芯片合作,英偉達(dá)股價仍下跌 3%,油價與加息擔(dān)憂沖擊 AI 交易
繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造
WTC-AI太陽能熱水器電路圖
基于Ai-WB2-12F與Rd-04的雷達(dá)檢測系統(tǒng)
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
基于Microchip MCU的AI/ML培訓(xùn)教程3
CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)
AI狂潮 半導(dǎo)體通膨壓力重重