"); //-->
ChatGPT 真的是「通才」嗎?單拎出哪項能力都能完勝其他模型嗎?哪些任務是 ChatGPT 擅長的,哪些不是?為了系統地探索這些問題,南洋理工大學博士生 Chengwei Qin、斯坦福大學計算機科學助理教授楊笛一等人進行了大量實驗。
論文鏈接:https://arxiv.org/pdf/2302.06476.pdf
大型語言模型(LLM)已經被證明能夠解決各種自然語言處理(NLP)任務,而且對于給定的下游任務,它們不依賴任何訓練數據,借助適當的 prompt 就能實現模型調整。這種根據指令執行新任務的能力可以被視為邁向通用人工智能的重要一步。
盡管目前的 LLM 在某些情況下取得了不錯的性能,但在 zero-shot 學習中仍然容易出現各種錯誤。此外,prompt 的格式可以產生實質性的影響。例如,在 prompt 中添加「Let’s think step by step」,模型性能就能得到顯著提升。這些限制說明當前的 LLM 并不是真正的通用語言系統。
近日,OpenAI 發布的 ChatGPT LLM 在 NLP 社區引發極大關注。ChatGPT 是通過「人類反饋強化學習(RLHF)」訓練 GPT-3.5 系列模型而創建的。RLHF 主要包括三個步驟:使用監督學習訓練語言模型;根據人類偏好收集比較數據并訓練獎勵模型;使用強化學習針對獎勵模型優化語言模型。通過 RLHF 訓練,人們觀察到 ChatGPT 在各個方面都具有令人印象深刻的能力,包括對人類輸入生成高質量的響應、拒絕不適當的問題以及根據后續對話自我糾正先前的錯誤。
雖然 ChatGPT 顯示出強大的對話能力,但與現有的 LLM 相比,NLP 社區仍然不清楚 ChatGPT 是否獲得了更好的 zero-shot 泛化能力。為了填補這一研究空白,研究者們通過在涵蓋 7 個代表性任務類別的大量 NLP 數據集上對 ChatGPT 進行評估,系統地研究了它的 zero-shot 學習能力。這些任務包括推理(reasoning)、自然語言推斷(natural language inference)、問答(閱讀理解)、對話、摘要、命名實體識別和情感分析。借助廣泛的實驗,研究者旨在回答以下問題:
為了回答這些問題,作者根據實驗結果比較了 ChatGPT 和最先進的 GPT-3.5 模型 (text-davinci-003) 的性能。此外,他們還報告了 FLAN、T0 和 PaLM 等近期工作的 zero-shot、微調或 few-shot 微調結果。
主要結論
作者表示,據他們所知,這是第一次有人對 ChatGPT 在各種 NLP 任務上的 zero-shot 能力進行研究,旨在提供 ChatGPT 的初步概況。他們的主要發現如下:
方法
如前文所述,該研究主要比較了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任務下的 zero-shot 學習性能。具體而言,他們將任務指令 P 和測試問題 X 作為輸入,模型用 f 表示,然后生成目標文本 Y = f (P, X) 來解決測試問題。不同任務的指令和輸入格式如圖 2 和圖 3 所示。包含六種任務(情感分析、自然語言推理、命名實體識別、問答、對話和摘要)的指令和輸入格式。指令為藍色字體。
推理任務說明。
舉例來說,當模型執行情感分析任務時,任務指令 P 將文本所包含的情感標記為積極或消極,則輸出的答案為積極或消極。當模型在閱讀了指令 P 和輸入內容 X(內容為一部具有相當力量和真實性的令人驚嘆的抒情作品)后,該模型經過判斷,有望輸出 Y 積極。
與上述單階段 prompting 方法不同的是,該研究使用兩階段 prompting(Kojima 等人提出),來完成 zero-shot-CoT。
第一階段采取「讓模型一步一步思考(Let’s think step by step)」,指令 P_1 誘導模型生成基本原理 R。
第二階段采用第一步生成的基本原理 R 以及原始輸入 X 和指令 P_1 作為新的輸入,引導模型生成最終答案。
之后一個新的指令 P_2 作為提取答案的觸發語句。所有任務指令均取自 Brown、Ouyang、Zhang 等人研究,或受其啟發。最后需要注意的是,每次對 ChatGPT 進行新的查詢時,都要提前清除對話,以避免前面示例的影響。
實驗
實驗用 20 個不同的數據集來評估 ChatGPT 和 GPT-3.5,涵蓋 7 類任務。
算術推理
ChatGPT 和 GPT-3.5 在沒有或有 CoT 的情況下,在六個算術推理數據集上的準確率如表 2 所示。在沒有 CoT 的實驗中,ChatGPT 在其中 5 個數據集上的性能優于 GPT-3.5,顯示了其強大的算術推理能力。
圖 4 顯示了 GPT-3.5 給出錯誤答案的情況。在圖的左側,問「溫迪在玩電子游戲,有 43 條命。在游戲的艱難部分,她失去了 8 條生命。如果她在下一關多得到 39 條命,她會有多少條命?」ChatGPT 給出了正確答案。然而,GPT-3.5 生成了一個錯誤的答案。可以看出,在使用 CoT 時,ChatGPT 的性能都比 GPT-3.5 好得多。
常識、符號和邏輯推理
表 3 報告了 ChatGPT 與流行 LLM 在常識、符號和邏輯推理數據集上的準確率。可以得到如下觀察結果:首先,使用 CoT 可能并不總是在常識推理任務中提供更好的性能,常識推理任務可能需要更細粒度的背景知識。其次,與算術推理不同,ChatGPT 在很多情況下的表現都比 GPT-3.5 差,說明 GPT-3.5 的相應能力更強。
為了分析原因,該研究在圖 5 中展示了 ChatGPT 的幾個失敗案例。我們可以觀察到 ChatGPT 很容易產生不確定的響應,從而導致性能不佳。
自然語言推理
表 4 展示了不同模型在兩個自然語言推理任務上的結果:RTE 和 CB。我們可以看到,在 zero-shot 設置下,ChatGPT 可以取得比 GPT-3.5、FLAN、T0 和 PaLM 更好的性能。這證明 ChatGPT 在 NLP 推理任務中,具有較好的 zero-shot 性能。
問答
表 6 報告了不同模型在 BoolQ 數據集的準確率,ChatGPT 優于 GPT-3.5 。這表明 ChatGPT 可以更好地處理推理任務。
對話
表 8 中顯示了 ChatGPT 和 GPT-3.5 在 MuTual 數據集(多輪對話推理)上的準確率。正如預期的那樣,ChatGPT 大大優于 GPT-3.5。
圖 6 為一個具體的示例,我們可以看到 ChatGPT 能夠更有效地對給定的上下文進行推理。這再次印證了 ChatGPT 超強的推理能力。
生成摘要
表 9 報告 ChatGPT 和 GPT-3.5 在 SAMSum 數據集上的 ROUGE 得分,令人驚訝的是,ChatGPT 在所有指標上都不如 GPT-3.5。
命名實體識別
表 10 報告了 ChatGPT 和 GPT-3.5 在 CoNLL03 上的 zero-shot 性能。我們可以看到 ChatGPT 和 GPT-3.5 的整體性能非常相似。
情感分析
表 11 比較了不同模型在情感分析數據集 SST2 上的準確率。令人驚訝的是,ChatGPT 的表現比 GPT-3.5 差了大約 1%。
如需了解更多內容,請參考原論文。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
相關推薦
在工業自動化和智能家用電器設計中實現支持邊緣 AI 的電機控制
電子元件培訓教材
基于Microchip MCU的AI/ML培訓教程3
芯片互連初創企業Kandou AI完成2.25億美元融資
基于Microchip MCU的AI/ML培訓教程1
英偉達 Groq 3:AI 推理時代已至
邊緣 AI 加速的 Arm? Cortex??M0+ MCU 如何為電子產品注入更強智能
海聯達(Aigale)Ai-HD1 無線全高清套件拆解
TI 攜手 NVIDIA 推出面向下一代 AI 數據中心的完整 800 VDC 電源架構
人工智能是如何幫助阻止造假者的?
賦能AI與新能源時代的高動態MW級負載平臺
EEPW2018年6月刊(5G)
基于VisitionX制造智能眼鏡
釋說芯語16:硬科技:構建企業未來之路(附PPT)
iCAN-4017 AI功能模塊
基于Microchip MCU的AI/ML培訓教程2
WTC-AI太陽能熱水器電路圖
WTC-AI型太陽能熱水器電路圖
AI正在成為美國軍事系統核心
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
萬家樂JSYZ5-AI燃氣熱水器電路圖
AI狂潮 半導體通膨壓力重重
CSR8670CSR8675智能語音Alexa藍牙方案開發
Gartner發布三大AI價值實現路徑
瑞薩電子AI單元解決方案成功提高GE醫療(日本)日野工廠的生產力
盡管與亞馬遜達成芯片合作,英偉達股價仍下跌 3%,油價與加息擔憂沖擊 AI 交易
繼上次海聯達Ai-ap100拆機之電源改造
基于Ai-WB2-12F與Rd-04的雷達檢測系統
EEPW2018年3月刊(工業物聯網)
尼吉康的事業介紹