"); //-->
編者按:近日,微軟亞洲研究院自然語言計算組提出的新方法,刷新了關注美國司法學院入學考試(LSAT)邏輯推理部分的數據集 ReClor 的紀錄,并且超過了人類的準確率(注:人類準確率指的是 ReClor 論文中給出的10名大學生的平均得分)。今天讓我們來看看研究團隊在機器邏輯推理研究中有哪些新的嘗試,又有一些怎樣的發現與進展。
2020年,人工智能模型 GPT-3 帶著一種“暴力美學”橫空出世,業界在驚嘆其繪畫、寫作以及玩游戲技能的時候,也著實為它的智商“捏一把汗”。例如,嘗試向 GPT-3 詢問以下問題:
提問:太陽有幾只眼睛?
GPT-3:太陽有一只眼睛。
人類的正確答案:太陽是恒星,它沒有眼睛。
出現這類問題的原因是,當 GPT-3 被提問時,它并沒有推理出太陽與眼睛之間的關系。如果從技術方面追根溯源,有一個可能的解釋是:當前大多數自然語言處理技術使用的是“預訓練+微調”的范式,這種范式在需要文本淺層語義匹配和理解的任務上能取得優越的性能,但是預訓練的語言模型是否真的具備了推理能力,是否能應對需要復雜推理能力的任務,還是目前研究亟待解決的問題。
為了解決機器的邏輯推理問題,微軟亞洲研究院自然語言計算組提出了 LReasoner 系統,通過識別文本中的邏輯符號和表達式,來輔助模型找到問題的答案。
當研究員們把 LReasoner 系統放到面向美國司法學院入學考試(LSAT)邏輯推理部分的數據集 ReClor 中進行測試后,該系統在數據集的官方評測排行榜中取得了目前 SOTA(最前沿水平)的結果,并且大幅超過了 ReClor 論文中匯報的人類準確率(表1)。
ReClor 排行榜官方網頁(訪問以下鏈接或點擊“閱讀原文”查看):
https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347

表1: 人類與 LReasoner 系統在 ReClor 數據集上的準確率對比

圖1:LReasoner 系統在數據集 ReClor 官方排行榜上目前位列第一
真實場景:美國司法學院入學考試
美國司法學院入學考試(LSAT),全稱 Law School Admission Test,是1947年由位于美國賓夕法尼亞州牛頓市的法學院招生委員會設立的標準化入學測試。作為美國法學院申請入學的重要參考條件之一,幾乎所有的美國法學院都要求申請人參加 LSAT 考試。
LSAT 考試不需要考生具有專業的法律知識,旨在于考察學生在法學院學習中所需要的邏輯分析和推理能力。LSAT 考試的選擇題分為三個部分:(1)閱讀理解部分(2)邏輯推理部分 (3)分析推理部分。其中,閱讀理解部分考察的是考生理解介紹新知識的復雜文章的能力。分析推理部分主要考察考生根據給定的規則,理解一組元素之間的關系結構,并對其進行分析的能力。例如,要求考生根據給定的規則對一組元素進行分組或者排序。
而微軟亞洲研究院自然語言計算組的研究員們著重關注的是邏輯推理部分。這個部分重在考查考生對于多組邏輯論證的分析、批判性判斷以及組合推理的能力。該部分包含了若干以句子形式呈現的邏輯論證組合而來的文章,并對每一篇文章給出一組問題,要求考生選擇出正確的選項。可能的問題類型有:要求考生找出錯誤的論證,對一個論證進行削弱或者加強,找出論證依賴的假設,或者組合多組論證得出新的結論等。

圖2:邏輯推理數據樣例
圖2給出了一個 LSAT 中邏輯推理問題的例子——給定了一篇文章,一個問題和多個候選選項,要求從候選選項中選出最可行的答案(由綠色標記)。從例子中可以看出,為了回答問題,答題者需要從文章中抽取邏輯符號,例如 have keyboarding skill 還有 be able to use a computer。接下來還需要把邏輯符號組合成邏輯表達式,再通過邏輯規則(比如逆反規則,傳遞規則)對現有的邏輯表達式進行推理,從而拓展得出新的邏輯表達,最后對選項進行判斷。由此可以看出,邏輯推理任務非常需要機器可以擁有理解邏輯論述并且進行復雜推斷的能力。
研究員們以公開的 ReClor[1] 評測數據集為例開展了邏輯推理問題的研究。ReClor 數據集中的問題來自于美國司法學院入學考試(LSAT)和美國管理學科研究生入學考試(GMAT)中的邏輯推理部分的試題。該數據集包含了6,138個現實場景中的邏輯推理問題,并采用了多項選擇題的分類準確率作為評測指標。為了防止數據偏置的問題,ReClor 的測試集根據是否容易單獨依靠選項作出判斷,而劃分成了簡單部分(Test-E)和困難(Test-H) 部分。該評測任務在 EvalAI 有一個公開的評測排行榜,測試集的標注信息不對外公開,參評者需要提交各自的預測結果到官方平臺才能獲得得分。
創新方法:邏輯驅動的LReasoner系統
為了解決邏輯推理問題,微軟亞洲研究院的研究員們提出了 LReasoner 系統,通過識別文本中的邏輯符號和表達式,來生成問題的答案。LReasoner 系統具體包括兩個部分:邏輯驅動的文本擴充框架(Logic-Driven Context Extension Framework)和邏輯驅動的樣本增強算法(Logic-Driven Data Augmentation Algorithm)。其中文本擴充框架根據邏輯等價律來推斷隱式存在的邏輯表達式,從而擴充給定的文本;而樣本增強算法則通過構造字面上相似但邏輯不同的樣本,讓模型可以更好地抓取邏輯信息,尤其是邏輯上的否定和條件關系。

圖3:邏輯驅動的文本擴充框架圖
邏輯驅動的文本擴充框架(如圖3所示)可以分成三個步驟:邏輯識別,邏輯擴充,邏輯文本化。(1)首先研究員們制定了一系列規則將文本和選項中的邏輯符號抽取出來,并考慮符號的否定以及符號之間的條件關系,將顯式存在的邏輯表達式識別出來,作為之后邏輯推斷的基本單元,如圖3,根據 Context(上下文)抽取出了(?α→?β) 和 (?β→?γ)。(2)基于文本中識別出來的邏輯表達式,研究員們根據邏輯等價律做推斷, 擴充出文本中隱式的邏輯表達式,如圖3,在 Logic Extension(邏輯引申)中可以擴充出 (?α→?γ) 等邏輯表達式。(3)最后根據模板,將每個選項相關的擴充邏輯表達式轉化成擴充文本,再和原始文本一起輸入預訓練模型,從而利用推導出來的邏輯信息匹配找到答案。
在邏輯驅動的數據增強算法中,研究員們參考了 SimCLR[2] 的思路,通過構造字面上相似但邏輯不同的樣本,來訓練模型以預測出支持答案的邏輯正確文本,從而讓模型可以更好地感知到文本中的邏輯信息,尤其是邏輯否定和邏輯條件關系。研究員們使用了原始文本構成正樣本,而負樣本則是通過修改文本中抽取出的邏輯表達式,包括刪除、條件逆轉、否定操作,并將修改后的邏輯表達式轉化成文本而構成(具體構造負樣本的過程如圖4所示)。

圖4:構造負樣本的過程圖
消融實驗:LReasoner系統提升邏輯推理能力
為了證明 LReasoner 系統中邏輯驅動的文本擴充框架和邏輯驅動的樣本增強算法兩個部分的有效性,研究員們采用了 RoBERTa 作為基礎模型,并進行了消融實驗,結果如表2。可以看出邏輯驅動的文本擴充框架和數據增強算法對于邏輯推理問題的效果都有所提升。

表2:消融實驗結果(CE 和 DA 分別指代文本擴充框架和樣本增強算法,RoBERTa+CE+DA 就是基于 RoBERTa 的 LReasoner)
LReasoner 系統是研究員們將機器推理應用在真實場景中的首次嘗試。未來,微軟亞洲研究院自然語言計算組將持續探索機器推理領域的新任務、新方法,推動懂知識、可解釋的人工智能的研究。
參考文獻:
[1] Weihao Yu*, Zihang Jiang*, Yanfei Dong, and Jiashi Feng, "ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning," Accepted by ICLR, 2020.
[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. 2020. A simple framework for contrastive learning of visual representations.,accepted by ICML2020.
本文作者:鐘宛君(中山大學)、王思遠(復旦大學)、唐都鈺
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
相關推薦
在2410板子上進行PCMCIA無線網卡通信實錄
精工電子產品IC在醫療中的應用(下)
ZLG7289B鍵盤矩陣使用示例
精工電子產品IC在醫療中的應用(上)
SEALSQ推出量子系統PQC棧
PCB專業用語
生物醫學傳感與檢測技術(下)
單片精密函數發生器ICL8038應用電路一
用于醫療保健領域的ADI公司身體傳感器和MEMS器件(上)
英特爾推出第二代酷睿系列處理器,搭載實時處理性能并擴充邊緣 AI 產品矩陣
Groq向三星提出AI芯片擴產需求,推論芯片市場或迎爆發
ZLG7289B串行接口LED數碼管及鍵盤管理器件數據手冊
ZLG7289B串行接口LED數碼管及鍵盤管理器件常見問題解答FAQ
用于醫療保健領域的ADI公司身體傳感器和MEMS器件(下)
ZLG7289B應用指南
Nordic擴展nRF54L系列,推出入門級低功耗藍牙SoC
CPU借AI熱潮重獲青睞,再度 “變酷”
USB口&網口仿真器
單片精密函數發生器ICL8038應用電路三
ZLG7290 I2C接口鍵盤及LED驅動器C51軟件包
Emerson推出NI USRP X420軟件定義無線電
MAX038構成的5Hz~5MHz函數發生器
意法半導體Stellar P3E:車載邊緣AI MCU 開啟汽車多合一電控新時代
微處理器嵌入式C語言培訓!!!
網口&USB口高速仿真器
用NE566V構成的20kHz的波形發生器
用NE566V產生鋸齒波電路
伊朗局勢緊張,亞洲汽車供應鏈面臨沖擊
IAR擴展嵌入式開發平臺,推出面向安全關鍵型應用的長期支持(LTS)服務
Gartner提出挖掘人工智能價值的三大核心支柱