專欄中心

EEPW首頁 > 專欄 > ICML 2022 | 關注AI技術的你，快來查收這份機器學習前沿論文精選！

ICML 2022 | 關注AI技術的你，快來查收這份機器學習前沿論文精選！

發布人：MSRAsia 時間：2022-07-24 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：ICML 被認為是人工智能、機器學習領域最頂級的國際會議之一，在計算機科學界享有崇高的聲望。ICML 2022 于7月17日-23日以線上線下結合的方式舉辦。今天我們精選了微軟亞洲研究院在此次大會上發表的7篇論文，來為大家進行簡要介紹，從強化學習、圖神經網絡、知識圖譜表示學習等關鍵詞帶你一覽機器學習領域的最新成果！

分支強化學習

論文鏈接：

https://arxiv.org/abs/2202.07995

強化學習（Reinforcement Learning）是一個經典的在線決策模型。在強化學習中，智能體與未知的環境進行交互，以獲得最大的累積獎勵。傳統強化學習是一個單路徑的序列決策模型，智能體在一個狀態下只選擇一個動作。然而，在推薦系統、在線廣告等許多現實應用中，用戶們往往會一次選擇多個選項，每個選項會觸發對應的后繼狀態，例如，在基于類別的購物推薦中，系統往往會先推薦一些商品的一級類別，當某個一級類別被用戶點擊時，系統會進一步推薦一些二級類別。在一次購物中，用戶可能會選擇（觸發）多條類別-商品路徑，如用戶可能會觸發“辦公設備-打印機-激光打印機”和“辦公設備-掃描儀-平板掃描儀”這兩條路徑。

為了處理這種允許多個動作和多個后繼狀態的現實場景，微軟亞洲研究院的研究員們提出了一種新穎的、樹狀的強化學習模型，名為分支強化學習（Branching Reinforcement Learning）。在分支強化學習中，每個狀態下，智能體可以選擇多個動作，每個狀態-動作對有一個潛在的概率被觸發。如果一個狀態-動作對被成功觸發，那么它會根據其潛在的轉移分布轉移到一個常規的后繼狀態；如果這個狀態-動作對沒有被成功觸發，那它則會轉移到一個“終止狀態”（獎勵總是為零的吸收態）。由于智能體可能觸發多條狀態-動作路徑，因此它的歷史序列決策呈現出一個樹狀結構。

圖1：分支強化學習模型示意（當每個狀態下允許選擇的動作個數為2時）

在分支強化學習這個新的決策模型下，研究員們構建了全新的理論分析工具，包括分支貝爾曼方程（Branching Bellman Equation）、分支價值差異引理（Branching Value Difference Lemma）和分支總方差定律（Branching Law of Total Variance）。研究員們設計了兩種計算和采樣高效的算法 BranchVI 和 BranchRFE，通過嚴格的理論分析證明了算法的最優性，并在實驗上驗證了本文的理論結果。

深入研究置換敏感的圖神經網絡

論文鏈接：

https://arxiv.org/abs/2205.14368

代碼鏈接：

https://github.com/zhongyu1998/PG-GNN

演示鏈接：

https://github.com/zhongyu1998/PG-GNN/blob/main/demo.mp4

圖與鄰接矩陣的置換不變性是圖神經網絡（GNN）的首要要求，傳統模型通過置換不變的聚合操作來滿足這一前提條件。然而，這種高度對稱的置換不變聚合方式假定所有鄰居結點的地位均等，可能會忽略鄰居結點與鄰居結點之間的相互關系，進而阻礙 GNN 的表達能力。

與置換不變相反，置換敏感的聚合函數對于結點順序非常敏感，可以看作是一種“對稱性破缺”機制，打破了鄰居結點的均等地位。這樣一來，聚合函數可以顯式地建模鄰居結點之間的內在關系（如二元依賴），捕獲兩個鄰居結點之間是否存在連接，從而識別并利用局部的圖子結構來提高表達能力。

盡管置換敏感的聚合函數比置換不變的聚合函數具有更加強大的表達能力，但是還需要額外考慮所有n!種置換來保證泛化能力，在計算復雜度上面臨著巨大的挑戰。為了解決這一問題，本文利用置換群（permutation group）設計了一種新穎的置換敏感聚合機制，通過置換采樣策略采樣少量具有代表性的置換，捕獲鄰居與鄰居之間的二元依賴，從而高效地提升 GNN 的表達能力：研究員們證明了所提出的方法嚴格地比二維 Weisfeiler-Lehman（2-WL）圖同構測試更強大，并且能夠區分一些 3-WL 測試無法區分的非同構圖對；此外，相比于傳統方法需要考慮所有 n! 種置換，本文所提出的方法能夠達到線性的置換采樣復雜度。

圖2：考慮中心結點 v 和5個鄰居結點的簡單模型示例

綜合而言，本文基于置換敏感的聚合機制設計了一種強大而高效的圖神經網絡，它在保證表達能力的同時，先后借助近似置換不變性的思想與線性置換采樣策略，顯著降低了計算復雜度。如何利用置換敏感的圖神經網絡在表達能力上的天然優勢，在表達能力和計算復雜度之間尋找均衡，將是未來富有前景的研究方向。

基于Householder參數化的知識圖譜表示學習方法

論文鏈接：

https://arxiv.org/abs/2202.07919

知識圖譜表示學習是一種有效緩解知識圖譜不完整問題的有效方法。本文對現有知識圖譜表示方法的建模能力進行了分析：（1）現有方法中的關系旋轉固定于低維空間，這很大程度地限制了模型的建模能力；（2）現有方法無法全面地建模知識圖譜中重要的關系模式與映射屬性。

為解決以上兩個問題，本文引入了 Householder 反射變換作為基本數學工具，并基于此進一步設計了兩種線性變換作為知識圖譜中的關系表示：（1）由多個 Householder 反射組合而成的 Householder 旋轉，可擴展至任意高維空間，實現強大的建模能力；（2）由原始 Householder 反射修改得到的 Householder 投影，可賦予模型建模復雜關系映射屬性的能力，同時保持模型對重要關系模式的建模能力。

在此 Householder 框架下，本文得以提出了一個具有更強大、更全面建模能力的 KGE 模型，名為 HousE。HousE 將關系建模為實體間的兩階段變換，如圖3所示，對于給定三元組，HousE 首先通過 Householder 關系投影得到關系特定的頭尾實體表示，然后在投影后的頭尾實體之間建模 Householder 關系旋轉。

圖3：(a) 二維空間中的Householder反射；（b）二維空間中的 Householder 旋轉；（c）二維空間中不同 τ 值下對應的 Householder 投影；（d）HousE 圖示：為了建模三元組(h, r, t_1)和(h, r, t_2)，HousE 首先利用 Householder 投影（Pro-H1 和 Pro-H2）改變實體間的相對距離，然后對投影后的頭實體表示 S_(h,r) 進行 Householder 旋轉（Rot-H），使其與投影后的尾實體表示盡可能相近。

文章從理論上證明了 HousE 可以建模知識圖譜中的重要關系模式和復雜映射屬性，并且能夠自然地將旋轉變換擴展到任意高維空間，是現有基于旋轉的知識圖譜表示模型的推廣。實驗上，HousE 在五個公開數據集上均取得了最新的 SOTA 性能，更多實驗結果（如細粒度性能分析實驗等）也進一步驗證了 Householder 框架所帶來的強大建模能力。

ClofNet：具有完備局部標架的SE(3)等變圖網絡

論文鏈接：

https://arxiv.org/abs/2110.14811

-群等變性質如置換不變、平移旋轉等變性（又稱 SE(3) 群等變），是許多 3D 多體物理系統（如分子動力系統）具有的性質。等變圖網絡是一類滿足群等變性質的機器學習模型，常用于 3D 多體物理系統的性質預測、構像生成等任務。群等變模型是指模型的輸入輸出關于群作用是等變的，即 ?_NN (T_g (x))=S_g (?_NN (x))，其中 T_g 和 S_g 是群元素 g 對應的群作用。一個傳統設計等變模型的方式是僅作用非線性變換在節點距離上（例如 Radial Nework, Schnet, EGNN 等），并利用鄰居節點坐標為標架來表示向量信息。本文指出，這類模型雖然計算高效，但會存在方向退化、表達力不足的問題。本文從等變圖網絡的表達能力出發，設計了一組 3D 等變局部標架 ClofNet，解決了一類 SE(3) 等變圖網絡表達力不足的問題。

圖4：ClofNet 示意圖

具體地，對于給定 3D 圖，首先對位置坐標進行去中心化，將系統質心移動至原點，這一操作保證了結果的平移不變性。然后給定相鄰粒子對位置坐標 (x_i,x_j)，建立局部等變標架 (a_ij, b_ij, c_ij )，其中 a_ij=(x_i-x_j)/(||x_i-x_j||), b_ij=(x_i×x_j)/(||x_i×x_j ||), c_ij=a_ij×b_ij。由于叉乘運算的性質，(a_ij, b_ij, c_ij)構成了一組相互正交的 3D 標架。在構建局部標架后，ClofNet 將節點 i, j 對應的張量信息向標架投影，得到一組標量 s_ij=Scalarize(X_i, X_j, (a_ij, b_ij, c_ij))，例如節點 i 的坐標投影后獲得標量?x_i, a_ij?,?x_i, b_ij ?,?x_i, c_ij?。標量信息經神經網絡作用，輸出局部標架的系數，并用局部標架的線性組合表示輸出向量，此步驟稱為 Vectorization。可以證明，ClofNet 在 SE(3) 群等變函數空間具有一致的表達力。

模型在多體物理系統軌跡預測和 3D 分子結構生成任務上進行了測試。結果表明，ClofNet 顯著降低了樣本復雜度，并提升了模型預測精度和生成效果。

圖5：不同訓練樣本量下的均方誤差結果

表1：不同算法在數據集 GEOM-QM9 和 GEOM-Drugs 上的實驗結果

神經架構搜索中干擾問題的分析與解決

論文鏈接：

https://arxiv.org/abs/2108.12821

在當前的自動架構搜索技術中，權重共享作為一種最為流行的核心技術被廣泛應用。權重共享通過復用之前訓練的子結構的部分權重來減少從零開始訓練不同子模型的代價。然而，由于不同子模型的共享權重梯度更新時存在干擾，如圖6和圖7所示，所以真實的子模型的準確率和最后估計的子模型的準確率之間的相關度往往比較低，嚴重影響了神經架構搜索技術的性能和適用性。

圖6：不同架構在權重上的梯度干擾示意

圖7：不同子模型在共享權重的梯度相似度

在這個工作里，研究員們深入研究了權值共享中的干擾問題。通過采樣不同的子模型并計算這些子模型在共享的部分權值上的梯度，研究員們觀察到了兩個現象：1）共享權值上的梯度的干擾程度和兩個子模型之間的不同網絡層結構的數量是正相關的；2）兩個子架構在共享網絡結構上的輸入和輸出值越相似，他們之間的干擾就越小。

從以上兩個觀察出發，本文提出了 MAGIC-AT 技術來有效緩解干擾問題，它包括兩項關鍵技術：

1）MAGIC-T：與之前的隨機采樣子模型進行梯度更新的工作不同，本文提出了一個漸進子架構修改的采樣范式。在每一次臨接的梯度更新步數之間，讓其采樣的子架構僅僅存在一個網絡層結構的差別以最小化不同鄰接梯度更新的干擾。

2）MAGIC-A：強制讓不同子模型在共享網絡結構上的輸入輸出盡可能相似來進一步減少他們之間的干擾。

研究員們首先在一個復雜的 BERT 搜索空間中驗證了本文提出的兩項關鍵技術都能夠提升超網絡的排序性能，并且兩種技術結合能夠得到進一步的提升。接著，研究員們使用 MAGIC-AT 在 BERT 語言模型（如表1所示），SQuAD 自然語言理解任務以及大規模圖像分類問題 ImageNet 上做了神經架構搜索，實驗證明 MAGIC-AT 搜索得到的架構一致且顯著的超過之前的工作，證明了本文方法的有效性。

表2：MAGIC-NAS 搜索的 BERT 語言模型在 GLUE 數據集上的效果

監督離策略排序

論文鏈接：

https://arxiv.org/abs/2107.01360

離策略評估（Off-Policy Evaluation, OPE）旨在利用由其他策略產生的數據評估目標策略的性能。OPE 在許多實際應用中至關重要，如交易、廣告、自動駕駛、****物試驗等等。在這些應用中，通過與真實環境交互的在線評估策略方式可能花費成本巨大。

現有的 OPE 方法主要基于分布糾正（distribution correction）、模型估計（model estimation）和價值函數估計（Q-estimation），關注的是精確估計策略的回報，采用的是無監督估計方法。本文發現這些方法與現實需求和條件存在差異。首先，在許多應用中，OPE 的最終目標是從候選策略中選擇較好的策略，而非精確估計每個策略的回報。其次，人們通常可以知道一些已在真實環境中部署的策略的性能，但是這部分信息未被利用。因此，本文定義了兩個新問題：監督離策略估計（Supervised Off-Policy Evaluation, SOPE）和監督離策略排序（Supervised Off-Policy Ranking, SOPR），分別利用離策略數據集以及已知策略的回報或排序來估計目標策略的性能或性能排序。其中，SOPR 不需精確估計策略性能，更加容易并且更具實際應用價值。

本文還進一步提出了一種基于監督學習的策略排序算法，利用策略表示和策略排序標簽訓練了一個策略打分模型，并基于策略得分對策略排序。對于策略表示，由于不同策略可能函數形式不同輸入特征不同，且不一定具有參數，因此難以采用策略參數表示策略。對此，本文提出利用狀態-動作數據和一種分層 Transformer 編碼器學習策略表示，其中狀態出自離策略數據集，動作由策略在狀態上決策產生；然后通過對數據進行聚類，在類內和類間分別編碼；最后將策略表示映射為分數，利用排序損失函數優化模型。該算法名為 SOPR-T，T 代表 Transformer。本文利用 Mujoco 環境的公開數據集對所提算法進行了驗證，并與 OPE 基線算法對比，結果表明 SOPR-T 在排序相關度（Rank correlation）和后悔值（Regret value）上的表現均優于基線算法。

圖8：基于分層 Transformer 編碼器的策略打分模型

捕獲異質圖中的全局同質節點

論文鏈接：

https://arxiv.org/abs/2205.07308

在具有異質性（Graph heterophily）的圖中，相鄰節點間更傾向于有不同的標簽。業界稱具有相同標簽的節點記為同質節點，不同標簽的節點記為異質節點。當用傳統 GNN 方法（GCN、GAT等）去學習異質圖節點的表示時，會導致當前節點的表示被鄰域中更多的異質節點所誤導，從而學習到錯誤的表示。現有的研究嘗試通過增大鄰域的范圍去捕獲更多的同質節點來指導當前節點的學習。但這其中存在一個挑戰：該使用多大范圍的鄰域？微軟亞洲研究院的研究員們給出的解決方案是：使用全局鄰域，即使用整張圖。

為此，研究員們提出了一個新的 GNN 模型 GloGNN，其架構如圖10所示，輸入包括節點特征和鄰接矩陣，經融合得到初始的節點特征矩陣。在之后的每一層中，GloGNN 基于一個系數矩陣來對節點特征矩陣進行更新。該系數矩陣刻畫了整張圖中所有節點間的相關性，由一個同時考慮節點特征和拓撲結構的優化函數求解得到，并且引入 Woodbury Formula 優化求逆過程和調整矩陣乘法順序將更新過程的時間復雜度降低為線性復雜度。此外，研究員們還提出了升級版的 GloGNN++，其不僅考慮節點之間的相關性，也關注節點特征中每一維的重要性。最后，本文從理論和實驗兩方面證明了方法的有效性。

圖9：GloGNN 架構

理論方面，通過對更新過程中的系數矩陣和節點特征進行 Grouping Effect 分析，驗證了方法設計的合理性。實驗方面，研究員們在15個不同領域、規模、異質性的數據集上與代表性的11種 GNN 方法進行了比較，并做了大量的效率分析和可解釋性分析，結果表明本文提出的 GloGNN 和 GloGNN++ 可以有效且高效地從整張圖中捕獲同質節點。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

關鍵詞： AI