實時訓練駕駛人工智能

作者：時間：2026-03-31 來源：IEEE

自動駕駛是物理 AI 領域難度最高的問題之一。自動駕駛系統必須實時解讀混亂、動態變化的環境，應對不確定性、預測人類行為，并在海量場景與極端工況下安全運行。

在通用汽車，我們的出發點很簡單：道路上絕大多數場景都是可預測的，但罕見、模糊、突發的長尾事件，才最終決定一套自動駕駛系統是否足夠安全、可靠，能否大規模落地。

隨著通用汽車向 “放手式高速自動駕駛” 乃至最終完全自動駕駛邁進，解決長尾問題成為核心工程挑戰。這要求系統在最意外的狀況下依然能做出合理決策。

為此，通用汽車正在打造可擴展的駕駛 AI—— 結合大規模仿真、強化學習、基于基礎模型的推理能力，以現實世界無法企及的規模與速度訓練自動駕駛系統。

對長尾場景進行壓力測試

自動駕駛的長尾場景主要分為幾類：

部署視覺 - 語言 - 動作（VLA）模型

為應對這些精細場景，通用汽車開發了視覺 - 語言 - 動作模型（VLA）。在通用視覺語言模型基礎上，工程師通過專用解碼頭針對駕駛任務微調，讓模型在常規圖像識別之外，還能理解車輛軌跡、檢測 3D 目標。

經過微調的模型可以識別交警手勢優先于紅燈，也能理解機場 “裝卸區” 的含義，還能生成推理軌跡，幫助工程師理解車輛行為，便于調試、驗證與建立信任。

為避免高延遲影響實時控制，GM 設計了雙頻 VLA 架構：

這種混合方案在保留深度推理能力的同時，不犧牲安全駕駛所需的瞬時反應。

在高保真仿真中測試危險場景

安全處理極端工況，不僅需要 “看懂”，更需要 “會處理”，而這離不開大量經驗。

因此，我們每天運行數百萬次高保真閉環仿真，相當于數萬年人類駕駛時長，壓縮在數小時內完成。我們可以復現真實事件、修改真實數據生成虛擬場景，或從零構建全新場景，安全測試現實中幾乎無法遇到的危險狀況。

為最難工況生成合成數據

這些仿真場景從何而來？通用汽車使用多種 AI 技術生成貼近現實的極端訓練數據。

例如 “種子到種子轉換” 技術，利用擴散模型將晴天錄像轉換為雨天、霧天或夜景，同時完美保留場景幾何結構。此外，基于擴散模型的 GM World 模擬器可通過自然語言和 bounding box 生成全新交通場景，添加天氣、車輛加塞等挑戰元素。

高保真仿真并非適合所有訓練。訓練感知需要照片級渲染，但訓練決策與規劃時，空間關系與交通動態比水坑、坑洼等細節更重要。強化學習往往需要數十億至上千億次輕量試錯。

為此，通用開發了專屬多智能體強化學習模擬器 GM Gym，并在名為 Boxworld 的抽象環境中運行：

這套系統讓 AI 不只模仿人類，更能學到可量化的安全、高效駕駛策略。

從抽象策略遷移到現實駕駛

Boxworld 畢竟不是真實道路。為把抽象駕駛經驗遷移到現實，GM 采用策略蒸餾技術：

同時運行高速抽象仿真與高保真傳感器仿真，讓在仿真中練出完美策略的模型當 “老師”，指導實車模型。僅 30 分鐘蒸餾，就能等效 12 小時強化學習，讓實車模型快速繼承仿真中打磨出的安全本能。

在故障發生前主動設計故障

仿真不只是訓練 “開好車”，更是刻意讓系統失敗。

GM 使用名為 SHIFT32 的可微 pipeline，主動修改物體形狀、姿態，制造 “對抗樣本” 迷惑感知系統。在這些困難樣本上迭代訓練，已被證實能將接近碰撞事故減少30% 以上，提前填補安全漏洞。

即便如此，穩健的系統必須自知其限。GM 在模型中加入認知不確定性頭，讓 AI 區分普通噪聲與真正無法理解的場景。遇到真正的長尾事件時，模型會標記高不確定性，自動篩選高價值樣本供工程師分析并加入訓練集。

規模化解決長尾問題

解決自動駕駛長尾問題，不靠單一模型或技術，而靠一套生態系統：

這套方案不只提升平均場景表現，更專注挖掘那些決定自動駕駛能否真正無人監管運行的罕見、模糊、困難場景。

仍有許多開放研究問題：

回答這些問題，是自動駕駛未來的核心。通用汽車正在打造所需的工具、基礎設施與研究文化，不是小規模試驗，而是面向真實車輛、真實用戶、真實道路的規模化落地。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠