馬謖王平智能體(Agent)共贏街亭(一)

作者：高煥堂時(shí)間：2026-03-31 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

1. 前言：讓后悔變成預(yù)見

回顧本專欄刊登過的《邁向決策式AI：提供反事實(shí)的建議》文章，曾經(jīng)提到了：反事實(shí)思考(Counterfactual Thinking)使人們能夠探索最初可能沒有考慮過的路徑和解決方案，能幫助人們以不同的方式看待事物，從而帶來創(chuàng)造性的發(fā)現(xiàn)。在本文里，就拿家喻戶曉的<馬謖失街亭>的歷史故事為例。依據(jù)史書記載，魏太和二年，諸葛亮(即孔明)北伐，街亭為重要咽喉，諸葛亮派馬謖帶領(lǐng)諸軍防守，對(duì)抗張合。馬謖違背諸葛亮節(jié)度，放棄守城，改為扎營(yíng)于山頂，且不聽副將王平的規(guī)勸。魏將張合包圍山頂，切斷水源，大舉進(jìn)攻，蜀軍潰散，街亭失守。諸葛亮被迫撤軍，北伐終止。馬謖失守后，諸葛亮深感任人不當(dāng)，自請(qǐng)降職，并追究馬謖之責(zé)。

那么，如果在戰(zhàn)事爆發(fā)之前，孔明有機(jī)會(huì)觸發(fā)其反事實(shí)思考，而<預(yù)見>更多可替代的策略方案，就能大幅降低孔明的<后悔>(諸葛亮深感任人不當(dāng))機(jī)會(huì)了。例如，可能的替代方案之一是：讓王平當(dāng)主將，并由馬謖擔(dān)任總參謀(副將)?；蛟S這個(gè)替代方案真的讓孔明的<后悔變成預(yù)見>。于是，就來設(shè)計(jì)核心的智能體角色(圖-1)：

圖-1

雖然歷史的事實(shí)不能重演，但是在AI智能體(Agent)的虛擬環(huán)境中，卻能針對(duì)不同的反事實(shí)思考方案來進(jìn)行模擬演練，然后觀察各種可能方案的結(jié)局。這樣的決策式AI能夠協(xié)助決策者(如孔明、馬謖)，來大幅降低決策風(fēng)險(xiǎn)、提高勝率。于是，基于史書里的<馬謖失街亭>故事題材，將可以打造出一個(gè)虛擬的<馬謖王平智能體(Agent)共贏街亭>系統(tǒng)(圖-2)。

圖-2

在人類歷史上，許多偉大的決策者，都曾留下相似的感嘆：「如果當(dāng)時(shí)早知道……」。這句話，其實(shí)就是<后悔>。歷史中充滿這樣的時(shí)刻：用人不當(dāng)、戰(zhàn)術(shù)失誤等。決策者往往是在事件發(fā)生之后，才知道哪條路才是更好的選擇。在 AI智能體的協(xié)同決策中，這種與所發(fā)生事實(shí)相反的事后之明，通稱為：反事實(shí)思考(Counterfactual Thinking)。

這種思考能力，是人類創(chuàng)新力的重要來源之一。它能讓人們重新檢視過去的決策，并在未來做出更好的選擇。然而，人類的大腦有一個(gè)限制：我們只能想象少數(shù)幾條替代路徑。但現(xiàn)實(shí)世界的決策空間，往往是巨大而復(fù)雜的。于是，大多數(shù)的「更好選擇」，往往在歷史中永遠(yuǎn)沒有被看見。

此時(shí)，AI的GNN(圖神經(jīng)網(wǎng)絡(luò))模型能從KG(知識(shí)圖)里探索出潛在的反事實(shí)連結(jié)(Counterfactual Link，簡(jiǎn)稱：CF_Link)，就有可能協(xié)助Agent獲得<預(yù)見>，并進(jìn)而觸發(fā)人們的反事實(shí)思考，而激發(fā)人類的創(chuàng)造力(圖-3)。

圖-3

在這AI智能體的演練中，戰(zhàn)爭(zhēng)爆發(fā)之前，GNN就從孔明KG探索出CF_Links，提供給王平(Agent)和馬謖，讓它們可以看到不同決策路徑(如依城據(jù)守、山上扎營(yíng)、兵分二路)的模擬結(jié)果。那么，馬謖和孔明就不必在戰(zhàn)后才后悔了，因?yàn)榭梢栽趹?zhàn)前就預(yù)見。

２. 智能體決策路徑的模擬

在本文里，所采取的智能體開發(fā)流程，包含三個(gè)階段：

u 第一階段：讓 AI Agent (王平)長(zhǎng)出策略智慧。

u 第二階段：訓(xùn)練LoRA助手，讓LLM(馬謖)入鄉(xiāng)隨俗。

u 第三階段：于是Agent和LLM + LoRA雙方協(xié)同合作，共贏街亭。也如同喜瑪拉雅山的雪巴人與登山者雙方協(xié)同一齊登峰。

其中的第一、二階段部分，采用三國(guó)演義故事的角色來說明，所以稱之為：孔明模式。而其中的第三階段部分，則采用雪巴人協(xié)助登山者一齊登峰來說明，所以稱之為：雪巴人模式(圖-4)。

圖-4

基于這兩項(xiàng)眾人都很熟悉的典故，作為通俗的比喻，可迅速領(lǐng)會(huì)智能體協(xié)作模擬的規(guī)劃步驟。

A、先以孔明模式練兵

? 以 KG 為戰(zhàn)略知識(shí)，

? 以 FSM + DT 為天地規(guī)則，

? 以 LLM 為總參謀，

在人機(jī)雙養(yǎng)與兵分二路之中，慢慢養(yǎng)成一位真正熟悉本地、能掌決策、會(huì)在場(chǎng)域中行走的 Agent。其中，以 KG 作為孔明的戰(zhàn)略知識(shí)，并以 FSM(狀態(tài)機(jī)) + DT(數(shù)字孿生)作為天地地勢(shì)與場(chǎng)域規(guī)則。再聘請(qǐng)一位總參謀，也就是 LLM（馬謖）。在這樣的架構(gòu)下，一方面培育出真正熟悉本地、能掌行動(dòng)決策的王平（Agent）。

接著，也透過 SFT(監(jiān)督式微調(diào))，訓(xùn)練出懂在地規(guī)矩、能輔助解說與參謀的助理參謀（LoRA模型）。這一環(huán)節(jié)的重點(diǎn)是：先把兵練好，先把主將與副將的角色養(yǎng)成。

然后，再進(jìn)入雪巴人向?qū)Ｊ剑河?/span> Agent 擔(dān)任登山者，LLM + LoRA 擔(dān)任雪巴人與副將，三者一起出征，最終目標(biāo)是協(xié)力登頂圣母峰。

B、以雪巴人模式出征

接著，進(jìn)入雪巴人向?qū)Ｊ剑河?/span> Agent 擔(dān)任登山者，LLM + LoRA 擔(dān)任雪巴人與副將，三者一起出征，最終目標(biāo)是協(xié)力登頂圣母峰。

? 讓 Agent 成為登山者，

? 讓 LLM + LoRA 成為雪巴人向?qū)c副將，陪它一起前行、一起解說、一起面對(duì)風(fēng)險(xiǎn)、一起逼近山頂。

簡(jiǎn)而言之，孔明模式練兵，雪巴人模式出征。主將掌決策，副將補(bǔ)智慧；知識(shí)養(yǎng) Agent，Agent 也養(yǎng)知識(shí)。于是，AI 不只會(huì)走，還會(huì)懂、會(huì)說、會(huì)陪走、會(huì)共贏。先養(yǎng)成王平與助理參謀，再讓 Agent、LoRA、LLM 攜手登頂圣母峰。這是一條完整的工業(yè) Agentic AI 養(yǎng)成之路。其中的關(guān)鍵點(diǎn)不是誰取代誰，而是主將、總參謀、助理參謀協(xié)作出征。

C、真正進(jìn)入戰(zhàn)場(chǎng)

在進(jìn)入真實(shí)戰(zhàn)場(chǎng)后，同一位總參謀(LLM)，可以透過不同 LoRA 分身，陪伴不同軍事隊(duì)伍的指揮官(Agent)；并在各自場(chǎng)域中，協(xié)助理解候選策略、提示風(fēng)險(xiǎn)方向、強(qiáng)化人機(jī)協(xié)作，最終幫助Agent所追求的整體戰(zhàn)術(shù)效益更穩(wěn)、更高。于是，同一個(gè) LLM 可透過不同 LoRA，陪不同 Agent 進(jìn)入不同戰(zhàn)區(qū)。由Agent 掌決策，LLM 協(xié)助理解、幫助探索、提共解說，最終共同放大整體的戰(zhàn)術(shù)效益。亦即，總參謀一人，分身多路；主將各自領(lǐng)軍，副將各擅其場(chǎng)，最終讓候選更清、風(fēng)險(xiǎn)更明、效益更高。

其中，Agent 負(fù)責(zé)真正的行動(dòng)決策與戰(zhàn)術(shù)執(zhí)行；LLM + LoRA 則負(fù)責(zé)理解行動(dòng)方案(Rollout)、解說局勢(shì)、協(xié)助理解候選策略，并放大 CF_Links 的風(fēng)險(xiǎn)提示與探索價(jià)值。于是，在 KG、DT、Event 的外圍壓力與場(chǎng)域條件下，整體協(xié)作就能把 Agent 所追求的最終戰(zhàn)術(shù)效益推向更高水平，完美實(shí)踐智能體決策路徑的模擬。

3. 結(jié)語

以 KG 為孔明的戰(zhàn)略知識(shí)，以 FSM + DT 為天地規(guī)則，并聘請(qǐng)總參謀 LLM（馬謖），逐步培育出熟悉本地、能掌決策的王平（Agent），以及懂在地規(guī)矩、能輔助解說與參謀的助理參謀（LoRA）。接著，再進(jìn)入雪巴人向?qū)Ｊ?，?/span> Agent 擔(dān)任登山者，LLM + LoRA 擔(dān)任雪巴人與副將，三者一起出征，最終目標(biāo)是協(xié)力登頂圣母峰。

簡(jiǎn)而言之，這套葵花寶典的核心是：FSM + KG 兵分二路，透過人機(jī)雙養(yǎng)，培育會(huì)自主決策Agent。進(jìn)而，藉由Agent + LoRA(LLM)協(xié)同合作，讓登山者與雪巴人一起登峰。這可比喻為：王平掌握行動(dòng)策略，馬謖補(bǔ)語義，LoRA助在地；孔明定知識(shí)，天地映場(chǎng)域，司馬懿施事件——多方協(xié)作，以虛擬的<馬謖王平智能體(Agent)共贏街亭>系統(tǒng)，來觀察后悔變成預(yù)見的美好效果。

在下一集里，將繼續(xù)說明和演示上述孔明模式與雪巴人模式的實(shí)施細(xì)節(jié)。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

馬謖王平智能體(Agent)共贏街亭(一)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)