馬謖王平智能體(Agent)共贏街亭(一)
1. 前言:讓后悔變成預(yù)見
回顧本專欄刊登過的《邁向決策式AI:提供反事實(shí)的建議》文章,曾經(jīng)提到了:反事實(shí)思考(Counterfactual Thinking)使人們能夠探索最初可能沒有考慮過的路徑和解決方案,能幫助人們以不同的方式看待事物,從而帶來創(chuàng)造性的發(fā)現(xiàn)。在本文里,就拿家喻戶曉的<馬謖失街亭>的歷史故事為例。 依據(jù)史書記載,魏太和二年,諸葛亮(即孔明)北伐,街亭為重要咽喉,諸葛亮派馬謖帶領(lǐng)諸軍防守,對(duì)抗張合。馬謖違背諸葛亮節(jié)度,放棄守城,改為扎營(yíng)于山頂,且不聽副將王平的規(guī)勸。魏將張合包圍山頂,切斷水源,大舉進(jìn)攻,蜀軍潰散,街亭失守。諸葛亮被迫撤軍,北伐終止。馬謖失守后,諸葛亮深感任人不當(dāng),自請(qǐng)降職,并追究馬謖之責(zé)。
那么,如果在戰(zhàn)事爆發(fā)之前,孔明有機(jī)會(huì)觸發(fā)其反事實(shí)思考,而<預(yù)見>更多可替代的策略方案,就能大幅降低孔明的<后悔>(諸葛亮深感任人不當(dāng))機(jī)會(huì)了。例如,可能的替代方案之一是:讓王平當(dāng)主將,并由馬謖擔(dān)任總參謀(副將)?;蛟S這個(gè)替代方案真的讓孔明的<后悔變成預(yù)見>。于是,就來設(shè)計(jì)核心的智能體角色(圖-1):

圖-1
雖然歷史的事實(shí)不能重演,但是在AI智能體(Agent)的虛擬環(huán)境中,卻能針對(duì)不同的反事實(shí)思考方案來進(jìn)行模擬演練,然后觀察各種可能方案的結(jié)局。這樣的決策式AI能夠協(xié)助決策者(如孔明、馬謖),來大幅降低決策風(fēng)險(xiǎn)、提高勝率。于是,基于史書里的<馬謖失街亭>故事題材,將可以打造出一個(gè)虛擬的<馬謖王平智能體(Agent)共贏街亭>系統(tǒng)(圖-2)。

圖-2
在人類歷史上,許多偉大的決策者,都曾留下相似的感嘆:「如果當(dāng)時(shí)早知道……」。這句話,其實(shí)就是<后悔>。歷史中充滿這樣的時(shí)刻:用人不當(dāng)、戰(zhàn)術(shù)失誤等。決策者往往是在事件發(fā)生之后,才知道哪條路才是更好的選擇。在 AI智能體的協(xié)同決策中,這種與所發(fā)生事實(shí)相反的事后之明,通稱為:反事實(shí)思考(Counterfactual Thinking)。
這種思考能力,是人類創(chuàng)新力的重要來源之一。它能讓人們重新檢視過去的決策,并在未來做出更好的選擇。然而,人類的大腦有一個(gè)限制:我們只能想象少數(shù)幾條替代路徑。但現(xiàn)實(shí)世界的決策空間,往往是巨大而復(fù)雜的。于是,大多數(shù)的「更好選擇」,往往在歷史中永遠(yuǎn)沒有被看見。
此時(shí),AI的GNN(圖神經(jīng)網(wǎng)絡(luò))模型能從KG(知識(shí)圖)里探索出潛在的反事實(shí)連結(jié)(Counterfactual Link,簡(jiǎn)稱:CF_Link),就有可能協(xié)助Agent獲得<預(yù)見>,并進(jìn)而觸發(fā)人們的反事實(shí)思考,而激發(fā)人類的創(chuàng)造力(圖-3)。

圖-3
在這AI智能體的演練中,戰(zhàn)爭(zhēng)爆發(fā)之前,GNN就從孔明KG探索出CF_Links,提供給王平(Agent)和馬謖,讓它們可以看到不同決策路徑(如依城據(jù)守、山上扎營(yíng)、兵分二路)的模擬結(jié)果。那么,馬謖和孔明就不必在戰(zhàn)后才后悔了,因?yàn)榭梢栽趹?zhàn)前就預(yù)見。
2. 智能體決策路徑的模擬
在本文里,所采取的智能體開發(fā)流程,包含三個(gè)階段:
u 第一階段:讓 AI Agent (王平)長(zhǎng)出策略智慧。
u 第二階段:訓(xùn)練LoRA助手,讓LLM(馬謖)入鄉(xiāng)隨俗。
u 第三階段:于是Agent和LLM + LoRA雙方協(xié)同合作,共贏街亭。也如同喜瑪拉雅山的雪巴人與登山者雙方協(xié)同一齊登峰。
其中的第一、二階段部分,采用三國(guó)演義故事的角色來說明,所以稱之為:孔明模式。而其中的第三階段部分,則采用雪巴人協(xié)助登山者一齊登峰來說明,所以稱之為:雪巴人模式(圖-4)。

圖-4
基于這兩項(xiàng)眾人都很熟悉的典故,作為通俗的比喻,可迅速領(lǐng)會(huì)智能體協(xié)作模擬的規(guī)劃步驟。
A、先以孔明模式練兵
? 以 KG 為戰(zhàn)略知識(shí),
? 以 FSM + DT 為天地規(guī)則,
? 以 LLM 為總參謀,
在人機(jī)雙養(yǎng)與兵分二路之中,慢慢養(yǎng)成一位真正熟悉本地、能掌決策、會(huì)在場(chǎng)域中行走的 Agent。其中,以 KG 作為孔明的戰(zhàn)略知識(shí),并以 FSM(狀態(tài)機(jī)) + DT(數(shù)字孿生)作為天地地勢(shì)與場(chǎng)域規(guī)則。再聘請(qǐng)一位總參謀,也就是 LLM(馬謖)。在這樣的架構(gòu)下,一方面培育出真正熟悉本地、能掌行動(dòng)決策的王平(Agent)。
接著,也透過 SFT(監(jiān)督式微調(diào)),訓(xùn)練出懂在地規(guī)矩、能輔助解說與參謀的助理參謀(LoRA模型)。這一環(huán)節(jié)的重點(diǎn)是:先把兵練好,先把主將與副將的角色養(yǎng)成。
然后,再進(jìn)入雪巴人向?qū)J剑河?/span> Agent 擔(dān)任登山者,LLM + LoRA 擔(dān)任雪巴人與副將,三者一起出征,最終目標(biāo)是協(xié)力登頂圣母峰。
B、以雪巴人模式出征
接著,進(jìn)入雪巴人向?qū)J剑河?/span> Agent 擔(dān)任登山者,LLM + LoRA 擔(dān)任雪巴人與副將,三者一起出征,最終目標(biāo)是協(xié)力登頂圣母峰。
? 讓 Agent 成為登山者,
? 讓 LLM + LoRA 成為雪巴人向?qū)c副將,陪它一起前行、一起解說、一起面對(duì)風(fēng)險(xiǎn)、一起逼近山頂。
簡(jiǎn)而言之,孔明模式練兵,雪巴人模式出征。主將掌決策,副將補(bǔ)智慧;知識(shí)養(yǎng) Agent,Agent 也養(yǎng)知識(shí)。于是,AI 不只會(huì)走,還會(huì)懂、會(huì)說、會(huì)陪走、會(huì)共贏。先養(yǎng)成王平與助理參謀,再讓 Agent、LoRA、LLM 攜手登頂圣母峰。這是一條完整的工業(yè) Agentic AI 養(yǎng)成之路。其中的關(guān)鍵點(diǎn)不是誰取代誰,而是主將、總參謀、助理參謀協(xié)作出征。
C、真正進(jìn)入戰(zhàn)場(chǎng)
在進(jìn)入真實(shí)戰(zhàn)場(chǎng)后,同一位總參謀(LLM),可以透過不同 LoRA 分身,陪伴不同軍事隊(duì)伍的指揮官(Agent);并在各自場(chǎng)域中,協(xié)助理解候選策略、提示風(fēng)險(xiǎn)方向、強(qiáng)化人機(jī)協(xié)作,最終幫助Agent所追求的整體戰(zhàn)術(shù)效益更穩(wěn)、更高。于是,同一個(gè) LLM 可透過不同 LoRA,陪不同 Agent 進(jìn)入不同戰(zhàn)區(qū)。由Agent 掌決策,LLM 協(xié)助理解、幫助探索、提共解說,最終共同放大整體的戰(zhàn)術(shù)效益。亦即,總參謀一人,分身多路;主將各自領(lǐng)軍,副將各擅其場(chǎng),最終讓候選更清、風(fēng)險(xiǎn)更明、效益更高。
其中,Agent 負(fù)責(zé)真正的行動(dòng)決策與戰(zhàn)術(shù)執(zhí)行;LLM + LoRA 則負(fù)責(zé)理解行動(dòng)方案(Rollout)、解說局勢(shì)、協(xié)助理解候選策略,并放大 CF_Links 的風(fēng)險(xiǎn)提示與探索價(jià)值。于是,在 KG、DT、Event 的外圍壓力與場(chǎng)域條件下,整體協(xié)作就能把 Agent 所追求的最終戰(zhàn)術(shù)效益推向更高水平,完美實(shí)踐智能體決策路徑的模擬。
3. 結(jié)語
以 KG 為孔明的戰(zhàn)略知識(shí),以 FSM + DT 為天地規(guī)則,并聘請(qǐng)總參謀 LLM(馬謖),逐步培育出熟悉本地、能掌決策的王平(Agent),以及懂在地規(guī)矩、能輔助解說與參謀的助理參謀(LoRA)。接著,再進(jìn)入雪巴人向?qū)J?,?/span> Agent 擔(dān)任登山者,LLM + LoRA 擔(dān)任雪巴人與副將,三者一起出征,最終目標(biāo)是協(xié)力登頂圣母峰。
簡(jiǎn)而言之,這套葵花寶典的核心是:FSM + KG 兵分二路,透過人機(jī)雙養(yǎng),培育會(huì)自主決策Agent。進(jìn)而,藉由Agent + LoRA(LLM)協(xié)同合作,讓登山者與雪巴人一起登峰。這可比喻為:王平掌握行動(dòng)策略,馬謖補(bǔ)語義,LoRA助在地;孔明定知識(shí),天地映場(chǎng)域,司馬懿施事件——多方協(xié)作,以虛擬的<馬謖王平智能體(Agent)共贏街亭>系統(tǒng),來觀察后悔變成預(yù)見的美好效果。
在下一集里,將繼續(xù)說明和演示上述孔明模式與雪巴人模式的實(shí)施細(xì)節(jié)。



評(píng)論