人工智能系統(tǒng)亟待跨越的下一道難關(guān)

作者：時(shí)間：2026-03-12 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人工智能的發(fā)展之路并非一帆風(fēng)順。媒體與華爾街對人工智能行業(yè)情緒的任何細(xì)微變化，都會(huì)表現(xiàn)出極端且劇烈的反應(yīng)。狄更斯早已預(yù)見這般光景：“那是最美好的時(shí)代，那是最糟糕的時(shí)代；那是智慧的年頭，那是愚昧的年頭；那是信仰的時(shí)期，那是懷疑的時(shí)期；那是光明的季節(jié)，那是黑暗的季節(jié)；那是希望的春天，那是失望的冬天。” 在這些喧囂的頭條背后，人工智能推理的規(guī)模化發(fā)展正面臨一個(gè)關(guān)鍵難題：芯片的理論峰值性能與系統(tǒng)廠商能實(shí)際保障的性能之間，差距正不斷擴(kuò)大。這一差距對算力的功耗需求和系統(tǒng)安全性，都產(chǎn)生了重大影響。

這一性能差距究竟從何而來？

大型半導(dǎo)體系統(tǒng)會(huì)大量采用預(yù)先設(shè)計(jì)的子系統(tǒng)，這些子系統(tǒng)要么是企業(yè)為前代產(chǎn)品自研的，要么是從外部采購的。如今數(shù)據(jù)中心和汽車領(lǐng)域普遍采用的芯粒架構(gòu)設(shè)計(jì)，更是如此。行業(yè)頭部企業(yè)能提供各類頂尖的芯粒子系統(tǒng)，包括服務(wù)器 CPU 子系統(tǒng)、人工智能加速器子系統(tǒng)、高帶寬內(nèi)存子系統(tǒng)等，而其他芯粒則由半導(dǎo)體系統(tǒng)主設(shè)計(jì)商自主研發(fā)。芯粒之間的連接通過行業(yè)標(biāo)準(zhǔn)的 UCIe 接口實(shí)現(xiàn)。

由這些組件搭建的系統(tǒng)，每個(gè)組件都經(jīng)過獨(dú)立認(rèn)證、具備高性能，且通過行業(yè)標(biāo)準(zhǔn)接口互連，按理說理應(yīng)實(shí)現(xiàn)接近最優(yōu)的吞吐效率，可事實(shí)并非如此。究其原因，是半導(dǎo)體產(chǎn)品的商業(yè)屬性決定了，這類造價(jià)高昂的大型產(chǎn)品必須同時(shí)處理多項(xiàng)推理任務(wù)。單顆芯粒的設(shè)計(jì)初衷本就包含多任務(wù)處理能力，但沒有任何一顆芯粒負(fù)責(zé)管控芯粒之間的通信流量性能。UCIe 接口的設(shè)計(jì)僅為實(shí)現(xiàn)基礎(chǔ)的互連功能，而非系統(tǒng)級的流量管理，這一管理工作則由芯粒之間的網(wǎng)絡(luò)子系統(tǒng)承擔(dān) —— 這一系統(tǒng)層的架構(gòu)與互聯(lián)網(wǎng)類似，卻是針對芯片內(nèi) / 封裝內(nèi)的性能需求做了專項(xiàng)優(yōu)化。

多租戶推理平臺(tái)面臨著獨(dú)特的流量管理挑戰(zhàn)。為兼顧成本與功耗效率，所有流量都通過一個(gè)公共網(wǎng)絡(luò)進(jìn)行管理，這與現(xiàn)代電子系統(tǒng)的設(shè)計(jì)邏輯一致。但 CPU 控制單元、高帶寬內(nèi)存與人工智能加速器之間的 AI 業(yè)務(wù)流量具有極強(qiáng)的突發(fā)性：部分流量突發(fā)且需要高帶寬支撐，部分流量對延遲極為敏感，還有部分流量（尤其是控制類數(shù)據(jù)，如有效信號(hào)、就緒信號(hào)、信用值等）是保障系統(tǒng)持續(xù)運(yùn)行的關(guān)鍵。

這類突發(fā)性流量會(huì)搶占總線帶寬，雖非永久性占用，卻會(huì)持續(xù)至整個(gè)事務(wù)處理完成。而人工智能處理的大規(guī)模并行特性，進(jìn)一步加劇了問題：某個(gè)計(jì)算步驟必須等所需數(shù)據(jù)全部到位后才能啟動(dòng)，否則只能陷入停滯。當(dāng)平臺(tái)同時(shí)運(yùn)行多項(xiàng)推理任務(wù)時(shí)，此類停滯現(xiàn)象極易頻繁發(fā)生，推理進(jìn)程會(huì)陷入空閑，直至數(shù)據(jù)全部就緒才能進(jìn)入下一階段。

至此，看似一切都在情理之中：流量增加，單任務(wù)推理的性能就會(huì)下降。但令人意外的是，系統(tǒng)性能并非平穩(wěn)衰減。當(dāng)各推理任務(wù)間的流量競爭加劇時(shí)，就像城市交通的早高峰，進(jìn)程停滯會(huì)不斷累積，達(dá)到臨界點(diǎn)后，系統(tǒng)性能會(huì)出現(xiàn)斷崖式下跌，整體利用率可能從 80% 驟降至 45%。

有人會(huì)問，為何不直接提升網(wǎng)絡(luò)帶寬？遺憾的是，僅靠提升帶寬遠(yuǎn)遠(yuǎn)不夠。在突發(fā)性流量和同步停滯的雙重影響下，用于保障各推理任務(wù)公平性的關(guān)鍵控制信息，會(huì)被不斷擠壓，最終導(dǎo)致任務(wù)間的公平性徹底喪失。有效的多租戶管理，需要的不僅是更高的帶寬，更重要的是實(shí)現(xiàn)性能的可預(yù)測性。

彌合性能差距的解決之道

高性能的人工智能加速器、CPU 子系統(tǒng)、高帶寬內(nèi)存和 UCIe 接口，是打造芯粒架構(gòu) AI 產(chǎn)品的必要條件，卻并非充分條件。這類產(chǎn)品還必須搭建一套專屬的流量管理網(wǎng)絡(luò)，以應(yīng)對多租戶 AI 推理的獨(dú)特挑戰(zhàn) —— 這些需求，遠(yuǎn)非 “盡力而為” 的普通網(wǎng)絡(luò)所能滿足。我們必須重新設(shè)計(jì)互連架構(gòu)，讓 AI 工作負(fù)載的性能具備可預(yù)測性。

Arteris公司產(chǎn)品管理與營銷副總裁安迪?奈廷格爾，分享了實(shí)現(xiàn)性能可預(yù)測性的幾項(xiàng)核心要求：

網(wǎng)絡(luò)必須支持不同租戶的流量隔離，確保單個(gè)推理任務(wù)不會(huì)阻塞其他任務(wù)；
系統(tǒng)負(fù)載增加時(shí)，吞吐效率自然下降，但必須實(shí)現(xiàn)平穩(wěn)衰減；
即便在高負(fù)載下，也必須保障緩存一致性；
高負(fù)載下的系統(tǒng)行為需具備確定性，這樣才能保障服務(wù)等級協(xié)議的兌現(xiàn)。

基于能實(shí)現(xiàn)上述保障的網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)核，設(shè)計(jì)人員就能打造出適配目標(biāo)應(yīng)用場景的網(wǎng)絡(luò)架構(gòu)。

超大型數(shù)據(jù)中心無法基于不可預(yù)測的性能制定定價(jià)模型。如果芯粒間的互連架構(gòu)并非為多租戶 AI 推理設(shè)計(jì)，企業(yè)要想兌現(xiàn)服務(wù)等級協(xié)議，就只能增加服務(wù)器部署數(shù)量和供電容量。顯然，更優(yōu)的解決方案是，采用專為 AI 場景設(shè)計(jì)了網(wǎng)絡(luò)架構(gòu)的系統(tǒng)，讓已規(guī)劃部署的服務(wù)器和供電資源發(fā)揮穩(wěn)定的效用。

本文開篇曾提及系統(tǒng)安全性，如今芯粒架構(gòu)因諸多優(yōu)勢，在汽車系統(tǒng)中得到了廣泛應(yīng)用。在汽車領(lǐng)域，功耗的可預(yù)測性固然重要，但安全層面的性能可預(yù)測性更為關(guān)鍵。在轎車、卡車等各類車輛中，系統(tǒng)響應(yīng)的可預(yù)測性并非單純的性能優(yōu)化需求，而是產(chǎn)品認(rèn)證的硬性指標(biāo)，而前文所述的網(wǎng)絡(luò)流量管理問題，在汽車系統(tǒng)中同樣存在。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

人工智能系統(tǒng)亟待跨越的下一道難關(guān)

評論

相關(guān)推薦

技術(shù)專區(qū)