人工智能系統亟待跨越的下一道難關
人工智能的發展之路并非一帆風順。媒體與華爾街對人工智能行業情緒的任何細微變化,都會表現出極端且劇烈的反應。狄更斯早已預見這般光景:“那是最美好的時代,那是最糟糕的時代;那是智慧的年頭,那是愚昧的年頭;那是信仰的時期,那是懷疑的時期;那是光明的季節,那是黑暗的季節;那是希望的春天,那是失望的冬天。” 在這些喧囂的頭條背后,人工智能推理的規模化發展正面臨一個關鍵難題:芯片的理論峰值性能與系統廠商能實際保障的性能之間,差距正不斷擴大。這一差距對算力的功耗需求和系統安全性,都產生了重大影響。
這一性能差距究竟從何而來?
大型半導體系統會大量采用預先設計的子系統,這些子系統要么是企業為前代產品自研的,要么是從外部采購的。如今數據中心和汽車領域普遍采用的芯粒架構設計,更是如此。行業頭部企業能提供各類頂尖的芯粒子系統,包括服務器 CPU 子系統、人工智能加速器子系統、高帶寬內存子系統等,而其他芯粒則由半導體系統主設計商自主研發。芯粒之間的連接通過行業標準的 UCIe 接口實現。
由這些組件搭建的系統,每個組件都經過獨立認證、具備高性能,且通過行業標準接口互連,按理說理應實現接近最優的吞吐效率,可事實并非如此。究其原因,是半導體產品的商業屬性決定了,這類造價高昂的大型產品必須同時處理多項推理任務。單顆芯粒的設計初衷本就包含多任務處理能力,但沒有任何一顆芯粒負責管控芯粒之間的通信流量性能。UCIe 接口的設計僅為實現基礎的互連功能,而非系統級的流量管理,這一管理工作則由芯粒之間的網絡子系統承擔 —— 這一系統層的架構與互聯網類似,卻是針對芯片內 / 封裝內的性能需求做了專項優化。
多租戶推理平臺面臨著獨特的流量管理挑戰。為兼顧成本與功耗效率,所有流量都通過一個公共網絡進行管理,這與現代電子系統的設計邏輯一致。但 CPU 控制單元、高帶寬內存與人工智能加速器之間的 AI 業務流量具有極強的突發性:部分流量突發且需要高帶寬支撐,部分流量對延遲極為敏感,還有部分流量(尤其是控制類數據,如有效信號、就緒信號、信用值等)是保障系統持續運行的關鍵。
這類突發性流量會搶占總線帶寬,雖非永久性占用,卻會持續至整個事務處理完成。而人工智能處理的大規模并行特性,進一步加劇了問題:某個計算步驟必須等所需數據全部到位后才能啟動,否則只能陷入停滯。當平臺同時運行多項推理任務時,此類停滯現象極易頻繁發生,推理進程會陷入空閑,直至數據全部就緒才能進入下一階段。
至此,看似一切都在情理之中:流量增加,單任務推理的性能就會下降。但令人意外的是,系統性能并非平穩衰減。當各推理任務間的流量競爭加劇時,就像城市交通的早高峰,進程停滯會不斷累積,達到臨界點后,系統性能會出現斷崖式下跌,整體利用率可能從 80% 驟降至 45%。
有人會問,為何不直接提升網絡帶寬?遺憾的是,僅靠提升帶寬遠遠不夠。在突發性流量和同步停滯的雙重影響下,用于保障各推理任務公平性的關鍵控制信息,會被不斷擠壓,最終導致任務間的公平性徹底喪失。有效的多租戶管理,需要的不僅是更高的帶寬,更重要的是實現性能的可預測性。
彌合性能差距的解決之道
高性能的人工智能加速器、CPU 子系統、高帶寬內存和 UCIe 接口,是打造芯粒架構 AI 產品的必要條件,卻并非充分條件。這類產品還必須搭建一套專屬的流量管理網絡,以應對多租戶 AI 推理的獨特挑戰 —— 這些需求,遠非 “盡力而為” 的普通網絡所能滿足。我們必須重新設計互連架構,讓 AI 工作負載的性能具備可預測性。
Arteris公司產品管理與營銷副總裁安迪?奈廷格爾,分享了實現性能可預測性的幾項核心要求:
網絡必須支持不同租戶的流量隔離,確保單個推理任務不會阻塞其他任務;
系統負載增加時,吞吐效率自然下降,但必須實現平穩衰減;
即便在高負載下,也必須保障緩存一致性;
高負載下的系統行為需具備確定性,這樣才能保障服務等級協議的兌現。
基于能實現上述保障的網絡知識產權核,設計人員就能打造出適配目標應用場景的網絡架構。
超大型數據中心無法基于不可預測的性能制定定價模型。如果芯粒間的互連架構并非為多租戶 AI 推理設計,企業要想兌現服務等級協議,就只能增加服務器部署數量和供電容量。顯然,更優的解決方案是,采用專為 AI 場景設計了網絡架構的系統,讓已規劃部署的服務器和供電資源發揮穩定的效用。
本文開篇曾提及系統安全性,如今芯粒架構因諸多優勢,在汽車系統中得到了廣泛應用。在汽車領域,功耗的可預測性固然重要,但安全層面的性能可預測性更為關鍵。在轎車、卡車等各類車輛中,系統響應的可預測性并非單純的性能優化需求,而是產品認證的硬性指標,而前文所述的網絡流量管理問題,在汽車系統中同樣存在。












評論