?中科曙光scaleFabric首發:中國高端RDMA邁入自研時代 國產原生RDMA網絡scaleFabric發布 填補大規模智算互聯空白
3月12日,中科曙光宣布實現國產高端原生RDMA技術重大突破,正式發布首款全棧自研400G無損高速網絡——scaleFabric。該產品基于原生RDMA架構,從底層的112G SerDes IP、硬件設備到上層的管理軟件實現100%自主研發,填補了國內數據中心高速網絡領域的空白,以比肩國際頂尖同類產品的性能表現,為超大規模智算集群鋪就了一條高帶寬、低時延、真無損、超可靠的“算力大動脈”。
高端智算互聯待破局
隨著AI大模型訓練與高通量推理計算需求持續擴大,萬卡級乃至更大規模的算力集群正成為主流形態。研究表明,在大規模分布式訓練中,網絡通信耗時占比已達到30-50%,網絡性能直接影響算力系統的整體效率。
在大規模智算集群領域,RDMA(遠程直接內存訪問)網絡已成為算力中心的基本需求,憑借零丟包、高帶寬、低延遲等特征,可極大提升通信效率。其中,InfiniBand憑借低時延與原生無損傳輸能力,在全球頂級超算與AI集群中被廣泛采用。根據TOP500榜單,目前全球約60%的高性能計算系統采用InfiniBand網絡架構。
長期以來,從高速SerDes IP、核心芯片到IB網卡、IB交換機等設備,InfiniBand相關產業鏈基本被海外廠商壟斷。隨著AI算力需求快速增長及數據中心網絡持續演進,自主高性能RDMA網絡正成為產業關注焦點。中國工程院院士鄔賀銓表示,高速網絡作為算力基礎設施的核心關鍵技術,其自主可控性直接關系到國家算力基礎設施的安全與發展質量。在大模型訓練和智算集群規模化部署背景下,網絡需要同時具備超低延遲、超高帶寬與無損傳輸能力,而RDMA高速網絡正是智算集群的“算力大動脈”。
中國工程院院士?鄔賀銓 視頻致辭
國產原生RDMA問世
scaleFabric是國內首款原生無損RDMA高速網絡,面向超大規模智算集群設計,從核心關鍵IP、交換芯片、網卡到交換機、驅動與管理軟件均實現自主研發,構建起從硬件到軟件的完整技術體系。
此次發布的scaleFabric400系列網絡產品技術規格全面對標英偉達NDR,部分指標實現趕超。性能方面,scaleFabric400網卡基于PCIe5.0接口,端口帶寬達400Gbps,端到端通信時延低至0.9微秒;scaleFabric400交換機單端口帶寬達800Gbps,整機交換容量可達雙向64Tbps,交換時延約260納秒,支持800G×40或400G×80端口擴展。這一性能組合,可充分滿足萬卡級AI訓練集群對高帶寬、低時延網絡的極致需求。
穩定性與擴展能力上,產品采用基于信用的無損流控機制,從根源規避擁塞丟包風險,鏈路故障恢復時間小于1毫秒,已支撐近萬卡集群持續穩定運行驗證超10個月。與英偉達NDR相比,交換機端口密度提升25%,網卡最大QP數支持提升100%,單子網互連規模是傳統IB的2.33倍,可輕松支持最大11.4萬卡集群部署,同時網絡總成本可降低30%。
在大規模AI訓練系統中,網絡互聯能力已成為影響算力利用率的關鍵變量。scaleFabric的發布,標志著國產智算網絡在高端RDMA領域實現重大突破。
萬卡集群率先驗證
在實際應用層面,scaleFabric目前已部署于國家超算互聯網鄭州核心節點,支撐三套萬卡級scaleX智算集群上線運行,總規模達3萬卡。中科曙光高級副總裁李斌表示,隨著產品在超大規模智算集群中的落地應用,國產原生RDMA技術路線正逐步走向成熟,圍繞其形成的高性能網絡產業生態也正在加速形成。
運行數據顯示,該網絡系統在大規模集群環境中保持穩定運行,可支持跨POD組網及大規模并行訓練任務,為國產原生無損RDMA網絡在高端智算基礎設施中的應用提供了實踐驗證。
依托在高性能計算、存儲與網絡領域的長期技術積累,中科曙光已逐步形成“算—存—網”協同發展的完整算力底座能力,為大規模AI基礎設施提供系統級支撐。隨著政府工作報告提出持續推進“人工智能+”,算力基礎設施正進入新一輪升級周期。國產原生RDMA網絡的落地,意味著我國在智算互聯這一關鍵環節開始形成自主技術路徑,補齊了我國智算基礎設施中的關鍵一環。













評論