久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 設計應用 > 去中心化訓練助力解決 AI 能耗難題

去中心化訓練助力解決 AI 能耗難題

作者: 時間:2026-04-09 來源:EEPW編譯 收藏

整合分散的算力資源,有望實現更節能的 AI 模型訓練

能耗需求極高,AI 熱潮背后的數據中心碳足跡龐大,前沿 AI 模型訓練的碳排放持續攀升,這一問題尤為突出。

因此,科技巨頭紛紛布局核能,期待以可靠、零碳支撐未來發展。但核電數據中心仍需多年才能落地,目前科研與產業界已采取行動遏制 AI 能耗增長。他們聚焦模型訓練這一生命周期中能耗最高的環節,推動去中心化技術落地。

去中心化將模型訓練分配至網絡中的獨立節點,而非依賴單一平臺或供應商,讓算力就近匹配 —— 無論是實驗室閑置服務器,還是太陽能供電家庭的電腦。無需新建數據中心、擴容電網基礎設施,去中心化可復用現有,避免額外能耗。

硬件協同

AI 模型訓練是數據中心的核心任務,需在緊密連接的 GPU 集群間同步運算。但硬件升級速度難以跟上大語言模型規模的快速增長,即便超大型單一數據中心也無法滿足需求。

科技企業開始整合多地數據中心算力。例如,英偉達推出 Spectrum-XGS 以太網,支持跨地域組網,“可滿足跨地理分布數據中心的大規模單任務 AI 訓練與推理性能需求”;思科推出 8223 路由器,專為 “連接地理分散的 AI 集群” 設計。

另有企業挖掘服務器閑置算力,催生 GPU 即服務商業模式。例如,Akash Network 是點對點云計算市場,自稱 “數據中心版愛彼迎”—— 辦公室與小型數據中心的閑置 GPU 持有者注冊為供應商,有算力需求的用戶作為租戶,可選擇供應商租賃 GPU。

Akash 聯合創始人兼首席執行官格雷格?奧蘇里稱:“當前 AI 訓練高度依賴最新、最高端的 GPU,行業正從僅依賴大型高密度 GPU,轉向兼容小型 GPU。”

軟件同步

除硬件調度外,去中心化 AI 訓練還需軟件層面的算法優化,聯邦學習(分布式機器學習的一種)應運而生。

麻省理工學院計算機科學與實驗室(CSAIL)去中心化信息團隊負責人、首席研究科學家拉蘭娜?卡加爾解釋:“初始全局 AI 模型部署在可信節點(如中央服務器),服務器將模型分發給參與機構,各機構基于本地數據訓練模型,僅向可信節點上傳模型權重;可信節點對權重聚合(通常取平均值),整合至全局模型后回傳參與者。該協作訓練循環持續至模型訓練完成。”

但數據與計算分布式部署存在弊端,例如模型權重頻繁傳輸導致高通信成本,容錯性不足也是問題。

奧蘇里稱:“AI 訓練的核心問題是每一步都不具備容錯性,單個節點故障,需重新加載整個批次數據。”

為攻克這些難題,谷歌 DeepMind 研究人員開發 DiLoCo 分布式低通信優化算法。谷歌 DeepMind 研究科學家阿瑟?杜亞爾稱,DiLoCo 構建 “算力孤島”,每個孤島由一組芯片組成,不同孤島芯片類型不同,同一孤島芯片類型一致。孤島相互解耦,僅定期同步信息。這種解耦設計使孤島可獨立完成訓練步驟、減少通信,單個芯片故障不會影響其他正常芯片。但實驗顯示,孤島數量超過 8 個后,模型性能會下降。

升級版流式 DiLoCo 進一步降低帶寬需求,杜亞爾稱:“通過多步驟流式同步信息,無需暫停訓練等待通信,原理類似未完全下載即可播放的視頻。流式 DiLoCo 在運算過程中,后臺逐步同步信息。”

AI 開發平臺 Prime Intellect 采用 DiLoCo 算法變體,在三大洲五個國家訓練 100 億參數的 INTELLECT-1 模型;0G Labs(去中心化 AI 操作系統開發商)適配 DiLoCo 算法,在帶寬有限的隔離集群網絡中訓練 1070 億參數基礎模型;主流開源深度學習框架 PyTorch 也將 DiLoCo 納入容錯技術庫。

杜亞爾稱:“社區已完成大量工程工作,將我們的 DiLoCo 論文成果集成至消費級互聯網環境下的系統學習中,我的研究能落地應用,我非常興奮。”

更節能的 AI 訓練方式

隨著硬件與軟件優化完善,去中心化 AI 訓練有望解決 AI 能耗問題。麻省理工學院 CSAIL 的卡加爾稱,該方法可 “以更低成本、更高效、更節能的方式訓練模型”。

杜亞爾坦言:“DiLoCo 等訓練方法復雜度更高,但實現了系統效率的合理平衡。” 例如,可利用地理跨度大的數據中心,無需搭建超高速帶寬;且具備內置容錯性,“單個芯片故障僅影響所屬算力孤島”。

更重要的是,企業可復用現有閑置算力,無需持續新建高能耗數據中心。Akash 大力布局 Starcluster 項目,目標是整合太陽能供電家庭的臺式機、筆記本電腦用于 AI 模型訓練。奧蘇里稱:“我們希望將家庭轉變為功能完整的數據中心。”

奧蘇里承認,參與 Starcluster 并非易事。除太陽能板與消費級 GPU 設備外,參與者還需配備備用電源電池與冗余網絡,避免停機。Starcluster 項目正整合這些需求,降低家庭參與門檻,包括與行業伙伴合作補貼電池成本。

目前團隊已開展后臺開發,支持家庭作為供應商接入 Akash Network,計劃 2027 年實現目標。Starcluster 項目還將拓展至學校、社區中心等太陽能供電場所。

去中心化 AI 訓練為 AI 邁向環境可持續發展提供可行路徑。奧蘇里認為,其核心價值是 “讓 AI 就近使用能源,而非將能源輸送至 AI 所在處”。



關鍵詞: 人工智能 能源

評論


相關推薦

技術專區

關閉