AWS將把Cerebras晶圓級WSE?3芯片引入云平臺
亞馬遜云科技(AWS)將向客戶開放使用 Cerebras Systems 公司的 WSE?3 人工智能芯片。兩家公司今日宣布了這一合作計(jì)劃,這是一項(xiàng)多年戰(zhàn)略合作的一部分,雙方還將為 AI 推理工作負(fù)載共同打造解耦架構(gòu)(disaggregated architecture),預(yù)計(jì)可將 AI 模型生成輸出的速度提升5 倍。
Cerebras 的 WSE?3 芯片集成90 萬個(gè)計(jì)算核心與44GB 片上 SRAM,該處理器以水冷整機(jī)設(shè)備 CS?3 的形式交付。這套系統(tǒng)大小近似迷你冰箱,將一顆 WSE?3 與外置內(nèi)存、網(wǎng)絡(luò)設(shè)備及其他輔助組件整合在一起。
根據(jù)新公布的合作,AWS 將在其數(shù)據(jù)中心內(nèi)部署 CS?3 整機(jī)設(shè)備,并通過旗下 AWS Bedrock 服務(wù)向客戶開放使用 —— 該服務(wù)提供自研及第三方基礎(chǔ)模型的訪問能力。CS?3 可讓神經(jīng)網(wǎng)絡(luò)以每秒數(shù)千個(gè) token的速度生成提示響應(yīng)。
雙方聯(lián)合研發(fā)的解耦架構(gòu)將把 WSE?3 與 AWS 自研 AI 芯片系列 Trainium 相結(jié)合,目標(biāo)是加速客戶的推理工作負(fù)載。
大語言模型處理提示詞時(shí),會將其拆分為名為token的小型數(shù)據(jù)單元,每個(gè) token 包含若干字母或數(shù)字。LLM 會為提示中的每個(gè) token 生成三個(gè)數(shù)學(xué)對象:鍵(Key)、值(Value)、查詢(Query),幫助模型判斷提示中哪些部分重要、哪些細(xì)節(jié)可降低優(yōu)先級。
LLM 處理提示的過程稱為預(yù)填充階段(prefill),隨后進(jìn)入解碼階段(decode),模型在此階段生成對用戶問題的回答。
預(yù)填充與解碼任務(wù)通常由同一塊芯片完成。而在 AWS 的解耦架構(gòu)中,Trainium 負(fù)責(zé)預(yù)填充階段,WSE?3 負(fù)責(zé)解碼階段。
解碼涉及與預(yù)填充類似的計(jì)算,但需要顯著更多的數(shù)據(jù)搬運(yùn),信息需要在芯片的邏輯電路與內(nèi)存之間頻繁傳輸。芯片搬運(yùn)信息的速度越快,生成響應(yīng)的速度就越快。
WSE?3 的核心賣點(diǎn)之一,就是其邏輯與內(nèi)存電路間的數(shù)據(jù)搬運(yùn)速度遠(yuǎn)超許多其他芯片。據(jù) Cerebras 介紹,該處理器提供27PB/s 的內(nèi)部內(nèi)存帶寬,是英偉達(dá) NVLink 顯卡互聯(lián)帶寬的200 倍以上。
AWS 將在數(shù)據(jù)中心內(nèi)通過自研網(wǎng)絡(luò)設(shè)備Elastic Fabric Adapter(EFA,彈性結(jié)構(gòu)適配器) 連接 Trainium 與 WSE?3 芯片。通常芯片間傳輸數(shù)據(jù)包需要經(jīng)過主機(jī)服務(wù)器操作系統(tǒng),而 EFA 跳過這一步以加速連接,并自動(dòng)緩解網(wǎng)絡(luò)擁塞。
“解耦架構(gòu)非常適合大型、穩(wěn)定的工作負(fù)載,”Cerebras 產(chǎn)品營銷總監(jiān) James Wang 在博文中寫道,“大多數(shù)客戶會運(yùn)行預(yù)填充 / 解碼比例各異的混合工作負(fù)載,傳統(tǒng)的聚合架構(gòu)在此場景下依然是理想選擇。我們預(yù)計(jì)大多數(shù)客戶會希望同時(shí)使用兩種方案。”
此次合作宣布前幾周,Cerebras 剛剛拿下另一筆重磅芯片供應(yīng)協(xié)議:OpenAI Group PBC 同意在 2028 年前向該公司采購750 兆瓦算力的計(jì)算基礎(chǔ)設(shè)施,這筆交易據(jù)稱價(jià)值超100 億美元。該協(xié)議公布于 Cerebras 兩輪融資之間,兩輪融資合計(jì)為其募資超20 億美元。
這家芯片制造商預(yù)計(jì)最快將于2026 年第二季度提交 IPO 申請。與 AWS 及 OpenAI 的合作有望提升投資者對其上市的興趣。












評論