AWS將把Cerebras晶圓級WSE?3芯片引入云平臺

作者：時間：2026-03-16 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

亞馬遜云科技（AWS）將向客戶開放使用 Cerebras Systems 公司的 WSE?3 人工智能芯片。兩家公司今日宣布了這一合作計劃，這是一項多年戰略合作的一部分，雙方還將為 AI 推理工作負載共同打造解耦架構（disaggregated architecture），預計可將 AI 模型生成輸出的速度提升5 倍。

Cerebras 的 WSE?3 芯片集成90 萬個計算核心與44GB 片上 SRAM，該處理器以水冷整機設備 CS?3 的形式交付。這套系統大小近似迷你冰箱，將一顆 WSE?3 與外置內存、網絡設備及其他輔助組件整合在一起。

根據新公布的合作，AWS 將在其數據中心內部署 CS?3 整機設備，并通過旗下 AWS Bedrock 服務向客戶開放使用 —— 該服務提供自研及第三方基礎模型的訪問能力。CS?3 可讓神經網絡以每秒數千個 token的速度生成提示響應。

雙方聯合研發的解耦架構將把 WSE?3 與 AWS 自研 AI 芯片系列 Trainium 相結合，目標是加速客戶的推理工作負載。

大語言模型處理提示詞時，會將其拆分為名為token的小型數據單元，每個 token 包含若干字母或數字。LLM 會為提示中的每個 token 生成三個數學對象：鍵（Key）、值（Value）、查詢（Query），幫助模型判斷提示中哪些部分重要、哪些細節可降低優先級。

LLM 處理提示的過程稱為預填充階段（prefill），隨后進入解碼階段（decode），模型在此階段生成對用戶問題的回答。

預填充與解碼任務通常由同一塊芯片完成。而在 AWS 的解耦架構中，Trainium 負責預填充階段，WSE?3 負責解碼階段。

解碼涉及與預填充類似的計算，但需要顯著更多的數據搬運，信息需要在芯片的邏輯電路與內存之間頻繁傳輸。芯片搬運信息的速度越快，生成響應的速度就越快。

WSE?3 的核心賣點之一，就是其邏輯與內存電路間的數據搬運速度遠超許多其他芯片。據 Cerebras 介紹，該處理器提供27PB/s 的內部內存帶寬，是英偉達 NVLink 顯卡互聯帶寬的200 倍以上。

AWS 將在數據中心內通過自研網絡設備Elastic Fabric Adapter（EFA，彈性結構適配器）連接 Trainium 與 WSE?3 芯片。通常芯片間傳輸數據包需要經過主機服務器操作系統，而 EFA 跳過這一步以加速連接，并自動緩解網絡擁塞。

“解耦架構非常適合大型、穩定的工作負載，”Cerebras 產品營銷總監 James Wang 在博文中寫道，“大多數客戶會運行預填充 / 解碼比例各異的混合工作負載，傳統的聚合架構在此場景下依然是理想選擇。我們預計大多數客戶會希望同時使用兩種方案。”

此次合作宣布前幾周，Cerebras 剛剛拿下另一筆重磅芯片供應協議：OpenAI Group PBC 同意在 2028 年前向該公司采購750 兆瓦算力的計算基礎設施，這筆交易據稱價值超100 億美元。該協議公布于 Cerebras 兩輪融資之間，兩輪融資合計為其募資超20 億美元。

這家芯片制造商預計最快將于2026 年第二季度提交 IPO 申請。與 AWS 及 OpenAI 的合作有望提升投資者對其上市的興趣。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

AWS將把Cerebras晶圓級WSE?3芯片引入云平臺

評論

相關推薦

技術專區