久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 從代碼合入到社區(qū)共聚:SGLang×MUSA Meetup圓滿落幕,國產(chǎn)GPU開源生態(tài)進入“原生支持”時代

從代碼合入到社區(qū)共聚:SGLang×MUSA Meetup圓滿落幕,國產(chǎn)GPU開源生態(tài)進入“原生支持”時代

作者: 時間:2026-05-13 來源: 收藏

5月10日,由社區(qū)聯(lián)合主辦的“MUSA開源技術沙龍| × ”在北京成功舉行。

圖片

本次Meetup不僅集結(jié)了核心開發(fā)成員,并邀請到TileLang、Triton、Mooncake等開源社區(qū)的頂尖技術專家,吸引了近百位前沿開發(fā)者到場參與。各方圍繞大模型推理引擎、算子編譯、工程優(yōu)化與生態(tài)共建等核心議題,展開了一場高密度、深層次的技術交流。

圖片

作為MUSA后端正式合入SGLang主線后的首場線下技術活動,此次Meetup集中展現(xiàn)了在推動深度融入全球主流開源框架加速AI軟件棧生態(tài)共建方面取得的里程碑成果。基于這一官方支持體系,開發(fā)者在使用SGLang運行大語言模型及多模態(tài)推理任務時,已直接調(diào)用全功能GPU,無需依賴第三方適配層,國產(chǎn)算力與國際主流推理框架的協(xié)同由此邁入“原生支持”的新階段

立足通用計算,以MUSA開放架構(gòu)擁抱開源生態(tài)

摩爾線程CTO張鈺勃在開場致辭中,深度闡釋了MUSA(Meta-computing Unified System Architecture)統(tǒng)一系統(tǒng)架構(gòu)的核心設計理念。他強調(diào),摩爾線程始終堅持“通用計算”的初衷,以真正通用及高度統(tǒng)一的底層計算平臺,支撐從物理世界仿真、數(shù)字孿生到具身智能的未來技術演進,不為創(chuàng)新設限;同時,通過全產(chǎn)品線“統(tǒng)一”的指令集與架構(gòu)標準,確保軟件生態(tài)能夠持續(xù)沉淀與積累。


圖片


針對開發(fā)者最為關心的生態(tài)遷移體驗,張鈺勃表示:“摩爾線程秉持開放的態(tài)度,MUSA在接口設計上最大程度復用了開發(fā)者熟悉的GPU編程習慣。我們不希望獨立創(chuàng)造一套封閉的生態(tài),而是以零學習成本,全面融入現(xiàn)有的繁榮生態(tài)。”基于這一開放理念,他指出,此次MUSA獲得SGLang官方支持,正是摩爾線程擁抱開源社區(qū)的關鍵一步。未來,摩爾線程將與廣大開發(fā)者并肩前行,持續(xù)在框架底層創(chuàng)新上貢獻更多核心力量


技術分享:從推理框架到算子內(nèi)核,共探落地路徑

技術分享環(huán)節(jié),SGLang、Triton、TileLang及Mooncake社區(qū)的核心專家圍繞推理框架、算子編譯與訓推系統(tǒng)等議題,帶來了五場深度技術分享。

圖片

▼ 解析演進路線,SGLang以創(chuàng)新架構(gòu)挑戰(zhàn)大模型推理極限


SGLang核心開發(fā)成員Xiaoyu Zhang(BBuf)重點解析了框架的關鍵演進:支撐DeepSeek-V4等模型的Prefill-Decode分離架構(gòu)與分層緩存機制,以及Zero?overhead Speculative Decoding帶來的推測解碼效率躍升。在算子層,原有的sgl?kernel包因體積膨脹(超1.5GB)已逐步遷移至全新的Jit?kernel體系,基于TVM?FFI實現(xiàn)按需編譯,大幅提升開發(fā)與發(fā)版效率。同時,SGLang積極引入Vibe Coding實踐,利用AI Agent自動完成了超60項性能分析與調(diào)優(yōu)任務。發(fā)布2026年Q2 Roadmap時,他明確表示摩爾線程MUSA已正式納入SGLang硬件適配核心陣列,未來雙方將深化原生算子支持,共同推動頂級推理框架與國產(chǎn)算力底座的“原生”級融合。

圖片

▼ 打通原生生態(tài),MUSA釋放主流模型“開箱即用”算力


摩爾線程Contributor ROCKSTAR分享了SGLang在MUSA平臺上的優(yōu)化與工程落地實踐。他重點介紹了實現(xiàn)快速兼容的關鍵——torchada適配層,通過一次import torchada即可讓開發(fā)者現(xiàn)有CUDA代碼無縫運行在摩爾線程GPU上,大幅降低適配與維護成本。在算子層面,摩爾線程開源的 MATE(MUSA AI Tensor Engine)算子庫提供了高性能Attention與GEMM算子,已對接 FlashAttention、FlashMLA、DeepGEMM等主流接口。目前,基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等視頻生成模型,在MTT S5000等硬件上實現(xiàn)真正的“開箱即用”與無縫加速,顯著降低了開發(fā)者的算力遷移門檻。截至5月12日,摩爾線程在SGLang主線累計提交47個PR,其中41個已合入,完成了從環(huán)境構(gòu)建到分布式推理的全鏈路打通,為開源生態(tài)持續(xù)貢獻了扎實的工程能力。


SGLang × MUSA Roadmap地址:

https://github.com/sgl-project/sglang/issues/16565


SGLang安裝文檔:

https://docs.sglang.io/docs/hardware-platforms/mthreads_gpu

圖片

▼ 攻克關鍵算子優(yōu)化,Triton助力構(gòu)建跨芯片統(tǒng)一軟件棧


北京智源人工智能研究院AI編譯器研究員肖航的演講聚焦于大模型Triton關鍵算子的優(yōu)化及其在MUSA平臺上的深度適配。他介紹了旨在打通多種AI芯片的統(tǒng)一開源軟件棧FlagOS,其FlagGEMs算子庫已涵蓋超497個算子,并依托FlagTree編譯器與Triton-TLE語言擴展,實現(xiàn)了跨芯片的高性能算子生成。通過融化、量化等方式加速Fused MoE和FP8 GEMM等算子性能4倍以上。在DeepSeek-V4的Day0適配中,通過摩爾線程專用的張量加速引擎與FlagOSTune調(diào)優(yōu)方案,TTFT時延降低56.7%,吞吐量提升65.7%。這種跨芯片的統(tǒng)一抽象與優(yōu)化機制,正為摩爾線程等構(gòu)建起更加豐富、高效的算力應用生態(tài)。

圖片

▼ 破解硬件依賴,TileLang以極簡抽象重塑算子開發(fā)范式


TileLang Maintainer唐正舉深入探討了作為Tile級領域特定編程語言(DSL),TileLang在化解算子硬件依賴與性能調(diào)優(yōu)上的核心優(yōu)勢。通過對計算與數(shù)據(jù)搬運基本單元(Tile)的顯式控制,開發(fā)者能以極簡代碼實現(xiàn)極致性能——例如用約50行代碼寫出比肩FlashAttention專家?guī)斓膋ernel,在Attention?Sinks等算子上更獲得20倍以上加速。TileLang提供Beginner、Developer、Expert三種編程模式,兼顧上手簡易與深度調(diào)優(yōu);DeepSeek-V4已在訓練中原生采用其編寫核心kernel,達到硬件峰值性能。作為開源近一年即斬獲超6000星的熱門社區(qū),TileLang正與MUSA生態(tài)深度聯(lián)調(diào)共同構(gòu)建適配摩爾線程全功能GPU的高性能算子庫。未來,Tile?AI社區(qū)還將圍繞分布式算子編程、自動調(diào)度等新項目發(fā)力,持續(xù)賦能AI算力演進。


TileLang-MUSA開源地址:

https://github.com/tile-ai/tilelang-musa


TileKernels算子庫開源地址:

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

圖片

▼ 踐行極致解耦,Mooncake訓推一體系統(tǒng)在國產(chǎn)GPU的高效實踐


Mooncake Contributor馬騰分享了Mooncake與SGLang深度結(jié)合的技術演進。其核心傳輸引擎(Transfer Engine)充分利用零拷貝RDMA與多協(xié)議支持,實現(xiàn)高吞吐與超低延遲;KV Cache Store將GPU顯存、DRAM、SSD等異構(gòu)存儲統(tǒng)一池化,顯著降低長上下文推理成本。在彈性EP架構(gòu)中,Mooncake支持故障節(jié)點動態(tài)摘除與Expert映射調(diào)整,大幅提升集群容錯能力;在RL權(quán)重更新場景,通過P2P傳輸將同步時間從53秒壓縮至7.2秒。目前,摩爾線程已作為Mooncake項目的核心Maintainer之一,深度參與多節(jié)點通信協(xié)議等關鍵特性共建。這一系列工程創(chuàng)新,正將Mooncake打造為現(xiàn)代AI生產(chǎn)與部署軟件棧的關鍵一環(huán)。

圓桌討論:SGLang+MUSA 生態(tài)共建與工程化破局

在圓桌對話環(huán)節(jié),摩爾線程軟件副總裁楊上山擔任主持人,與Xiaoyu Zhang(BBuf)、ROCKSTAR、肖航、唐正舉及馬騰五位技術專家同臺,圍繞“SGLang + MUSA生態(tài)共建與工程化破局”展開深度探討。


圖片

面對開源技術創(chuàng)新提速國產(chǎn)多硬件生態(tài)復雜度加劇的雙重挑戰(zhàn),嘉賓們從框架、算子、通信到系統(tǒng)架構(gòu)逐一破題:BBuf呼吁框架層建立更干凈的硬件抽象,避免侵入式修改;R0CKSTAR分享了MUSA在兼容CUDA生態(tài)過程中“接口兼容、底層創(chuàng)新”的關鍵路徑;肖航結(jié)合Triton及TLE擴展,探討了可編程性與極致性能之間的再平衡策略;唐正舉強調(diào)TileLang的Tile抽象可作為連接模型、算子和硬件的統(tǒng)一紐帶,助力國產(chǎn)芯片全鏈路形成合力;馬騰則從系統(tǒng)視角指出,最佳實踐的沉淀與端到端場景驗證是生態(tài)繁榮的關鍵。嘉賓們一致認為,未來12個月應優(yōu)先建立跨層級的統(tǒng)一抽象邊界、標準化適配接口與共享的基準測試體系,以開放協(xié)作替代重復適配,共同推動國產(chǎn)AI軟硬件生態(tài)的協(xié)同突破。

結(jié)語

此次“SGLang × 的成功舉辦,標志著MUSA后端合入SGLang主線后,國產(chǎn)GPU與全球頂級推理框架的協(xié)同從“代碼共建”邁向“生態(tài)共聚”


圖片

通過與SGLang、TileLang、Triton、Mooncake等開源社區(qū)的緊密協(xié)作,摩爾線程不僅推動了MUSA平臺與主流AI框架的深度適配,更實際行動賦能開發(fā)者,持續(xù)助力國產(chǎn)算力與全球開源生態(tài)的深度融合,加速AI應用的創(chuàng)新與落地。從一行行代碼的提交合入,到如今線下社區(qū)的深度共聚,摩爾線程正攜手頂尖開源力量,持續(xù)夯實國產(chǎn)GPU軟件棧底座,與廣大開發(fā)者并肩前行。



評論


相關推薦

技術專區(qū)

關閉