從代碼合入到社區(qū)共聚：SGLang×MUSA Meetup圓滿落幕，國產(chǎn)GPU開源生態(tài)進入“原生支持”時代

作者：時間：2026-05-13 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

5月10日，由摩爾線程與SGLang社區(qū)聯(lián)合主辦的“MUSA開源技術沙龍｜SGLang × MUSA Meetup”在北京成功舉行。

本次Meetup不僅集結(jié)了SGLang核心開發(fā)成員，并邀請到TileLang、Triton、Mooncake等開源社區(qū)的頂尖技術專家，吸引了近百位前沿開發(fā)者到場參與。各方圍繞大模型推理引擎、算子編譯、工程優(yōu)化與生態(tài)共建等核心議題，展開了一場高密度、深層次的技術交流。

作為MUSA后端正式合入SGLang主線后的首場線下技術活動，此次Meetup集中展現(xiàn)了摩爾線程在推動國產(chǎn)GPU深度融入全球主流開源框架、加速AI軟件棧生態(tài)共建方面取得的里程碑成果。基于這一官方支持體系，開發(fā)者在使用SGLang運行大語言模型及多模態(tài)推理任務時，已可直接調(diào)用摩爾線程全功能GPU，無需依賴第三方適配層，國產(chǎn)算力與國際主流推理框架的協(xié)同由此邁入“原生支持”的新階段。

立足通用計算，以MUSA開放架構(gòu)擁抱開源生態(tài)

摩爾線程CTO張鈺勃在開場致辭中，深度闡釋了MUSA（Meta-computing Unified System Architecture）統(tǒng)一系統(tǒng)架構(gòu)的核心設計理念。他強調(diào)，摩爾線程始終堅持“通用計算”的初衷，以真正通用及高度統(tǒng)一的底層計算平臺，支撐從物理世界仿真、數(shù)字孿生到具身智能的未來技術演進，不為創(chuàng)新設限；同時，通過全產(chǎn)品線“統(tǒng)一”的指令集與架構(gòu)標準，確保軟件生態(tài)能夠持續(xù)沉淀與積累。

針對開發(fā)者最為關心的生態(tài)遷移體驗，張鈺勃表示：“摩爾線程秉持開放的態(tài)度，MUSA在接口設計上最大程度復用了開發(fā)者熟悉的GPU編程習慣。我們不希望獨立創(chuàng)造一套封閉的生態(tài)，而是以零學習成本，全面融入現(xiàn)有的繁榮生態(tài)。”基于這一開放理念，他指出，此次MUSA獲得SGLang官方支持，正是摩爾線程擁抱開源社區(qū)的關鍵一步。未來，摩爾線程將與廣大開發(fā)者并肩前行，持續(xù)在框架底層創(chuàng)新上貢獻更多核心力量。

技術分享：從推理框架到算子內(nèi)核，共探國產(chǎn)GPU落地路徑

技術分享環(huán)節(jié)，SGLang、Triton、TileLang及Mooncake社區(qū)的核心專家圍繞推理框架、算子編譯與訓推系統(tǒng)等議題，帶來了五場深度技術分享。

▼ 解析演進路線，SGLang以創(chuàng)新架構(gòu)挑戰(zhàn)大模型推理極限

SGLang核心開發(fā)成員Xiaoyu Zhang（BBuf）重點解析了框架的關鍵演進：支撐DeepSeek-V4等模型的Prefill-Decode分離架構(gòu)與分層緩存機制，以及Zero?overhead Speculative Decoding帶來的推測解碼效率躍升。在算子層，原有的sgl?kernel包因體積膨脹（超1.5GB）已逐步遷移至全新的Jit?kernel體系，基于TVM?FFI實現(xiàn)按需編譯，大幅提升開發(fā)與發(fā)版效率。同時，SGLang積極引入Vibe Coding實踐，利用AI Agent自動完成了超60項性能分析與調(diào)優(yōu)任務。發(fā)布2026年Q2 Roadmap時，他明確表示摩爾線程MUSA已正式納入SGLang硬件適配核心陣列，未來雙方將深化原生算子支持，共同推動頂級推理框架與國產(chǎn)算力底座的“原生”級融合。

▼ 打通原生生態(tài)，MUSA釋放主流模型“開箱即用”算力

摩爾線程Contributor ROCKSTAR分享了SGLang在MUSA平臺上的優(yōu)化與工程落地實踐。他重點介紹了實現(xiàn)快速兼容的關鍵——torchada適配層，通過一次import torchada即可讓開發(fā)者現(xiàn)有CUDA代碼無縫運行在摩爾線程GPU上，大幅降低適配與維護成本。在算子層面，摩爾線程開源的 MATE（MUSA AI Tensor Engine）算子庫提供了高性能Attention與GEMM算子，已對接 FlashAttention、FlashMLA、DeepGEMM等主流接口。目前，基于MUSA的SGLang已支持DeepSeek、Qwen、GLM等主流大模型及Wan、LTX等視頻生成模型，在MTT S5000等硬件上實現(xiàn)真正的“開箱即用”與無縫加速，顯著降低了開發(fā)者的算力遷移門檻。截至5月12日，摩爾線程在SGLang主線累計提交47個PR，其中41個已合入，完成了從環(huán)境構(gòu)建到分布式推理的全鏈路打通，為開源生態(tài)持續(xù)貢獻了扎實的工程能力。

SGLang × MUSA Roadmap地址：

https://github.com/sgl-project/sglang/issues/16565

SGLang安裝文檔：

https://docs.sglang.io/docs/hardware-platforms/mthreads_gpu

▼ 攻克關鍵算子優(yōu)化，Triton助力構(gòu)建跨芯片統(tǒng)一軟件棧

北京智源人工智能研究院AI編譯器研究員肖航的演講聚焦于大模型Triton關鍵算子的優(yōu)化及其在MUSA平臺上的深度適配。他介紹了旨在打通多種AI芯片的統(tǒng)一開源軟件棧FlagOS，其FlagGEMs算子庫已涵蓋超497個算子，并依托FlagTree編譯器與Triton-TLE語言擴展，實現(xiàn)了跨芯片的高性能算子生成。通過融化、量化等方式加速Fused MoE和FP8 GEMM等算子性能4倍以上。在DeepSeek-V4的Day0適配中，通過摩爾線程專用的張量加速引擎與FlagOSTune調(diào)優(yōu)方案，TTFT時延降低56.7%，吞吐量提升65.7%。這種跨芯片的統(tǒng)一抽象與優(yōu)化機制，正為摩爾線程等國產(chǎn)GPU構(gòu)建起更加豐富、高效的算力應用生態(tài)。

▼ 破解硬件依賴，TileLang以極簡抽象重塑算子開發(fā)范式

TileLang Maintainer唐正舉深入探討了作為Tile級領域特定編程語言（DSL），TileLang在化解算子硬件依賴與性能調(diào)優(yōu)上的核心優(yōu)勢。通過對計算與數(shù)據(jù)搬運基本單元（Tile）的顯式控制，開發(fā)者能以極簡代碼實現(xiàn)極致性能——例如用約50行代碼寫出比肩FlashAttention專家?guī)斓膋ernel，在Attention?Sinks等算子上更獲得20倍以上加速。TileLang提供Beginner、Developer、Expert三種編程模式，兼顧上手簡易與深度調(diào)優(yōu)；DeepSeek-V4已在訓練中原生采用其編寫核心kernel，達到硬件峰值性能。作為開源近一年即斬獲超6000星的熱門社區(qū)，TileLang正與MUSA生態(tài)深度聯(lián)調(diào)，共同構(gòu)建適配摩爾線程全功能GPU的高性能算子庫。未來，Tile?AI社區(qū)還將圍繞分布式算子編程、自動調(diào)度等新項目發(fā)力，持續(xù)賦能AI算力演進。

TileLang-MUSA開源地址：

https://github.com/tile-ai/tilelang-musa

TileKernels算子庫開源地址：

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

▼ 踐行極致解耦，Mooncake訓推一體系統(tǒng)在國產(chǎn)GPU的高效實踐

Mooncake Contributor馬騰分享了Mooncake與SGLang深度結(jié)合的技術演進。其核心傳輸引擎（Transfer Engine）充分利用零拷貝RDMA與多協(xié)議支持，實現(xiàn)高吞吐與超低延遲；KV Cache Store將GPU顯存、DRAM、SSD等異構(gòu)存儲統(tǒng)一池化，顯著降低長上下文推理成本。在彈性EP架構(gòu)中，Mooncake支持故障節(jié)點動態(tài)摘除與Expert映射調(diào)整，大幅提升集群容錯能力；在RL權(quán)重更新場景，通過P2P傳輸將同步時間從53秒壓縮至7.2秒。目前，摩爾線程已作為Mooncake項目的核心Maintainer之一，深度參與多節(jié)點通信協(xié)議等關鍵特性共建。這一系列工程創(chuàng)新，正將Mooncake打造為現(xiàn)代AI生產(chǎn)與部署軟件棧的關鍵一環(huán)。

圓桌討論：SGLang+MUSA 生態(tài)共建與工程化破局

在圓桌對話環(huán)節(jié)，摩爾線程軟件副總裁楊上山擔任主持人，與Xiaoyu Zhang（BBuf）、ROCKSTAR、肖航、唐正舉及馬騰五位技術專家同臺，圍繞“SGLang + MUSA生態(tài)共建與工程化破局”展開深度探討。

面對開源技術創(chuàng)新提速與國產(chǎn)多硬件生態(tài)復雜度加劇的雙重挑戰(zhàn)，嘉賓們從框架、算子、通信到系統(tǒng)架構(gòu)逐一破題：BBuf呼吁框架層建立更干凈的硬件抽象，避免侵入式修改；R0CKSTAR分享了MUSA在兼容CUDA生態(tài)過程中“接口兼容、底層創(chuàng)新”的關鍵路徑；肖航結(jié)合Triton及TLE擴展，探討了可編程性與極致性能之間的再平衡策略；唐正舉強調(diào)TileLang的Tile抽象可作為連接模型、算子和硬件的統(tǒng)一紐帶，助力國產(chǎn)芯片全鏈路形成合力；馬騰則從系統(tǒng)視角指出，最佳實踐的沉淀與端到端場景驗證是生態(tài)繁榮的關鍵。嘉賓們一致認為，未來12個月應優(yōu)先建立跨層級的統(tǒng)一抽象邊界、標準化適配接口與共享的基準測試體系，以開放協(xié)作替代重復適配，共同推動國產(chǎn)AI軟硬件生態(tài)的協(xié)同突破。

結(jié)語

此次“SGLang × MUSA Meetup”的成功舉辦，標志著MUSA后端合入SGLang主線后，國產(chǎn)GPU與全球頂級推理框架的協(xié)同從“代碼共建”邁向“生態(tài)共聚”。

通過與SGLang、TileLang、Triton、Mooncake等開源社區(qū)的緊密協(xié)作，摩爾線程不僅推動了MUSA平臺與主流AI框架的深度適配，更以實際行動賦能開發(fā)者，持續(xù)助力國產(chǎn)算力與全球開源生態(tài)的深度融合，加速AI應用的創(chuàng)新與落地。從一行行代碼的提交合入，到如今線下社區(qū)的深度共聚，摩爾線程正攜手頂尖開源力量，持續(xù)夯實國產(chǎn)GPU軟件棧底座，與廣大開發(fā)者并肩前行。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

從代碼合入到社區(qū)共聚：SGLang×MUSA Meetup圓滿落幕，國產(chǎn)GPU開源生態(tài)進入“原生支持”時代

評論

相關推薦

技術專區(qū)