久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 摩爾線程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0適配DeepSeek-V4

摩爾線程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0適配DeepSeek-V4

作者: 時間:2026-04-24 來源: 收藏

4月24日,攜手眾智社區,在旗艦級AI訓推一體全功能GPU MTT 上,率先實現對新一代大模型-Flash的Day-0極速適配,并完成了全量核心算子的深度優化與部署支持。

1777020573944169.png

-Flash 采用混合專家(MoE)架構,總參數量高達284B,激活參數13B,支持百萬token上下文長度。其預訓練數據超32Ttoken,在最大推理力度模式(Flash-Max)下推理能力逼近Pro版本。值得關注的是,V4模型首次采用“FP4+FP8”混合精度策略,而當前國內主流 AI 芯片仍普遍以BF16為主。而憑借獨特的原生FP8支持優勢,能夠更高效承載 的前沿精度設計,為模型部署與推理優化提供了堅實的算力底座。

作為國內率先原生支持FP8精度的全功能GPU,MTT 配置了強大的硬件級FP8 Tensor Core 加速單元。相比傳統的BF16/FP16,FP8能夠將數據位寬直接減半,使顯存帶寬壓力降低 50%,理論計算吞吐量實現翻倍。

為充分發揮MTT 在FP8計算上的內核優勢,對DeepSeek V4模型進行了FP8量化。通過系統級分析,雙方技術團隊將本次適配的攻堅重點鎖定在FP8算子與Sparse Attention算子。針對這兩個決定長上下文效率與極致推理性能的關鍵算子,團隊從“編譯優化”與“自動調優”兩個核心方向取得了重大突破:

▼ 方向一:深入利用 FlagTree編譯器能力,提升底層執行效率。通過精細化的 shape 對齊策略,使 FP8 和 Sparse Attention 的計算 shape 更好地滿足摩爾線程張量訪存與計算引擎(TME/TCE)的要求;同時結合 MUSA_ENABLE_SQMMA,進一步加速 tl.dot 矩陣計算。

▼ 方向二:借助 -Tune,自動搜索最優 Triton 內核配置。FlagOS-Tune 能夠擴展算子的搜索空間,基于模型真實 shape 離線搜索 FP8 和 Sparse Attention 算子的最優內核配置,效果優于手工調參。

c493c47fd07820209b1072e9b573e6ee.png

在離線優化之外,FlagOS-Tune還支持在線內核配置搜索能力。用戶只需開啟環境變量 USE_FLAGTUNE=1,經過一段時間的 warmup 后,系統基于實際運行過程持續搜索并應用最佳配置。其中,TTFT 時延降低 16.5%,ITL 時延降低 39.7%,Throughput 提升 65.7%。

當前,摩爾線程與FlagOS社區正持續推進擁有1.6T旗艦模型(1.86萬億參數)的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。未來,摩爾線程將繼續以MUSA架構與全功能GPU的全棧技術優勢,為國產大模型生態提供更高效、更自主可控的算力基石。

開發者可下載鏡像進行開箱體驗:

DeepSeek-V4-Flash

▼魔塔平臺

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS 

▼ HuggingFace 平臺

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS


評論


相關推薦

技術專區

關閉