摩爾線程S5000 + 智源FlagOS：基于原生FP8引擎，Day-0適配DeepSeek-V4

作者：時間：2026-04-24 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

4月24日，摩爾線程攜手智源眾智FlagOS社區，在旗艦級AI訓推一體全功能GPU MTT S5000上，率先實現對新一代大模型DeepSeek-V4-Flash的Day-0極速適配，并完成了全量核心算子的深度優化與部署支持。

DeepSeek-V4-Flash 采用混合專家（MoE）架構，總參數量高達284B，激活參數13B，支持百萬token上下文長度。其預訓練數據超32Ttoken，在最大推理力度模式（Flash-Max）下推理能力逼近Pro版本。值得關注的是，V4模型首次采用“FP4+FP8”混合精度策略，而當前國內主流 AI 芯片仍普遍以BF16為主。而摩爾線程憑借獨特的原生FP8支持優勢，能夠更高效承載 DeepSeek-V4 的前沿精度設計，為模型部署與推理優化提供了堅實的算力底座。

作為國內率先原生支持FP8精度的全功能GPU，MTT S5000配置了強大的硬件級FP8 Tensor Core 加速單元。相比傳統的BF16/FP16，FP8能夠將數據位寬直接減半，使顯存帶寬壓力降低 50%，理論計算吞吐量實現翻倍。

為充分發揮MTT S5000在FP8計算上的內核優勢，FlagOS對DeepSeek V4模型進行了FP8量化。通過系統級分析，雙方技術團隊將本次適配的攻堅重點鎖定在FP8算子與Sparse Attention算子。針對這兩個決定長上下文效率與極致推理性能的關鍵算子，團隊從“編譯優化”與“自動調優”兩個核心方向取得了重大突破：

▼ 方向一：深入利用摩爾線程 FlagTree編譯器能力，提升底層執行效率。通過精細化的 shape 對齊策略，使 FP8 和 Sparse Attention 的計算 shape 更好地滿足摩爾線程張量訪存與計算引擎（TME/TCE）的要求；同時結合 MUSA_ENABLE_SQMMA，進一步加速 tl.dot 矩陣計算。

▼ 方向二：借助 FlagOS-Tune，自動搜索最優 Triton 內核配置。FlagOS-Tune 能夠擴展算子的搜索空間，基于模型真實 shape 離線搜索 FP8 和 Sparse Attention 算子的最優內核配置，效果優于手工調參。

在離線優化之外，FlagOS-Tune還支持在線內核配置搜索能力。用戶只需開啟環境變量 USE_FLAGTUNE=1，經過一段時間的 warmup 后，系統基于實際運行過程持續搜索并應用最佳配置。其中，TTFT 時延降低 16.5%，ITL 時延降低 39.7%，Throughput 提升 65.7%。

當前，摩爾線程與FlagOS社區正持續推進擁有1.6T旗艦模型（1.86萬億參數）的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。未來，摩爾線程將繼續以MUSA架構與全功能GPU的全棧技術優勢，為國產大模型生態提供更高效、更自主可控的算力基石。

開發者可下載鏡像進行開箱體驗：

DeepSeek-V4-Flash

▼魔塔平臺

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS

▼ HuggingFace 平臺

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS