訓(xùn)練精度優(yōu)于國(guó)際主流1.65%：摩爾線程通過智源FlagOS全要素驗(yàn)證

作者：時(shí)間：2026-03-28 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近日，北京智源人工智能研究院（簡(jiǎn)稱：智源研究院）正式發(fā)布重磅驗(yàn)證成果：六款A(yù)I芯片、三大模型、同構(gòu)+異構(gòu)千卡——眾智FlagOS以統(tǒng)一技術(shù)棧完成AI訓(xùn)練“全要素”驗(yàn)證。

作為本次驗(yàn)證的核心參與廠商之一，摩爾線程基于旗艦級(jí)AI訓(xùn)推一體全功能GPU智算卡MTT S5000，完整適配了FlagOS訓(xùn)練全要素軟件?！‵lagScale系統(tǒng)調(diào)度決策框架、Megatron-LM分布式訓(xùn)練框架、Transformer Engine加速庫(kù)、FlagGems與Triton算子庫(kù)，以及FlagCX通信庫(kù)。

在此次嚴(yán)苛的驗(yàn)證中，MTT S5000面向Qwen3-0.6B語(yǔ)言模型完成了1T Tokens從頭訓(xùn)練驗(yàn)證，實(shí)現(xiàn)連續(xù)6天以上、超過14000步的無(wú)中斷穩(wěn)定訓(xùn)練。訓(xùn)練所得模型 Loss 曲線與基線高度一致，平均相對(duì)誤差控制在0.82%以內(nèi)；在標(biāo)準(zhǔn)下游任務(wù)評(píng)測(cè)中，較行業(yè)標(biāo)桿基線（英偉達(dá)）提升1.65個(gè)百分點(diǎn)，充分驗(yàn)證了全功能GPU算力在大模型端到端訓(xùn)練中的穩(wěn)定性與有效性。

長(zhǎng)周期高負(fù)載驗(yàn)證：

4機(jī)32卡無(wú)中斷，6+天穩(wěn)定訓(xùn)練

此次FlagOS全要素適配與驗(yàn)證工作，旨在檢驗(yàn)多元AI算力在統(tǒng)一軟件棧下的端到端訓(xùn)練能力。摩爾線程與智源團(tuán)隊(duì)緊密協(xié)作，高效完成了底層適配與系統(tǒng)調(diào)優(yōu)，并于春節(jié)前正式啟動(dòng)全流程訓(xùn)練驗(yàn)證。

在實(shí)際訓(xùn)練中，摩爾線程采用4機(jī)32卡配置，面向 Qwen3-0.6B語(yǔ)言模型開展訓(xùn)練。在超過6天的連續(xù)訓(xùn)練周期內(nèi)，系統(tǒng)穩(wěn)定完成 1T Tokens 數(shù)據(jù)量的超過14000步迭代，期間未發(fā)生任何軟硬件中斷。這一結(jié)果回應(yīng)了業(yè)界對(duì)國(guó)產(chǎn)算力大規(guī)模訓(xùn)練穩(wěn)定性的核心關(guān)切，也進(jìn)一步證明了基于MTT S5000構(gòu)建的訓(xùn)練集群在長(zhǎng)時(shí)間、高負(fù)載場(chǎng)景下的可靠性，充分驗(yàn)證國(guó)產(chǎn)算力已具備支撐企業(yè)級(jí)大模型預(yù)訓(xùn)練任務(wù)的能力。

精度穩(wěn)定對(duì)齊：

Loss曲線高度一致，評(píng)測(cè)效果優(yōu)于基線

大模型訓(xùn)練的核心訴求，不僅在于算力規(guī)模與性能，更在于訓(xùn)練過程中的穩(wěn)定性、收斂效果和最終模型質(zhì)量。其中，訓(xùn)練精度是基石，下游任務(wù)評(píng)測(cè)效果則是檢驗(yàn)訓(xùn)練成效的關(guān)鍵指標(biāo)。

在FlagOS統(tǒng)一軟件棧的調(diào)度下，采用完全對(duì)齊的數(shù)據(jù)集和訓(xùn)練參數(shù)，基于MTT S5000集群的訓(xùn)練過程呈現(xiàn)出與國(guó)際主流產(chǎn)品基線高度一致的Loss收斂曲線，平均相對(duì)誤差控制在0.82%以內(nèi) 。與此同時(shí)，在標(biāo)準(zhǔn)的下游任務(wù)評(píng)測(cè)中，基于MTT S5000訓(xùn)練的模型，取得了比行業(yè)標(biāo)桿基線高出1.65個(gè)百分點(diǎn)的結(jié)果表現(xiàn)。

與基線評(píng)測(cè)偏差的計(jì)算方法（后面的計(jì)算方式類似）：

Qwen3-0.6B評(píng)測(cè)結(jié)果（正數(shù)是優(yōu)于基線）

這一結(jié)果表明，開發(fā)者基于公開的模型結(jié)構(gòu)與數(shù)據(jù)集，即可在摩爾線程MTT S5000算力平臺(tái)上，獲得與國(guó)際主流平臺(tái)精度相當(dāng)，并在部分評(píng)測(cè)指標(biāo)上實(shí)現(xiàn)更優(yōu)表現(xiàn)的大模型訓(xùn)練效果。

此外，摩爾線程基于MTT S5000的訓(xùn)練能力已在更大規(guī)模場(chǎng)景中得到驗(yàn)證。今年1月，依托摩爾線程MTT S5000千卡智算集群，F(xiàn)lagOS成功完成智源自研具身大腦模型RoboBrain 2.5的全流程訓(xùn)練與優(yōu)化驗(yàn)證。結(jié)果顯示，其Loss曲線與國(guó)際主流產(chǎn)品基線高度一致，最終結(jié)果相對(duì)誤差小于0.62%；在64卡至1024卡規(guī)模區(qū)間內(nèi)，多組實(shí)驗(yàn)均實(shí)現(xiàn)超過90%的線性擴(kuò)展效率。該案例表明，摩爾線程基于MTT S5000的訓(xùn)練能力不僅可支撐長(zhǎng)周期端到端驗(yàn)證，也具備向更大規(guī)模、更復(fù)雜模型場(chǎng)景持續(xù)延展的能力。

RoboBrain2.5模型評(píng)測(cè)效果

端到端訓(xùn)練Loss曲線

軟硬創(chuàng)新協(xié)同：

打造高質(zhì)量大模型訓(xùn)練底座

此次驗(yàn)證成績(jī)的取得，離不開摩爾線程在芯片架構(gòu)、通信能力、計(jì)算單元協(xié)同以及FP8訓(xùn)練支持等方面的持續(xù)打磨。基于MTT S5000，摩爾線程正不斷完善面向大模型訓(xùn)練的軟硬件能力，為訓(xùn)練穩(wěn)定性、精度表現(xiàn)和規(guī)模擴(kuò)展提供堅(jiān)實(shí)支撐。

▼架構(gòu)級(jí)精度優(yōu)化：深入打磨矩陣乘法（GEMM）算子

矩陣乘法（GEMM）是大模型訓(xùn)練中的核心算子之一，其數(shù)值精度直接影響Loss曲線的收斂表現(xiàn)與最終模型效果。圍繞這一關(guān)鍵環(huán)節(jié)，摩爾線程團(tuán)隊(duì)在MTT S5000的架構(gòu)設(shè)計(jì)階段，便針對(duì)浮點(diǎn)運(yùn)算的舍入模式、累加路徑等關(guān)鍵計(jì)算鏈路進(jìn)行了精細(xì)化優(yōu)化。這種來(lái)自架構(gòu)層面的持續(xù)打磨，使得MTT S5000在長(zhǎng)時(shí)間訓(xùn)練過程中保持更穩(wěn)定的數(shù)值表現(xiàn)，為模型訓(xùn)練精度對(duì)齊及下游評(píng)測(cè)效果提升提供了堅(jiān)實(shí)的底層保障。

▼ACE異步通信引擎：讓計(jì)算與通信更高效并行

在大規(guī)模分布式并行訓(xùn)練中，卡間通信往往會(huì)與計(jì)算任務(wù)爭(zhēng)搶帶寬及核心資源，成為制約擴(kuò)展效率的瓶頸。MTT S5000創(chuàng)新性地內(nèi)置了ACE（Asynchronous Communication Engine，異步通信引擎），作為獨(dú)立的硬件通信單元，能夠在不占用計(jì)算核心資源的情況下，高效完成跨卡間的all_reduce、all_gather等集合通信操作。得益于ACE，通信與計(jì)算得以更深度地并行協(xié)同——當(dāng)Tensor Core（張量計(jì)算核心）在進(jìn)行繁重的矩陣運(yùn)算時(shí)，ACE已在后臺(tái)并行完成梯度同步，為大規(guī)模訓(xùn)練帶來(lái)更高的資源利用效率。摩爾線程在千卡規(guī)模訓(xùn)練中能保持超過90%的線性擴(kuò)展效率，正是這一設(shè)計(jì)優(yōu)勢(shì)的重要體現(xiàn)。

▼多計(jì)算單元協(xié)同：Tensor Core與Vector Core高效配合

為了更好適配大模型訓(xùn)練中多樣化的計(jì)算負(fù)載，MTT S5000在算力單元的設(shè)計(jì)上，對(duì)Tensor Core與Vector Core（向量計(jì)算單元）進(jìn)行了針對(duì)性的配置與協(xié)同優(yōu)化。在實(shí)際調(diào)度中，密集的矩陣運(yùn)算交給Tensor Core處理，而LayerNorm、Softmax、激活函數(shù)等偏向內(nèi)存或帶寬密集型算子則交由Vector Core高效執(zhí)行。基于這一硬件特性，摩爾線程聯(lián)合智源團(tuán)隊(duì)對(duì)FlagOS進(jìn)行了深度的軟件棧調(diào)優(yōu)，最終在FlashAttention等關(guān)鍵算子上實(shí)現(xiàn)了超過90%的計(jì)算資源利用率，進(jìn)一步釋放了平臺(tái)的訓(xùn)練潛力。

▼原生FP8支持：協(xié)同MT-Megatron穩(wěn)定高效釋放Grouped GEMM潛力

隨著模型參數(shù)規(guī)模邁入千億甚至萬(wàn)億級(jí)別，低精度訓(xùn)練已成為提升訓(xùn)練效率的重要方向。MTT S5000在硬件層面原生支持FP8數(shù)據(jù)精度，為更高吞吐的大模型訓(xùn)練提供了基礎(chǔ)能力。通過底層算子庫(kù)的高效優(yōu)化，其FP8 Grouped GEMM性能在實(shí)際場(chǎng)景中取得了超過700TFLOPs的性能表現(xiàn)。同時(shí)，摩爾線程對(duì)MT-Megatron分布式訓(xùn)練框架進(jìn)行了深度適配與優(yōu)化，進(jìn)一步提升了FP8訓(xùn)練在主流大模型上的穩(wěn)定性與可收斂性，能夠?yàn)榘―eepSeek-V3在內(nèi)的大模型訓(xùn)練提供有效支撐。

從訓(xùn)練穩(wěn)定性、收斂精度到下游任務(wù)效果，摩爾線程基于 MTT S5000 交出的這份成績(jī)單表明，在統(tǒng)一技術(shù)棧下，國(guó)產(chǎn)全功能GPU不僅驗(yàn)證了大模型端到端訓(xùn)練的可用性，也展現(xiàn)出在實(shí)際訓(xùn)練效果上持續(xù)提升的潛力。

北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華表示：“長(zhǎng)期以來(lái)，‘對(duì)齊CUDA’只是行業(yè)在缺乏替代方案下‘不得已為之’的對(duì)齊標(biāo)準(zhǔn)。但如果能獲得比 CUDA 更優(yōu)的實(shí)際訓(xùn)練效果，才是產(chǎn)業(yè)界共同的期待，才能讓系統(tǒng)架構(gòu)百花齊放、勇于創(chuàng)新。摩爾線程在訓(xùn)練實(shí)測(cè)中超過了國(guó)際主流產(chǎn)品的表現(xiàn)，證明了這種期待已經(jīng)有實(shí)現(xiàn)的可能性了?！?nbsp;

未來(lái)，摩爾線程將繼續(xù)深化與智源研究院及生態(tài)伙伴的合作，以自主創(chuàng)新的全功能GPU算力底座，推動(dòng)多元算力從“普適”走向“普惠”，為中國(guó)大模型研發(fā)提供開放、高效、可規(guī)?；瘡?fù)制的“國(guó)產(chǎn)算力訓(xùn)練范式”。

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

訓(xùn)練精度優(yōu)于國(guó)際主流1.65%：摩爾線程通過智源FlagOS全要素驗(yàn)證

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)