AI加速器測試:依賴可測試性設計創(chuàng)新
核心要點
I/O 與通道修復能力,正成為提升良率的關鍵。
系統(tǒng)級測試可發(fā)現(xiàn)邊緣缺陷、罕見故障(如靜默數(shù)據(jù)損壞)。
新思科技(Synopsys)與臺積電(TSMC)聯(lián)合開發(fā)多芯片測試樣片,支持芯片全生命周期的測試、監(jiān)控、調試與修復。
AI 芯片中加速器的普及,正深刻影響測試流程:測試插入點增多、分析更深入、設備全生命周期監(jiān)控需求上升。
AI 加速器是定制軟硬件平臺,專為加速神經網絡、機器學習、生成式 AI 并行計算而設計。這類多芯粒模塊為自動駕駛、機器人、芯片自適應測試等應用提供實時算力。可測試性設計(DFT)技術正快速迭代,應對核心挑戰(zhàn):芯粒間測試數(shù)據(jù)高速傳輸、測試平臺熱管理、面向高功耗 / 高溫 / 全天候負載的新型壓力測試。

圖 1:驗證芯粒間接口是 2.5D/3D 封裝架構的關鍵。來源:泰瑞達(Teradyne)
本文為系列文章第二篇。正如首篇所述,AI 模塊測試比傳統(tǒng)片上系統(tǒng)(SoC)測試難度顯著提升:
高電流密度帶來熱隔離、熱點抑制難題;
先進工藝器件與互連(如硅通孔 TSV、混合鍵合)催生新失效模式;
芯粒間接口測試通道受限,亟需 DFT 創(chuàng)新以實現(xiàn)完整測試、調試與修復。
問題的嚴峻性不言而喻。西門子 EDA(Siemens EDA)3D-IC DFT 與良率技術主管范?潘表示:
“AI 加速器架構極度復雜、并行度極高,導致 DFT 測試向量生成與功耗管理難度陡增。同時,片上 / 外部內存帶寬達每秒 TB 級,制造測試中的可控性、可觀性面臨巨大挑戰(zhàn)。傳統(tǒng)測試方法難以覆蓋新型失效模式與芯粒互連故障,必須采用創(chuàng)新 DFT 方案。”
因此,芯片廠商比以往更依賴功能測試。愛德萬測試(Advantest)美國應用研究與技術副總裁艾拉?列文索爾、業(yè)務發(fā)展副總裁理查德?拉思羅普在近期文章中指出:
“功能測試可跨核心、芯粒、內存分析整體行為(區(qū)別于孤立核心的結構測試),是發(fā)現(xiàn)微小缺陷、環(huán)境邊緣故障的關鍵手段。”
多芯片封裝的測試策略之一:將盡可能多的功能測試前移至晶圓探測階段。

圖 2:多芯片集成的良率壓力,推動功能測試左移。來源:愛德萬測試
這對多芯片封裝尤為關鍵。新思科技首席產品經理法伊薩爾?戈里亞瓦拉表示:
“與單芯片測試一致,多芯片測試目標也是盡早發(fā)現(xiàn)缺陷。區(qū)別在于:必須確保僅將已知合格芯片用于封裝,減少后期調試成本、避免昂貴的現(xiàn)場失效。”
但實現(xiàn)難度極大。安靠科技(Amkor)制造測試高級總監(jiān)維尼特?潘喬利指出:
“先進封裝復雜度提升數(shù)個量級,且客戶定制化設計增多。AI 專用芯片峰值電流達 1200 安培(未來將達 2400 安培),測試系統(tǒng)需施加 2 倍于常規(guī)工況的壓力,熱管理至關重要。”
這要求測試系統(tǒng)具備高精度功耗控制、快速鉗位、接觸電阻在線監(jiān)測能力。
AI 系統(tǒng)由海量重復核心與多層內存構成。愛德萬測試 P93k 產品線業(yè)務發(fā)展經理丹尼爾?西蒙切利解釋:
“若芯粒完全相同,無需向多引腳重復發(fā)送向量數(shù)據(jù)。我們采用流網絡架構(SSN),配合 PCIe 加速傳輸。芯片可自主分發(fā)測試數(shù)據(jù)至所有核心,避免重復發(fā)送。此外,支持片上比對(替代測試儀比對),大幅提升測試效率。”
安靠科技的潘喬利表示:AI 加速器量產測試聚焦三大核心:芯粒硅塊、芯粒間互連、封裝級連接(電氣 / 邏輯 / 熱性能)。AI 邏輯塊支持掃描測試,結構測試可檢測晶體管級缺陷,流程與先進邏輯芯片一致:EDA 生成自動測試向量、故障模型覆蓋傳統(tǒng)固定故障與現(xiàn)代全速跳變延遲、路徑延遲,用于晶圓探測與封裝終測。
獲取封裝內每顆芯片 / 芯粒的詳細數(shù)據(jù),有助于性能匹配。proteanTecs 首席執(zhí)行官沙伊?科恩表示:
“芯片可能來自不同供應商、封裝方也可能是第三方,目前尚無完美解決方案。但通過遙測技術,可將芯片內部與接口故障可見度提升 10 倍,例如在切割測試中避免封裝不良芯片,還可從性能 / 功耗 / 良率維度篩選互補芯片,優(yōu)化協(xié)同工作效率。”
遙測(片上監(jiān)測器)早期用于檢測靜默數(shù)據(jù)損壞(SDE)—— 這類罕見故障僅在特定環(huán)境壓力與負載下出現(xiàn)。同時,遙測可監(jiān)測芯片老化、預測剩余壽命,助力數(shù)據(jù)中心預防性維護。
失效并非僅來自芯粒,也可能出現(xiàn)在芯片與中介層間的海量互連中。泰瑞達半導體測試事業(yè)部產品營銷高級總監(jiān)喬治?赫塔特表示:
“硅中介層 TSV 功能驗證至關重要。我們常聚焦芯片本身,卻忽視中間層。DFT 需保障 TSV 結構完整性,例如在 TSV 中嵌入智能模塊,實現(xiàn)直流 / 交流測試,提升信號完整性與噪聲隔離能力。”
新型失效模式
西門子 EDA 的潘指出,AI 加速器模塊面臨多種新型關鍵失效:
“傳統(tǒng)固定故障模型難以覆蓋高速高密度場景下的信號完整性、串擾(如橋接故障、微小延遲缺陷),且相鄰互連會加劇噪聲。此外,堆疊芯片的機械 / 熱接觸缺陷會隨時間累積,需持續(xù)在線監(jiān)測。I/O/ 通道修復能力成為提升良率的核心手段。”
安靠科技測試業(yè)務發(fā)展高級總監(jiān)斯科特?卡羅爾補充:
“AI 模塊新型失效多源于硅缺陷、封裝缺陷、熱致性能衰減。”
功耗感知自動測試向量生成(ATPG)可緩解特定外部失效。新思科技的戈里亞瓦拉表示:
“功耗是失效主因。ATPG 向量翻轉率高,易導致電壓跌落超出功能模式功耗預算,引發(fā)誤判與良率損失。”
芯粒間通信
芯粒間接口分兩類:邏輯 - 邏輯接口(如 UCIe 等物理層接口、GPIO 等低速 I/O 接口)、邏輯 - 內存接口(如 HBM 物理層接口),二者 DFT 需求差異顯著。
戈里亞瓦拉解釋:
“接口類型多樣、協(xié)議標準復雜(主帶 / 邊帶分區(qū)、速率各異、冗余通道可選),導致 DFT 與 SoC 設計難以覆蓋全接口的測試、修復、向量生成、硅片調試與診斷。”
由于系統(tǒng)級測試無法使用傳統(tǒng) JTAG,需采用 高級外設總線(APB)等片上接口實現(xiàn)測試可控 / 可觀。現(xiàn)有 IEEE(1149.1/1500/1687/1838)與 JEDEC 接口 IP 標準仍存在空白。
2023 年,新思科技與臺積電合作,基于CoWoS 封裝開發(fā)多芯片參考方案,實現(xiàn)芯片全生命周期(鍵合前 / 后制造、上電、工作模式)的測試 / 監(jiān)控 / 調試 / 修復,且無覆蓋率損失與向量冗余。2024 年底成功完成雙芯粒 + 中介層流片:一套配置通過 UCIe 接口實現(xiàn) SLM 監(jiān)控 / 測試 / 調試 / 修復;另一套采用符合 IEEE 1838 標準的 GPIO 接口。

圖 3:新思科技 - 臺積電測試樣片簡化框圖(復用 UCIe 物理層資源),支持測試 / 調試 / 修復。來源:新思科技
西門子 EDA 的潘詳解互連驗證技術:
邊界掃描(1149.x):板級 / 封裝級互連測試核心技術,檢測開路 / 短路 / 固定故障,支持高速差分接口(1149.6);
接口內置自測試(BiST):HBM 數(shù)據(jù)路徑專用 BiST(利用回環(huán)模式與通道修復)、處理器間高速串行鏈路 SerDes BiST(回環(huán) + 偽隨機二進制序列 PRBS);
全速功能測試:大數(shù)據(jù)傳輸 + 性能基準測試,驗證真實工況下完整性與性能。
系統(tǒng)級測試
區(qū)別于自動測試設備(ATE)與封裝測試,系統(tǒng)級測試(SLT)模擬真實運行環(huán)境:將芯片、外設、軟件集成測試,將缺陷逃逸率降至可接受水平(百萬缺陷數(shù) DPPM)。
傳統(tǒng) ATE 難以檢測邊緣缺陷(多組件協(xié)同高速 / 高溫 / 特定負載下才暴露)。英特爾晶圓廠自研 SLT 模塊化平臺,專門排查 SDE 等罕見故障,配置與真實系統(tǒng)一致的內存 / 存儲 / 顯卡 / 網絡組件。
英特爾晶圓廠產品開發(fā)架構師維什瓦納特?納塔拉詹表示:
“傳統(tǒng)方法難以檢測的高速接口缺陷,在真實數(shù)據(jù)流量與電氣噪聲環(huán)境下會暴露。SLT 可避免 USB 斷連、音頻卡頓、顯卡性能下降等影響用戶體驗與品牌聲譽的問題。”
IBM 研究院 AI 硬件研究工程師約翰?戴維?蘭卡斯特強調 AI 加速器對高可用性、可靠性的嚴苛要求:
“需在極限高壓負載下測試全硬件棧,確保現(xiàn)場零故障。我們執(zhí)行最嚴苛的大語言模型(LLM)推理測試,全面校驗錯誤、張量結果與診斷信息,同步壓力測試計算核心、內存接口、功耗域。”
制造流程逐步解鎖芯片測試范圍:從晶圓測試到 SLT 全芯片驗證。由于多項功能僅能在制造末期測試,SLT 是量產前保障一致性與可靠性的關鍵環(huán)節(jié)。
SLT 測試套件通過閉環(huán)迭代持續(xù)優(yōu)化:執(zhí)行測試→分析失效→優(yōu)化負載→更新篩選標準。工程師需平衡測試吞吐量與覆蓋率—— 受制造測試時間限制,僅能執(zhí)行高預測性、高覆蓋率的核心測試。蘭卡斯特表示:
“確定最小有效測試集,需分析大量流片階段的失效與邊緣數(shù)據(jù)。”
老化測試(Burn-in)通過施加高于常規(guī)工況的電壓 / 溫度,模擬晶圓工藝缺陷與波動導致的老化。安靠科技的潘喬利表示:
“老化測試至關重要(尤其新工藝),量產初期剔除早期失效芯片不可或缺。晶圓級老化難度高,目前仍以封裝后老化為主。”
結論
AI 加速器與多芯片封裝時代,全生命周期測試(晶圓探測→系統(tǒng)級測試)是保障數(shù)據(jù)中心全天候穩(wěn)定運行的核心。新思科技的戈里亞瓦拉總結:
“AI 加速器必須集成現(xiàn)場測試 / 修復能力,覆蓋制造到全生命周期。”
可測試性設計(DFT)價值凸顯:接口內置自測試、HBM 專用 BiST(回環(huán) + 通道修復)、處理器間高速鏈路 SerDes BiST、功耗感知 ATPG,協(xié)同保障芯片質量。系統(tǒng)級測試則是量產前驗證 AI 模塊功能的關鍵環(huán)節(jié)。







評論