久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

EEPW首頁 > 智能計算 > 設計應用 > AI 加速器測試高度依賴 DFT 設計可測性技術創新

AI 加速器測試高度依賴 DFT 設計可測性技術創新

作者: 時間:2026-05-13 來源:EEPW編譯 收藏

AI 加速器普及重構半導體測試流程,要求增加測試插入節點、深化故障分析,并在器件全壽命周期內持續狀態監測。

AI 加速器是專為神經網絡、機器學習、生成式 AI 并行計算打造的軟硬件定制平臺。這類多芯粒模組支撐自動駕駛、機器人及半導體芯片自適應測試等場景的實時運算。可測性設計() 技術正快速迭代,著力解決幾大痛點:裸片間測試向量高速傳輸、測試平臺熱控與散熱優化、以及針對 AI 芯片高功耗、高溫、全天候負載特征的新型應力測試方案開發。

1e649abdfe9f83ae97de15362ba1b446.png

圖 1:2.5D/3D 封裝架構中,裸片間接口驗證與測試至關重要。來源:泰瑞達 Teradyne

AI 模組測試相比傳統 SoC 測試難度陡增,核心原因包括:

  • 超高電流密度帶來散熱隔離與熱點抑制難題;

  • 先進制程、TSV 硅通孔、混合鍵合等互連結構催生全新失效模式;

  • 裸片間接口缺乏常規測試通路,亟需 創新完成故障測試、調試與修復。

西門子 EDA 3D-IC 與良率技術總監 Quoc Phan 表示:“AI 加速器架構極度復雜、并行度極高,大幅增加 DFT 測試向量生成與功耗管理難度。同時片上及外置內存帶寬達 TB/s 級別,給量產測試的可控性與可觀測性帶來巨大挑戰。傳統測試方法難以覆蓋新型失效模式與裸片間互連故障,必須依托創新 DFT 方案。”

正因如此,芯片廠商愈發倚重功能測試。愛德萬測試高管在專業文章中指出:結構測試只能孤立檢測單內核缺陷,而功能測試可跨內核、跨芯粒、跨內存做行為分析,是識別微弱缺陷與工況臨界異常的核心手段。多裸片封裝想要達到目標測試覆蓋率與品質標準,行業普遍思路是將盡可能多的功能測試前置到晶圓探針測試階段。

8e573b6cdcb1a2b0246fee0e67d8efaf.png

圖 2:多裸片集成良率壓力推動功能測試左移前置。來源:愛德萬 Advantest

新思科技首席產品經理 Faisal Goriawalla 表示:“單顆裸片測試與多裸片測試的目標一致,都是盡早篩除缺陷器件。區別在于多裸片封裝必須堅持僅使用已知合格裸片進行組裝,降低后續調試成本與現場失效風險。”

安靠 Amkor 制造測試高級總監 Vineet Pancholi 指出:“先進封裝內部復雜度提升數個量級,且客戶定制化封裝方案越來越多。AI ASIC 瞬時電流可達 1200A,后續將升至 2400A;測試系統需按常規工況2 倍應力做可靠性考核,因此測試過程的熱管理至關重要。”

這要求測試系統具備高精度電源控制、快速電流鉗位、接觸電阻在線監測等能力。

AI 芯片由大量重復計算內核與多層存儲架構構成。愛德萬產品線業務開發經理 Daniel Simoncelli 解釋:“同類芯粒無需向上萬組引腳重復下發相同向量數據,可通過自研流式網絡架構 SSN 配合 PCIe 高速傳輸,由芯片內部自主分發測試數據至各內核,大幅減少冗余傳輸。同時支持片上自比對,無需測試儀逐幀校驗,顯著提升測試效率。”

安靠 Pancholi 認為,AI 加速器量產測試主要聚焦三大維度:芯粒硅基模塊、裸片間互連、封裝級電氣 / 邏輯 / 熱性能。AI 邏輯模塊普遍內置掃描測試結構,可在晶體管層級做結構性缺陷檢測,流程與其他先進邏輯芯片一致。EDA 流程自動生成測試向量,故障模型覆蓋傳統固定型故障、現代全速跳變延遲與路徑延遲故障,應用于晶圓探測及封裝終測環節。

掌握封裝內每顆裸片的詳細測試數據,可實現芯粒性能匹配優選。proteanTecs CEO Shai Cohen 表示:“多裸片常來自不同晶圓廠與封測廠商,故障追責與良率管控并無簡單解法。但借助遙測片上監控技術,可把裸片內部及裸片間接口的可視性提升 10 倍以上。在切割測試階段即可篩除缺陷裸片,避免無效封裝;還可從性能、功耗、良率維度優選互補匹配的芯粒組合。”

片上遙測監控最早用于靜默數據損壞(SDC) 檢測。這類罕見故障僅在特定環境應力與負載條件下觸發,如同大海撈針。同時遙測還可評估器件老化程度、預估剩余使用壽命,支撐數據中心預防性維護。

故障并非只來源于芯粒本身,芯片與中介層間成千上萬甚至數百萬級互連同樣易出問題。

泰瑞達半導體測試產品營銷高級總監 Jeorge Hurtarte 強調:

“硅中介層 TSV 硅通孔的功能完整性至關重要。行業常只關注裸片本身,卻忽視中間互連層。需從 DFT 角度為 TSV 植入可測性設計,嵌入智能檢測機制,兼顧直流與交流測試完整性,提升信號完整性與噪聲隔離能力。”

AI 加速器催生全新失效模式

西門子 EDA Quoc Phan 分析:“高速高密度場景下,傳統固定故障模型無法覆蓋信號完整性、串擾、橋接故障、微小延遲缺陷;鄰近互連走線還會加劇噪聲干擾。此外堆疊裸片會隨時間產生機械與熱接觸類退化缺陷,需要持續在線監測與系統內測試。在此背景下,I/O 與通道修復能力成為繞開局部缺陷、提升良率的核心手段。”

安靠測試業務開發高級總監 Scott Carroll 認同:AI 模組大量新型失效,根源集中在硅缺陷、封裝缺陷、熱致性能衰減三大類。

功耗感知 ATPG 自動測試向量生成可緩解特定外部失效誘因。新思科技 Goriawalla 解釋:功耗是失效重要誘因,若 ATPG 向量生成階段未精準管控功耗,會引發 IR 壓降超標、超出正常工作功耗預算,造成誤判失效與良率損失。ATPG 向量翻轉率極高,極易觸發這類問題。

裸片間通信接口測試

裸片間接口分兩類,DFT 需求各不相同:

1.       邏輯 — 邏輯接口:基于 PHY(如 UCIe)或通用低速 GPIO;

2.       邏輯 — 內存接口:如 HBM PHY。

接口協議、帶寬、主次邊帶劃分、冗余通道設計各不相同,給 DFT 與 SoC 設計師帶來極大挑戰,難以統一完成跨接口測試、修復、向量生成、硅片調試與診斷。

傳統 JTAG 難以滿足系統在線測試,行業普遍采用 APB 高級外設總線作為片上可控可觀測通路。即便現有 IEEE 1149.1/1500/1687/1838 及 JEDEC 接口 IP 標準,仍存在覆蓋缺口。

新思科技與臺積電 2023 年合作,基于 CoWoS 封裝打造多裸片參考流程,實現芯片全生命周期的監控、測試、調試與修復,堆疊裸片無需犧牲測試覆蓋率或向量冗余膨脹。方案分別基于 UCIe 接口實現系統級監控 SLM、測試調試修復,以及基于 IEEE 1838 標準的 GPIO 接口實現同類能力。

6b8718ed8af8924fccb4da7a1a121373.png

圖 3:新思 — 臺積電聯合驗證平臺框圖,復用 UCIe PHY 片上資源,支持完整測試、調試與修復。來源:新思科技

該方案覆蓋鍵合前、鍵合后量產測試、上電應用及任務工作模式全場景,并于 2024 年底完成雙芯粒 + 中介層流片落地。

西門子 EDA 補充了互連與功能驗證關鍵技術:

  • 邊界掃描 1149.x:板級與封裝級互連測試主力,可檢測開路、短路、固定故障,支持高速差分接口 1149.6 專項測試;

  • 接口內置自測試 BiST:HBM 通路專用 BiST(環回 + 通道修復)、SerDes 高速串行鏈路 BiST(環回 + PRBS 偽隨機碼);

  • 全速功能測試:大數據傳輸與性能基準校驗,模擬真實工況確保完整性與性能達標。

系統級測試 SLT

相較于 ATE 測試儀與封裝器件測試,系統級測試 SLT完全復刻真實工作環境。將芯片、外設、軟件集成在實景工況中,可把逃逸失效率控制在可接受 DPPM 水平。

僅靠傳統 ATE 很難捕獲多器件高速聯動、臨界溫變、特定軟件負載下才顯現的臨界缺陷與靜默數據損壞 SDC。英特爾晶圓廠自研模塊化 SLT 平臺,搭載與商用整機一致的內存、存儲、顯卡、網絡接口,專門篩除這類偶發隱性故障。

英特爾表示:傳統手段難以檢出的高速接口缺陷,在真實數據流與電氣噪聲工況下會充分暴露;SLT 可提前規避 USB 斷連、音頻雜音、顯卡性能異常等終端問題,保護產品口碑。

IBM 研究院 AI 硬件研究工程師強調 AI 加速器對超高可用性與可靠性的嚴苛要求:必須在極限高應力負載下完整遍歷硬件棧,覆蓋大模型推理最壞工況,全量校驗錯誤、張量結果與診斷信息,同步施壓計算內核、內存接口與功耗域。

從晶圓測試到系統級測試,制造各階段逐步放大可測范圍。大量功能僅能在制造末端完成驗證,因此 SLT 是設備量產部署前保障一致性與可靠性的關鍵環節。

SLT 測試用例通過閉環迭代持續優化:執行測試 — 分析失效 — 迭代負載 — 更新篩選標準。受量產測試時長限制,只能精選高預測性、高覆蓋率最小測試集,需基于大量流片失效與裕量數據分析篩選。

老化測試 Burn-in 通過施加高于常規工況的電壓、溫度,模擬工藝偏差與缺陷帶來的器件老化,是新工藝量產必測環節,用于篩除早期夭折缺陷。晶圓級老化實現難度大,目前仍以封裝后老化為主。

結語

AI 加速器與多芯粒封裝普及后,從晶圓探測到系統在線運維的全生命周期測試,成為數據中心 7×24 小時穩定運行的必備條件。AI 加速器必須內嵌可測性設計模塊,支持量產階段及全壽命周期的在線測試與修復;接口 BiST、HBM 專用自測試、SerDes 鏈路自檢、通道環回與修復成為標配;功耗感知 ATPG 規避浪涌與誤判失效;系統級測試 SLT 則在裝機前筑牢 AI 模組功能與可靠性底線。

參考文獻:

  1. Levinthal, I., Lathrop, R., “AI Chips Pose Demanding Test      Challenges: An Exploration of New Methodologies,” in IEEE Electron      Devices Magazine, vol. 3, no. 1, pp. 18-23, March 2025, doi:      10.1109/MED.2025.3540741.

  2. Zorian, Y., “Enabling Seamless Monitoring, Test, And Repair In      Multi-Die Designs,” Semiconductor Engineering, March 10, 2026. 


評論


相關推薦

技術專區

關閉