AI 加速器開啟集成電路測試新時代
AI 加速器應用廣泛,從大語言模型訓練、基于大模型的推理預測,到自動駕駛中傳感器與攝像頭數據的實時處理、智能手機、相機、無人機等 AI 邊緣場景,甚至可加速疫苗研發過程。
但 AI測試系統是一個全新課題,它涉及到高速接口、多處理器、深層存儲層級測試,還包含光接口測試,需要開展在裸芯片、堆疊模組(HBM)、最終測試、系統級測試及現場測試多個環節。這種多芯片、多接口測試需要 DFT 與測試方法創新,包括實施流式掃描,以及增加更多的在線應力測試和后硅化過程模塊測試,以全面捕捉所有潛在故障。
隨著封裝尺寸增大,需要新型搬運設備與更大尺寸的 JEDEC 托盤。測試工程師們還面臨著在先進工藝節點、混合鍵合接口、硅通孔內部、凸點接口以及硅基板連接器等部位出現的新故障問題。測試是人工智能發展過程中最為關鍵的環節。從晶圓檢測到數據中心內的系統測試,整個過程中都需要進行全面的故障檢測。
IBM 研究院 AI 硬件研究工程師約翰?戴維?蘭卡斯特表示:“積極的一面是,AI 加速器計算引擎可針對更聚焦、更可預測的工作負載開展測試,因為我們明確其要執行的運算類型。挑戰在于,這些引擎通常采用多種精度格式,會加大建立比特精準預期結果的難度。此外,啟動與停止推理任務會引發大幅瞬態功率波動,對加速器的電源完整性電路造成應力,若未充分表征,可能導致運行中失效。”
AI 測試首先要明確被測器件(DUT)。愛德萬測試 P93k 產品線業務開發經理丹尼爾?西蒙切利稱:“AI 系統中,通常單個計算核心會在同一芯片上復制數十乃至數千次,屬于同質化設計;而 CPU 是異質化設計,幾乎要測試所有模塊。針對運行大語言模型的人工智能系統,軟件棧是定制化的,需對芯片施加應力,驗證其能否以正確系數完成運算,同時要測試數十億個晶體管。因此,復雜度主要源于需要輸入器件的海量掃描數據。”
系統級測試中,熱管理與電源管理是關鍵問題。Amkor技術高級總監、制造測試專家維尼特?潘喬利表示:“AI 加速器的電流密度極高,平臺中每個封裝功耗達 300 瓦至 2000 瓦。芯片單元的精準布局以實現熱隔離,是封裝設計的核心架構決策。測試時,每個芯片關鍵區域的熱熱點會影響自身及相鄰芯片性能。核門控測試向量可實現晶圓分選、最終測試與系統級測試中的熱管理,同時采用熱界面材料(TIM)及定制風冷、液冷頭,保障量產測試順利進行。”
什么是 AI 加速器?
AI 加速器并非單一器件,而是由搭載數千個核心的芯片單元、HBM 與靜態隨機存儲器(SRAM)組成的集合,為算法提供大規模并行處理能力。這與僅有 2 至 8 個核心、按順序處理請求且工作負載截然不同的 CPU 形成對比。
CPU 可通用化,而 AI 加速器通常針對特定任務設計。例如神經處理器(NPU)用于深度學習,張量處理器(TPU)擅長并行矩陣乘法與張量運算(神經網絡核心數學運算)。
基于圖形處理器(GPU)的模組是最早的 AI 加速器(目前仍用于游戲與圖形處理),因其可實現并行計算且優先保障極低延遲操作。但與 GPU 不同,AI 加速器更注重內存的高帶寬讀寫,計算速度更快、功耗更低。

圖1:2.5D 與 3D 封裝架構中,芯片間接口驗證與測試至關重要。
數據中心模組主要分為兩類。泰瑞達半導體測試集團產品營銷高級總監豪爾赫?烏爾塔特解釋:“AI 模組是異質集成先進封裝,包含一個或多個 GPU、HBM 堆疊、高速串行接口及中介層上的共封裝光學器件;第二類是搭載高速接口與中介層共封裝光學器件的交換模組。AI 數據中心模組不只是單個 xPU(最大尺寸 26 毫米 ×33 毫米),當前模組尺寸達 100 毫米 ×100 毫米,未來將增至 150 毫米 ×150 毫米,因此需按系統級標準開展測試。”
在測試芯片與芯片之間的接口時,保持信號完整性是一個重要的考量因素。西門子電子設計自動化公司 3D-IC DFT 和良率技術賦能經理庫克·潘表示:“2.5D 和 3D 包裝在芯片單元之間的高速接口處會引發嚴重的信號完整性及噪聲隔離問題。標準故障模型根本無法檢測由這些復雜的芯片間連接或先進的封裝本身所產生的缺陷,這就需要開發專門的互連測試和監測手段。這些芯片間的連接還直接影響了 DFT 模式交付,這就需要創新的 DFT 方法,以便通過像 UCIe 這樣的高速接口高效地創建和交付芯片之間的測試數據。
盡管存在差異,芯片測試核心目標未變。新思科技首席產品經理斯里?甘塔表示:“測試核心目標仍是以最低成本實現最高測試質量。但針對先進工藝節點、熱應力與電源應力、多芯片系統及現場 / 在系統運行場景,新增了更多測試需求。”
對于 AI 模組,片上監測器愈發重要。proteanTecs 首席執行官沙伊?科恩稱:“端到端優化已成為必然。如今無法先打造最優芯片、再打造最優系統、最優機架,最后搭建數據中心,因為會損失大量性能與功耗優勢。核心是針對每個工作負載、甚至每幾個時鐘周期進行優化,實現整體功耗最低、性能最高。”
多芯片測試新時代也要求企業間加強協作。PDF Solutions 首席執行官約翰?基巴里安表示:“量產復雜度極高 —— 需協調多家供應商的基板、基底芯片、第三方組件、各類封裝技術、外包封裝測試(OSAT)配置與測試系統。半導體行業曾攜手攻克重大工程難題,但規模化芯片單元量產需要更深層次的協作,尤其是系統廠商不斷整合不同供應商的組件。這種協同需覆蓋初始導入與持續量產全流程,并具備快速適配不同產品型號的靈活性。”
這一新趨勢進一步凸顯可測試性設計創新的重要性。范表示:“AI 芯片測試是當前半導體工程領域的前沿挑戰,AI 模組極致的架構復雜度與大規模并行性帶來了巨大難題。”
掃描測試邁向流式化
為適配新需求,掃描測試(結構測試)速度大幅提升,用于檢測數百萬個焊料凸點連接中的開路、短路等制造缺陷。
AI 系統并行架構的弊端是電路失效后難以定位。愛德萬測試的西蒙切利稱:“如果在產量提升過程中某些設備出現故障,那么故障診斷就會稍微復雜一些,因為測試中出現失效比特或失效向量時,無法確定芯片中數千個核心的具體故障位置。因此,測試設備需識別掃描網絡,實現失效測試序列的精準映射。為加速該過程,我們正采用 PCIe 等高速接口。優勢在于,晶圓分選、最終測試與系統級測試采用統一技術,不同測試環節間的測試內容傳輸更便捷。”
便捷程度取決于測試對象。西門子 EDA 的范稱:“大規模內存使用與架構體量,給制造測試中的可控性與可觀測性帶來困難。從 DFT 角度,測試向量的生成、傳輸與執行極為復雜,覆蓋龐大架構所需的向量體量巨大,導致測試時間延長。此外,眾多核心與內存接口的并發運行,使測試中的 DFT 電源管理成為關鍵問題,功耗可能大幅飆升。”
HBM 測試技術演進
范表示:“AI 系統依托數千個計算核心與深層存儲層級,需同時使用片上 SRAM 與外部動態隨機存儲器(DRAM),數據傳輸速率達每秒 TB 級。大規模內存使用與架構體量,給制造測試中的可控性與可觀測性帶來困難。從 DFT 角度,測試向量的生成、傳輸與執行極為復雜,覆蓋龐大架構所需的向量體量巨大,導致測試時間延長。此外,眾多核心與內存接口的并發運行,使測試中的 DFT 電源管理成為關鍵問題,功耗可能大幅飆升。”
HBM 由多層 DRAM 芯片堆疊而成,目前最多可達 12 層,通過基底邏輯芯片通信(該基底芯片近期已替代傳統 DRAM 基底芯片)。西蒙切利稱:“基底芯片負責校驗上方堆疊的所有內存,切割后通常還需額外測試,因為這類封裝脆弱且昂貴。HBM 成本可占整個封裝成本的 50% 以上,因此盡早檢測垂直結構的微小變化、捕捉潛在故障至關重要。為此,客戶正考慮新增測試環節,部分稱為部分組裝測試,部分稱為單顆芯片測試,該環節將在未來一兩年內落地。”
芯片邊緣可部署片上監測器(代理單元),檢測切割后的缺陷。proteanTecs 的科恩稱:“若需高精度工藝監測,部分代理單元需部署在芯片邊緣。這是多芯片與普通芯片的區別 —— 多芯片場景中,芯片邊緣狀態監測更重要,需明確芯片間的運行情況。”
隨著海力士、美光、三星等 HBM 廠商從 HBM3、HBM3E 升級至 HBM4,核心目標是在有限堆疊高度內集成更多 DRAM 芯片、提升存儲容量。HBM4 堆疊厚度標準從 HBM3/3E 的 720 微米放寬至 775 微米(含基底芯片)。
HBM4 仍將采用微凸點連接 16 層 DRAM 芯片,后續采用混合鍵合技術,下一代預計包含 20 層 DRAM 芯片與 1 層基底芯片。實現高帶寬所需的大量信號通道,使每一代產品的硅通孔(TSV)數量更多、密度更高,微凸點間距與尺寸縮小至 20 至 30 微米。
新思科技首席產品經理費薩爾?戈里亞瓦拉稱:“為實現高帶寬、低延遲,HBM 內存采用極寬接口(1024 位、2048 位,邁向 4096 位)。為提升容量,HBM 標準將堆疊高度提升至 12 層、16 層,邁向 20 層。這提升了內存堆疊的互連密度與 TSV 數量,微凸點總數大幅增加,外部凸點間距持續縮小。對 DRAM 廠商而言,這帶來熱管理、電源分配網絡、布線、可靠性與 TSV 容量等多重挑戰。”
HBM 良率責任歸屬問題備受關注。戈里亞瓦拉稱:“DRAM 廠商向專用集成電路(ASIC)廠商 / 原始設備制造商(OEM)供應良品內存芯片,但封裝組裝后如何測試?例如,OEM / 系統合作伙伴如何在最終測試中檢測互連固定故障?HBM 內存與 xPU 間的互連信號間距緊湊、數量龐大,OEM / 系統集成商通過自動測試設備(ATE)全面測試封裝后 DRAM 難度極大。”
他還強調測試時間與覆蓋率的平衡。“即使是 8G DRAM,在 ATE 上全面測試也需數秒。因此,需支持用戶靈活平衡測試時間與覆蓋率,僅在必要時開展詳細物理失效分析(PFA)。”
HBM 測試并未止于系統級測試,數據中心還需開展在系統測試,應對老化相關失效。戈里亞瓦拉解釋:“運維 / 計劃停機期間,用戶可開展特定的行錘測試,檢測 DRAM 的邊緣特性與潛在敏感度,預防災難性故障。更復雜的是,定制 HBM 等新興方案中,HBM 基底芯片采用邏輯工藝制造(而非 DRAM 廠商的內存工藝)。這為片上系統(SoC)設計師提供更靈活的設計劃分,但也加大了良品堆疊與良品封裝的測試復雜度。”

圖2:定制 HBM(cHBM)中,DRAM 基底芯片采用邏輯工藝制造,測試難度大幅提升。來源:新思科技
基于上述原因(方法 / 可訪問性、測試時間、不同測試場景、定制 HBM 興起),HBM 測試是重大挑戰與瓶頸,也是 2.5D 集成電路設計的關鍵考量。
測試可訪問性
約 15 年前,頭部器件廠商、測試公司與外包封裝測試廠商意識到,多芯片封裝中部分芯片的測試可訪問性不足將成為重大問題,這也是 IEEE 1838 標準制定的初衷。該標準旨在實現堆疊芯片與測試設備的通信,并通過新型 DFT 架構實現堆疊中非接觸芯片間的通信。
盡管 AI 子系統測試存在諸多差異,行業仍可復用現有測試方法。安靠測試業務開發高級總監斯科特?卡羅爾稱:“AI 封裝測試與單片 xPU 不同,核心難點是封裝內芯片間互連的測試可訪問性不足。但所有 xPU 邏輯測試理念,包括符合 IEEE 1838 標準的自動測試向量生成(ATPG)、掃描、基于結構的功能測試等,通過 EDA 流程為 xPU 開發的方案,均適用于 AI 模組。”
芯片單元級邏輯實現標準帶來多重助力。卡羅爾稱:“從 DFT 角度,UCIe 通過冗余修復、位寬降級、通道反轉(物理層核心功能)簡化量產測試,可選功能還可支持收發端差分眼圖寬度與高度驗證。為滿足加速器與內存間的低延遲需求,AI 工作負載要求更高的輸入輸出(I/O)速率(32Gbps 至 64Gbps),近端與遠端環回 DFT 協同使用,保障充足測試覆蓋率。”
卡羅爾指出,行業持續協作優化 DFT 技術,IEEE P3405 工作組正提議制定芯片間互連測試生成與校驗模塊,以及其他測試方法。
另一項挑戰是驗證處理器(xPU)與 HBM 的連接性(當前通過微凸點連接至硅中介層)。愛德萬測試的西蒙切利稱:“電氣層面保障連接性存在重大挑戰,可通過光學檢測凸點,但無法替代電氣測試,需在處理器與封裝連接后開展電氣測試。”
引腳可訪問性也是難題。泰瑞達的烏爾塔特稱:“先進封裝無法訪問所有引腳,需通過 DFT 接口實現系統級測試。例如,西門子的流式掃描網絡(SSN)可助力自動測試設備,提升掃描測試速度。因此,需配備合適接口,實現系統級測試。”

圖 3:芯片廠商正探索新增測試環節,尤其針對切割 / 單顆化工序后。來源:泰瑞達
烏爾塔特補充:“另一重要接口是光接口,降低功耗的關鍵途徑之一是從銅互連轉向硅光互連。我們近期推出了光接口量產自動測試系統,替代傳統機架式實驗室測試系統。”
蘭卡斯特解釋 IBM 的系統級測試方案:“制造階段,我們以板級配置對芯片施加盡可能嚴苛的應力,包括在不同電壓 / 溫度偏差下運行 AI 工作負載,目標是縮小測試中的失效運行裕量,確保芯片與板卡部署后具備高可靠性。”
該測試級別需多層級方案。蘭卡斯特稱:“這些階段中,我們啟用全套診斷模式,包括校驗所有比特精準結果、從硬件層面驗證最復雜的 AI 模型。企業客戶要求極低的現場失效率,因此測試流程包含從模組級測試到全系統級集成與應力測試的全面硬件驗證,確保芯片與集成平臺的可靠性。”
經驗法則是,測試設備應能施加兩倍于現場運行所需的電壓應力。蘭卡斯特稱:“為全面測試芯片上所有組件,我們配備針對芯片特定模塊與接口的硬件驗證測試套件,在不同頻率、電壓、溫度下運行測試,同時啟用全診斷校驗。此外,這些測試通過專用硬件測試設備調度,提供比普通客戶工作負載更深入的可視性與更高應力水平,確保在比終端用戶更嚴苛的環境下提前發現問題。”
結論
AI 加速器發展仍處于初期階段,但測試領域已積累大量經驗。
安靠的潘喬利稱:“AI 集成電路量產測試仍任重道遠。首批產品完成組裝與測試后,我們將收集更多數據與見解,明確改進方向與核心經驗。這些經驗將用于優化未來 AI 產品的測試流程。”











評論