用FMEA設計FIT,用FIT驗收FMEA
硬件可靠性閉環:用FMEA設計FIT,用FIT驗收FMEA
可靠性設計與測試是很“苦逼”的,這份“苦逼”的背后,是多年沉淀的可靠性思維——質量從來不是測試出來的,而是設計出來的。而支撐這份設計的核心工具,正是FMEA;驗證這份設計的關鍵手段,便是FIT。今天我們就聊聊硬件可靠性的閉環邏輯:用FMEA設計FIT,用FIT驗收FMEA。
可維護性和可靠性驗收非常重要,硬件維護工程師在后端發現問題后,總結成可維護性和可靠性需求,在產品立項的時候與新特性一起進行需求分析,然后經過設計、開發和測試環節后,在產品中落地。這些需求最終實現的效果是否和需求提出人想要達到的效果一致,需要硬件維護工程師進行驗收。
硬件維護工程師越早參與,效果越好。如果等到轉維審查的時候才參與驗收,發現偏差需要修改和測試,相當于需求要重新開發一次。推薦硬件維護工程師在需求分解的時候就參與,然后在開發和測試的時候再進行一次審視。

如果能從早起工作去解決后期可能出現的問題,并形成有效的方法論,則可以實現問題前置,則實現產品質量提升。
先看一個真實案例:忽視可靠性設計,代價有多高?
有一款主力發貨的硬件產品,架構很明確:主用主控通過FE通道管理線卡,線卡到主用主控有兩條通道——實線的主用FE通道,和虛線的備用FE通道,理論上可實現故障冗余。

但現場出現了一個詭異問題:每天固定時間,線卡板就會復位,復位后還無法注冊,直接影響業務正常運行。
層層定位后,真相逐漸清晰:
線卡板到主用主控的FE通道有錯包,導致管理報文丟失;
核心問題出在FE通道切換機制——可靠性需求實現有偏差,主用主控沒等切換到備用通道,就判定線卡板故障并將其復位;
復位后線卡板仍優先走主用FE通道協商,丟包問題未解決,協商失敗導致無法注冊;
進一步排查發現,錯包源于主用主控的LSW芯片,而芯片故障的根源是晶振跳頻——環境溫度25℃左右時(晶振表面50℃),125M晶振頻偏達到20ppm,超出125M±10ppm的規格,且僅在這個溫度區間出現問題。
這是一個典型的可靠性設計疏漏案例,事后總結了4點改進措施,其實每一點都能通過FMEA提前規避:
優化FE通道切換機制:一條通道故障時,優先切換至備用通道,而非直接復位線卡;
完善故障定界邏輯:多個線卡FE通道同時故障時,判定為主用主控故障,優先主備倒換,不盲目復位線卡;
增加錯包日志記錄:FE通道錯包達到一定數量時,自動記錄日志,便于快速定位問題;
優化異常處理流程:主控發現線卡異常先上報告警,有備份通道則切換業務后再復位,無備份通道僅告警不復位。
這個案例也印證了一個核心觀點:硬件維護工程師越早參與可靠性設計,后期返工成本越低。若等到轉維審查時才驗收,發現偏差再修改測試,相當于重新開發一次,得不償失。最合理的方式,是在需求分解階段就介入,開發、測試環節再反復審視,形成全流程把關。
核心概念:FMEA與FIT,到底是什么?
先搞懂FMEA:可靠性設計的“風險防火墻”
FMEA(失效模式與影響分析),本質是FMA(故障模式分析)和FEA(故障影響分析)的組合,核心是提前識別產品或過程中可能出現的風險,在現有技術范圍內消除或降低風險至可接受水平。
它不是一個單純的工具,更是一種設計理念——在設計電路、軟件的那一刻,就思考“這個部件壞了會影響什么”“如何提前防范”,而不是等故障發生后再補救。
回顧FMEA的發展歷史,能更理解它的重要性:
50年代初,美國首次將其用于戰斗機操作系統設計;
60年代中期,正式應用于航天工業(阿波羅計劃);
70年代末,進入汽車、醫療設備工業,80年代初延伸至微電子領域;
1991年,ISO-9000推薦使用;1994年,成為QS-9000認證要求。
如今,從復興號動車組到新能源汽車,從服務器到消費電子,FMEA已成為制造業可靠性設計的核心工具,中車唐山公司的CR400BF-S動車組DFMEA項目,就曾入選全國FMEA應用典型案例,用實踐證明了其價值。
做FMEA的核心目的,是用最低成本修改產品/過程,避免事后危機;而它的益處也很直接:
精準定位設計薄弱環節,提前制定對策;
實時優化設計,節省開發時間和成本;
適用于設計、制造、檢查全流程;
提升產品質量、可靠性與安全性。
再看FIT:可靠性設計的“驗收標尺”
FIT,即失效注入試驗(Fault Injection Test),是驗證可靠性設計的關鍵手段——FMEA負責“提前設計風險防控”,FIT負責“驗收設計是否有效”。
很多人會疑惑,為什么不直接驗證MTBF(平均無故障時間)?因為在開發階段,這幾乎不可能實現:
可靠性是統計結果,需要足夠大的樣本量;
驗證周期長、試驗量大,不符合開發節奏;
難以模擬現場復雜的應用環境,驗證結果不具參考性。
而FIT測試恰好解決了這些問題,其核心驗證目的有3點:
推動可靠性增長:通過測試發現問題,針對性優化,提升系統可靠性;
驗證系統能力:檢驗系統的故障恢復、故障管理能力;
定量估計指標:對產品故障恢復能力做量化評估,驗證可靠性指標是否達標。
設計FIT方案時,需遵循兩個核心原則:一是保證測試覆蓋率,不遺漏關鍵故障場景;二是保證工作量可執行性,避免測試成本過高。
值得注意的是,FIT用例設計需結合FMECA(失效模式、影響及危害性分析)結果,考慮故障出現的概率;對于能產生同一種影響的不同故障,可進行模式收斂——只需模擬一種故障模式(前提是通過故障影響檢測故障,而非直接檢測故障模式)。
深入理解FMEA:遍歷性、系統性,缺一不可
FMEA的核心思想,濃縮為兩個詞:遍歷性、系統性,這也是它能有效防范風險的關鍵,在硬件設計中具體體現為兩種分析方法:
1. 硬件法:極致遍歷,不留死角
從硬件視角出發,逐一分析每個器件、每個器件的每一個管腳,明確其可能的故障模式、對系統的影響,以及對應的檢測和補償措施。正是這種“逐個排查”的思路,體現了FMEA的遍歷性,確保不遺漏任何一個潛在故障點。
2. 功能法:系統梳理,兼顧全局
按產品的功能輸出分類,逐一列出每個功能,分析其可能的故障模式,適用于系統級、單板級的整體分析。這種方法按功能和場景梳理,體現了FMEA的系統性,確保從全局視角把控故障影響。

FMEA的核心操作邏輯
做FMEA分析時,需先明確故障的嚴酷等級,再梳理系統結構圖(清晰呈現功能模塊關系、輸入輸出信號),最終形成FMEA分析表格,核心圍繞“故障模式-故障影響-檢測措施-改進對策”展開:
嚴酷等級1:故障導致整個系統崩潰或主要功能嚴重受損;
嚴酷等級2:故障影響主要功能、導致任務延誤或存在重大隱患;
嚴酷等級3:次要功能喪失/下降,需立即修理,但不影響主要功能;
嚴酷等級4:部分次要功能下降,僅需一般維護,不影響功能實現(如普通告警)。
總結:可靠性閉環,始于設計,成于驗證
很多硬件工程師急于出成果,往往忽略可靠性設計,最后因小失大,反復返工。其實就像老話說的“磨刀不誤砍柴工”,FMEA和FIT的結合,正是硬件可靠性的“磨刀石”。
FMEA的核心是“防患于未然”,它讓我們在設計階段就規避潛在風險,明確冗余策略、復位策略、故障處理邏輯,從源頭決定產品的可靠性上限;FIT的核心是“驗證落地”,它用失效注入的方式,檢驗FMEA設計的有效性,確保可靠性需求真正落地。
描述結構圖 :
清晰功能模塊之間的相互關系,主要輸入/輸出信號。

參考的FMEA表格:

我曾經開發過程中,也非常的急于出成果。但是正真做成硬件精品,往往忽略一些功能設計之外的考慮,最后導致返工。
可靠性設計,包含FMEA的設計是很重要的。磨刀不負砍柴工,從設計階段,就融入可靠性、預防失效的思考,讓你的設計上升一個臺階
從穿戴設備,到復興號的動車組,所有硬件精品的背后,都離不開這種“設計-驗證”的閉環思維。可靠性不是“不出問題”,而是“出得起、找得到、回得來”,而FMEA與FIT,正是實現這一目標的核心支撐。
愿每一位硬件工程師,都能重視FMEA設計,用好FIT測試,少走返工彎路,做出真正經得起現場考驗的硬件產品。



評論