人工智能設(shè)計重塑數(shù)據(jù)管理
人工智能正從工作流程、崗位設(shè)置和獨特的數(shù)據(jù)管理挑戰(zhàn)等方面,深刻影響著半導(dǎo)體設(shè)計領(lǐng)域。
核心要點
將人工智能融入芯片設(shè)計流程,正推動企業(yè)全面革新數(shù)據(jù)管理策略,實現(xiàn)從被動存儲向主動、結(jié)構(gòu)化、機器可讀取系統(tǒng)的轉(zhuǎn)型。
隨著模型訓(xùn)練與推理工作負(fù)載持續(xù)增加,數(shù)據(jù)遷移、網(wǎng)絡(luò)擁塞和能效問題已成為核心挑戰(zhàn),其重要性往往超越了原始算力本身。
電子設(shè)計自動化(EDA)領(lǐng)域?qū)偾覐?fù)雜的數(shù)據(jù)格式,加之公開數(shù)據(jù)資源有限,導(dǎo)致針對半導(dǎo)體設(shè)計的人工智能模型微調(diào)難度極大,在檢索增強生成(RAG)和模型微調(diào)場景中,需依托大量的數(shù)據(jù)解析工作和專業(yè)領(lǐng)域知識,才能實現(xiàn)數(shù)據(jù)的有效利用。
人工智能正迫使半導(dǎo)體企業(yè)從根本上重新思考數(shù)據(jù)管理模式,將其從一項被動的存儲工作,轉(zhuǎn)變?yōu)橐婚T主動的工程學(xué)科。
工程團隊首先必須將分散的日志文件和設(shè)計成果整合至機器可讀取的數(shù)據(jù)湖,通過元數(shù)據(jù)和本體論為其補充信息,并在各類工具間搭建穩(wěn)定的數(shù)據(jù)流管道。為實現(xiàn)這一目標(biāo),團隊會借助智能輔助工具、檢索增強生成技術(shù)和微調(diào)模型,而所有操作都需在嚴(yán)格的安全規(guī)范和本地部署的約束下完成。隨著數(shù)據(jù)量的持續(xù)增長,企業(yè)不僅需要增設(shè)電子設(shè)計自動化數(shù)據(jù)管理員這一新崗位,還需對數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)質(zhì)量進行持續(xù)投入。
無論工程團隊采用檢索增強生成技術(shù)、訓(xùn)練模型還是對數(shù)據(jù)進行微調(diào),若數(shù)據(jù)僅處于閑置狀態(tài),便毫無實際價值。企業(yè)需要從不同的服務(wù)器集群、設(shè)計工具和項目中收集歷史及現(xiàn)有數(shù)據(jù),再按項目、流程階段和團隊歸屬完成數(shù)據(jù)的清洗與整理。此外,還需對代碼、文本、圖像、時間序列和二進制等各類格式的數(shù)據(jù)進行解析與分塊處理。
這一系列需求推動團隊采用中心化數(shù)據(jù)湖和向量化數(shù)據(jù)庫,取代臨時的文件共享方式,數(shù)據(jù)管理的核心也逐漸轉(zhuǎn)向機器可讀取性和數(shù)據(jù)檢索效率。這也解釋了為何如今人工智能設(shè)計領(lǐng)域的數(shù)管工作熱度飆升 —— 而就在一年前,行業(yè)的關(guān)注重點還停留在可利用的人工智能工具類型上。
是德科技電子設(shè)計自動化事業(yè)部知識產(chǎn)權(quán)與數(shù)據(jù)管理業(yè)務(wù)總經(jīng)理西蒙?蘭斯表示:“彼時企業(yè)們提出的問題是,‘為了融入并利用人工智能,我們需要在方法論或設(shè)計流程上做出哪些調(diào)整?’他們也在思考如何訓(xùn)練人工智能模型。如今我看到,企業(yè)們已經(jīng)從單純的思考轉(zhuǎn)向?qū)嶋H落地,過程中卻遭遇了諸多挑戰(zhàn):數(shù)據(jù)安全如何保障?算力是否充足?人工智能計算的能耗難題該如何解決?人們?nèi)缃褚查_始逐漸了解人工智能幻覺現(xiàn)象及其成因,希望找到緩解或減少該問題的方法。當(dāng)下行業(yè)的關(guān)注重點大量集中在數(shù)據(jù)安全上,相較于研發(fā)語言模型或研究模型訓(xùn)練方法,數(shù)據(jù)編排的優(yōu)先級已大幅提升。很多企業(yè)曾想一步到位,但如果基礎(chǔ)工作做不好,后續(xù)處處都會碰壁 —— 如今不少企業(yè)正陷入這樣的困境,某種程度上甚至陷入了停滯。這并非單一問題,而是會引發(fā)一系列連鎖反應(yīng)。”
業(yè)內(nèi)其他人士也持相同觀點。西門子電子設(shè)計自動化事業(yè)部生成式人工智能產(chǎn)品群經(jīng)理尼蘭詹?西塔普雷稱:“分析人工智能設(shè)計對數(shù)據(jù)管理的影響,主要需區(qū)分兩個維度:一是訓(xùn)練新的人工智能模型、大語言模型或微調(diào)現(xiàn)有模型,這是第一類場景;二是采用檢索增強生成技術(shù),這類場景無需訓(xùn)練或微調(diào)模型,卻仍能利用企業(yè)已有數(shù)據(jù)。而對半導(dǎo)體設(shè)計而言,還有尤為重要的第三個維度 —— 前兩類場景中普遍存在的數(shù)據(jù)格式問題。通常來說,ChatGPT-5、谷歌雙子星等大語言模型在文本處理、代碼編寫和圖像生成等多模態(tài)任務(wù)上表現(xiàn)出色,這是因為它們基于互聯(lián)網(wǎng)海量的同類格式知識完成了訓(xùn)練。但在電子設(shè)計自動化領(lǐng)域,盡管也涉及代碼、文本和部分圖像,情況卻截然不同:我們的代碼具有高度專有性,還存在 SPRF 這類專屬語言,部分電子設(shè)計自動化工具甚至有自己的語法規(guī)則,且這些內(nèi)容均未公開,即便是 GPT-5 或最新的模型,也無法掌握這類信息,這成為一大難題。此外,部分電子設(shè)計自動化數(shù)據(jù)的格式并非機器可讀取,即便包含圖像和表格,也絕非汽車、自然風(fēng)光這類普通圖像,而是極為復(fù)雜的電路圖。無論是原理圖還是可視化電路圖,當(dāng)前的人工智能模型都難以準(zhǔn)確理解其中的設(shè)計邏輯。”
這一現(xiàn)狀直接影響到模型微調(diào)和檢索增強生成這兩大核心場景。
西塔普雷指出:“在模型微調(diào)方面,現(xiàn)有模型缺乏電子設(shè)計自動化相關(guān)數(shù)據(jù)支撐,因此它們或許能出色編寫 Python 代碼、解答光刻技術(shù)的通用問題,卻無法深入理解電路的底層設(shè)計邏輯。另一大問題是,模型微調(diào)需要海量數(shù)據(jù),而大量芯片設(shè)計數(shù)據(jù)并不掌握在電子設(shè)計自動化廠商手中,而是由客戶持有,晶圓代工廠也不會將這類數(shù)據(jù)公開。這就形成了一個尷尬的局面:若要對當(dāng)前最先進的模型進行微調(diào),企業(yè)既要解決電子設(shè)計自動化文件格式帶來的數(shù)據(jù)解析難題,又要面對公開數(shù)據(jù)資源不足的問題。而在檢索增強生成場景中,舉個例子,當(dāng)你使用 GPT-5 時,若在一款設(shè)計規(guī)則檢查工具中打開了某個設(shè)計方案,想要弄清設(shè)計中的問題,或是通過日志文件排查錯誤,這類場景下的數(shù)管工作,相較于前兩者會更易操作、流程也更簡潔。”
工程團隊主要通過兩種方式應(yīng)對上述問題。西塔普雷解釋道:“第一種是為全量數(shù)據(jù)配備智能輔助工具,實現(xiàn)與檢索增強生成技術(shù)的結(jié)合。企業(yè)會提出需求:‘請為我們提供人工智能模型,以及配套的基礎(chǔ)設(shè)施,包括檢索增強生成數(shù)據(jù)流管道、便捷的圖形用戶界面,讓我們能夠便捷地進行問題查詢等操作。’本質(zhì)上,這就是電子設(shè)計自動化領(lǐng)域的 ChatGPT。”
他還提到,部分企業(yè)希望擁有自研的微調(diào)人工智能模型,因此會尋求相關(guān)技術(shù)支持:“這些企業(yè)會說,‘我們的數(shù)據(jù)分布在各個節(jié)點,能否協(xié)助我們搭建微調(diào)或訓(xùn)練管道,實現(xiàn)對不同設(shè)計方案的 SPICE 仿真?如此一來,每次完成仿真后,我們就能通過日志文件或仿真文件獲取耗時、網(wǎng)表規(guī)模、錯誤類型等信息,再搭建一個能理解這些數(shù)據(jù)的本地人工智能 / 機器學(xué)習(xí)模型。’針對這類客戶的特定設(shè)計需求,該模型可實現(xiàn)精準(zhǔn)預(yù)測:例如運行某一網(wǎng)表將耗時多久、占用多少內(nèi)存,或是基于現(xiàn)有數(shù)據(jù)預(yù)估設(shè)計的功耗、性能、面積(PPA)指標(biāo)。”
目前,電子設(shè)計自動化工具廠商已向用戶開放了相關(guān)技術(shù)。用戶會先搭建自有數(shù)據(jù)湖,將標(biāo)準(zhǔn)操作流程、操作手冊、設(shè)計方案等各類信息盡可能地進行中心化整合,并處理為機器可讀取格式;隨后可提出需求,將這些數(shù)據(jù)遷移至電子設(shè)計自動化廠商的人工智能服務(wù)基礎(chǔ)設(shè)施中。整個過程中,數(shù)據(jù)始終保持本地部署且完全物理隔離,在保障數(shù)據(jù)安全的同時,也能精準(zhǔn)匹配用戶的實際業(yè)務(wù)需求。
換言之,人工智能芯片與系統(tǒng)設(shè)計正推動數(shù)據(jù)管理實現(xiàn)轉(zhuǎn)型:從孤立的、基于文件的結(jié)果存儲,升級為云原生的大數(shù)據(jù)基礎(chǔ)設(shè)施。這一新型基礎(chǔ)設(shè)施可承載跨物理場的只讀存儲器(ROM)和大型物理模型,減少高成本的數(shù)據(jù)遷移操作,并最終將設(shè)計階段和運行階段的數(shù)據(jù)整合至統(tǒng)一的、可擴展的系統(tǒng)中。
已有企業(yè)將大數(shù)據(jù)技術(shù)應(yīng)用于芯片設(shè)計,搭建了專屬的數(shù)據(jù)基礎(chǔ)設(shè)施。2015 年被安世科收購、如今成為新思科技旗下 Seascape 數(shù)據(jù)庫的吉爾設(shè)計解決方案公司,就是其中的代表。新思科技產(chǎn)品營銷總監(jiān)馬克?斯溫寧表示:“我們對多款工具進行了重寫,使其能基于 Seascape 基礎(chǔ)設(shè)施運行;借助 MapReduce 等大數(shù)據(jù)技術(shù),部分工具已實現(xiàn)原生云部署。在電子設(shè)計自動化領(lǐng)域,傳統(tǒng)模式是先開發(fā)數(shù)據(jù)庫或工具,再思考‘如何將其部署至云端’,而吉爾設(shè)計解決方案公司創(chuàng)始人約翰?李則反其道而行之 —— 秉持云原生優(yōu)先的理念,再讓算法適配云端環(huán)境。例如,你可以讓一款工具定位電壓降位置,讓另一款工具獲取電流數(shù)據(jù),再要求兩款工具完成數(shù)據(jù)疊加。當(dāng)兩款工具均基于 Seascape 運行時,就能通過 MapReduce 方法完成數(shù)據(jù)排序、關(guān)聯(lián)與疊加,實現(xiàn)傳統(tǒng)系統(tǒng)無法做到的海量數(shù)據(jù)融合與聯(lián)合分析。”
工程數(shù)據(jù)具備極高價值,但直至近期,其管理仍面臨高風(fēng)險、低規(guī)范的問題。芯片智能體公司首席執(zhí)行官威廉?王表示:“寄存器傳輸級代碼(RTL)、設(shè)計規(guī)格、波形圖、日志文件和工程變更指令(ECO)歷史記錄等數(shù)據(jù),具有高度的敏感性,且分布零散、難以審計。當(dāng)前的行業(yè)瓶頸并非模型質(zhì)量,而是數(shù)據(jù)質(zhì)量 —— 無論模型規(guī)模多大,錯誤的上下文信息都會導(dǎo)致智能體輸出無效結(jié)果。這意味著,數(shù)據(jù)的安全性和溯源性比規(guī)模更重要。用戶關(guān)注的并非大數(shù)據(jù)本身,而是數(shù)據(jù)的來源、訪問權(quán)限和處理模型。”
為解決數(shù)據(jù)質(zhì)量、安全和溯源問題,威廉?王指出,嵌入工作流程的數(shù)管治理模式已落地并取得良好效果 —— 數(shù)據(jù)管理必須融入工程工作流程,而非獨立于外部平臺。“鑒于設(shè)計規(guī)格、寄存器傳輸級模塊、波形圖等每一項設(shè)計成果都需要明確歸屬、溯源路徑和訪問權(quán)限,數(shù)據(jù)的溯源性和訪問控制必須成為默認(rèn)配置。如今也可通過智能體實現(xiàn)數(shù)據(jù)的中介訪問,由智能體自動執(zhí)行訪問權(quán)限管控,明確不同主體的查看范圍和安全使用邊界。”
這一切的實現(xiàn),都依賴于對數(shù)據(jù)進行有效組織的能力,而隨著數(shù)據(jù)量的持續(xù)增長,這一工作的難度也不斷加大。弗勞恩霍夫應(yīng)用固體物理研究所 / 電子與系統(tǒng)工程研究所研究員馬丁?諾伊曼 - 基平表示:“如今談及人工智能,我們必須摒棄‘單靠大數(shù)據(jù)就能解決問題’的觀念,大數(shù)據(jù)的熱潮已開始消退,單純收集海量數(shù)據(jù)不再是制勝法寶。我們真正需要的是可解析數(shù)據(jù)—— 即描述清晰、關(guān)聯(lián)緊密、置于正確上下文環(huán)境中的數(shù)據(jù)。多數(shù)企業(yè)的問題并非數(shù)據(jù)不足,而是數(shù)據(jù)被孤立在各個‘信息孤島’中:質(zhì)量數(shù)據(jù)僅質(zhì)量保證團隊可見,生產(chǎn)數(shù)據(jù)僅生產(chǎn)部門可接觸,文檔資料僅工程團隊能訪問,諸如此類。這些孤島數(shù)據(jù)本身具備價值,但真正的潛力在于將其關(guān)聯(lián)整合,從整體視角看待生產(chǎn)系統(tǒng) —— 唯有如此,才能搭建起真正的企業(yè)系統(tǒng)知識庫。”
對于生成式人工智能在內(nèi)的優(yōu)質(zhì)人工智能解決方案而言,僅僅 “擁有數(shù)據(jù)” 遠(yuǎn)遠(yuǎn)不夠。諾伊曼 - 基平稱:“必須精準(zhǔn)掌握數(shù)據(jù)的實際含義,為數(shù)據(jù)添加語義描述、構(gòu)建本體論體系,并建立統(tǒng)一的數(shù)據(jù)語言。這也是我們研究知識圖譜、在現(xiàn)有系統(tǒng)之上搭建智能數(shù)據(jù)層的原因。企業(yè)當(dāng)前的數(shù)據(jù)管理系統(tǒng)可作為良好基礎(chǔ),但需要通過語義層實現(xiàn)跨數(shù)據(jù)源的信息關(guān)聯(lián)。一旦完成這一搭建,就能在其基礎(chǔ)上開發(fā)更強大的人工智能應(yīng)用,包括智能體系統(tǒng)。因此,人工智能時代的數(shù)管工作并非一個獨立議題,而是發(fā)展人工智能的先決條件。若不在數(shù)據(jù)的描述、結(jié)構(gòu)化和關(guān)聯(lián)整合上投入精力,企業(yè)的人工智能應(yīng)用將始終局限于狹隘的、局部的優(yōu)化;而若將數(shù)據(jù)視為全系統(tǒng)數(shù)字孿生的一部分,就能實現(xiàn)對整個業(yè)務(wù)流程的優(yōu)化,而非僅針對單個環(huán)節(jié)。這正是我眼中人工智能在工業(yè)領(lǐng)域的真正長期價值所在。”
崗位新需求:電子設(shè)計自動化數(shù)據(jù)管理員
幾年前,英偉達(dá)首席執(zhí)行官黃仁勛曾預(yù)言,未來工程師將成為人工智能智能體的管理者。與此相契合,電子設(shè)計自動化數(shù)據(jù)管理員這一崗位的需求正持續(xù)增長,其核心職責(zé)是確保數(shù)據(jù)格式標(biāo)準(zhǔn)化、搭配規(guī)范的元數(shù)據(jù)、存儲于指定目錄、配置合理的訪問權(quán)限等。
西門子的西塔普雷表示:“我們需要為特定項目匹配精準(zhǔn)的數(shù)據(jù),搭配規(guī)范的元數(shù)據(jù)和合理的訪問控制,建立清晰的信息關(guān)聯(lián),以及基于本體論的知識圖譜以明確數(shù)據(jù)溯源。這一崗位的重要性與日俱增,盡管它處于設(shè)計流程的后端,看似并非核心崗位,實則是奠定行業(yè)發(fā)展基礎(chǔ)的關(guān)鍵崗位。企業(yè)需要專人負(fù)責(zé)這項工作,并進行大量投入。從企業(yè)級人工智能的視角來看 —— 不僅是電子設(shè)計自動化領(lǐng)域,而是全行業(yè) —— 都需要持續(xù)加大對數(shù)據(jù)管理結(jié)構(gòu)化的投入,因為若忽視這一點,最終只會陷入‘垃圾進,垃圾出’的困境。”
企業(yè)的數(shù)據(jù)往往高度分散,規(guī)模較大的企業(yè)或有并購、被并購經(jīng)歷的企業(yè),這一問題更為突出。是德科技的蘭斯稱:“這些企業(yè)的數(shù)據(jù)分散在各類數(shù)據(jù)管理系統(tǒng)中,部分團隊甚至未使用專業(yè)數(shù)管系統(tǒng),而是借助康 fluence、SharePoint 文件服務(wù)器等工具,導(dǎo)致數(shù)據(jù)缺乏索引、編目和版本控制。企業(yè)內(nèi)部其他部門則可能使用完全不同的系統(tǒng),數(shù)據(jù)存儲在另一處。當(dāng)企業(yè)內(nèi)遍布這些孤立的數(shù)據(jù)碎片時,問題便接踵而至:若繼續(xù)放任數(shù)據(jù)分散,人工智能應(yīng)用將面臨延遲問題,數(shù)據(jù)也可能出現(xiàn)重復(fù)存儲的情況。而數(shù)據(jù)質(zhì)量、存儲位置、可訪問性,以及快速獲取、讀取、利用、編排數(shù)據(jù)并推進后續(xù)任務(wù)的算力和系統(tǒng)能力,都會引發(fā)人工智能幻覺現(xiàn)象,這一系列問題還會產(chǎn)生連鎖反應(yīng)。事實上,數(shù)據(jù)查找困難和數(shù)據(jù)質(zhì)量低下,是諸多問題的根源。過去,企業(yè)常說:‘我們知道各處都有數(shù)據(jù),卻沒有數(shù)據(jù)工程師來做數(shù)據(jù)整理工作。’這是最大的挑戰(zhàn) —— 彼時行業(yè)內(nèi)甚至沒有對應(yīng)的崗位設(shè)置。而如今,企業(yè)不僅需要增設(shè)相關(guān)崗位,還需組建數(shù)據(jù)治理團隊,負(fù)責(zé)制定數(shù)據(jù)結(jié)構(gòu)化方案、明確數(shù)據(jù)存儲位置、確立數(shù)據(jù)的單一可信來源、搭建數(shù)據(jù)訪問和加密的安全體系,防止數(shù)據(jù)泄露,同時明確數(shù)據(jù)的運行硬件環(huán)境。”
過去,大量數(shù)據(jù)管理工作和數(shù)據(jù)系統(tǒng)都運行在通用服務(wù)器或工作站上。但要真正發(fā)揮模型訓(xùn)練、推理和工作流編排的價值,數(shù)據(jù)必須部署在高性能計算機上,才能實現(xiàn)數(shù)據(jù)的快速訪問、處理和回寫,并及時獲取運算結(jié)果。蘭斯表示:“底層還存在信息技術(shù)和基礎(chǔ)設(shè)施的問題,而這些問題在過去并未凸顯。如今,隨著行業(yè)高度關(guān)注模型的研發(fā)與管理,企業(yè)才意識到,他們甚至無法推進后續(xù)工作 —— 因為必須先完成數(shù)據(jù)整理,優(yōu)化數(shù)據(jù)存儲、算力資源和數(shù)據(jù)安全體系。即便打好了這些基礎(chǔ),企業(yè)還將面臨確立數(shù)據(jù)單一可信來源的新挑戰(zhàn)。此外,如何為設(shè)計流程中從未有過的數(shù)據(jù)類型進行補充,也是一大難題。過去,設(shè)計流程中僅有測試數(shù)據(jù)、設(shè)計數(shù)據(jù)、驗證數(shù)據(jù)、文檔和規(guī)格說明,從未留存模型文件和測試結(jié)果,這些數(shù)據(jù)通常會被直接丟棄,仿真運行記錄也不例外。但如今,仿真運行記錄需要為機器學(xué)習(xí)提供支撐,這就導(dǎo)致數(shù)據(jù)量進一步激增,而企業(yè)現(xiàn)有的信息技術(shù)服務(wù)器,原本并未針對海量數(shù)據(jù)存儲進行配置。”
向新型數(shù)據(jù)管理思維轉(zhuǎn)型,還帶來了獨特的組織架構(gòu)挑戰(zhàn)。蘭斯稱:“過去,我們的合作對象主要是工程師、架構(gòu)師、計算機輔助設(shè)計團隊和工程管理人員,而如今,信息技術(shù)團隊、計算機輔助設(shè)計團隊、安全工程師和安全專家都成為了核心合作方。我們甚至發(fā)現(xiàn),面對大型客戶和大型機構(gòu)時,他們還會讓法務(wù)團隊介入,評估特定數(shù)據(jù)的風(fēng)險、制定數(shù)據(jù)分類標(biāo)準(zhǔn),確保受出口管制的信息,不會在機器學(xué)習(xí)模型的訓(xùn)練過程中被利用,尤其是當(dāng)模型需要部署至特定地區(qū)時。這些工作過去由不同團隊在后臺獨立完成,且并非時間敏感型任務(wù),但如今都需要進行專業(yè)評估。參與整體解決方案評估的人員范圍大幅擴大,這無疑讓工作變得更為復(fù)雜。”











評論