人工智能設(shè)計重塑數(shù)據(jù)管理

作者：時間：2026-03-17 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

人工智能正從工作流程、崗位設(shè)置和獨特的數(shù)據(jù)管理挑戰(zhàn)等方面，深刻影響著半導(dǎo)體設(shè)計領(lǐng)域。

核心要點

將人工智能融入芯片設(shè)計流程，正推動企業(yè)全面革新數(shù)據(jù)管理策略，實現(xiàn)從被動存儲向主動、結(jié)構(gòu)化、機器可讀取系統(tǒng)的轉(zhuǎn)型。
隨著模型訓練與推理工作負載持續(xù)增加，數(shù)據(jù)遷移、網(wǎng)絡(luò)擁塞和能效問題已成為核心挑戰(zhàn)，其重要性往往超越了原始算力本身。
電子設(shè)計自動化（EDA）領(lǐng)域?qū)偾覐?fù)雜的數(shù)據(jù)格式，加之公開數(shù)據(jù)資源有限，導(dǎo)致針對半導(dǎo)體設(shè)計的人工智能模型微調(diào)難度極大，在檢索增強生成（RAG）和模型微調(diào)場景中，需依托大量的數(shù)據(jù)解析工作和專業(yè)領(lǐng)域知識，才能實現(xiàn)數(shù)據(jù)的有效利用。
人工智能正迫使半導(dǎo)體企業(yè)從根本上重新思考數(shù)據(jù)管理模式，將其從一項被動的存儲工作，轉(zhuǎn)變?yōu)橐婚T主動的工程學科。

工程團隊首先必須將分散的日志文件和設(shè)計成果整合至機器可讀取的數(shù)據(jù)湖，通過元數(shù)據(jù)和本體論為其補充信息，并在各類工具間搭建穩(wěn)定的數(shù)據(jù)流管道。為實現(xiàn)這一目標，團隊會借助智能輔助工具、檢索增強生成技術(shù)和微調(diào)模型，而所有操作都需在嚴格的安全規(guī)范和本地部署的約束下完成。隨著數(shù)據(jù)量的持續(xù)增長，企業(yè)不僅需要增設(shè)電子設(shè)計自動化數(shù)據(jù)管理員這一新崗位，還需對數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)質(zhì)量進行持續(xù)投入。

無論工程團隊采用檢索增強生成技術(shù)、訓練模型還是對數(shù)據(jù)進行微調(diào)，若數(shù)據(jù)僅處于閑置狀態(tài)，便毫無實際價值。企業(yè)需要從不同的服務(wù)器集群、設(shè)計工具和項目中收集歷史及現(xiàn)有數(shù)據(jù)，再按項目、流程階段和團隊歸屬完成數(shù)據(jù)的清洗與整理。此外，還需對代碼、文本、圖像、時間序列和二進制等各類格式的數(shù)據(jù)進行解析與分塊處理。

這一系列需求推動團隊采用中心化數(shù)據(jù)湖和向量化數(shù)據(jù)庫，取代臨時的文件共享方式，數(shù)據(jù)管理的核心也逐漸轉(zhuǎn)向機器可讀取性和數(shù)據(jù)檢索效率。這也解釋了為何如今人工智能設(shè)計領(lǐng)域的數(shù)管工作熱度飆升 —— 而就在一年前，行業(yè)的關(guān)注重點還停留在可利用的人工智能工具類型上。

是德科技電子設(shè)計自動化事業(yè)部知識產(chǎn)權(quán)與數(shù)據(jù)管理業(yè)務(wù)總經(jīng)理西蒙?蘭斯表示：“彼時企業(yè)們提出的問題是，‘為了融入并利用人工智能，我們需要在方法論或設(shè)計流程上做出哪些調(diào)整？’他們也在思考如何訓練人工智能模型。如今我看到，企業(yè)們已經(jīng)從單純的思考轉(zhuǎn)向?qū)嶋H落地，過程中卻遭遇了諸多挑戰(zhàn)：數(shù)據(jù)安全如何保障？算力是否充足？人工智能計算的能耗難題該如何解決？人們?nèi)缃褚查_始逐漸了解人工智能幻覺現(xiàn)象及其成因，希望找到緩解或減少該問題的方法。當下行業(yè)的關(guān)注重點大量集中在數(shù)據(jù)安全上，相較于研發(fā)語言模型或研究模型訓練方法，數(shù)據(jù)編排的優(yōu)先級已大幅提升。很多企業(yè)曾想一步到位，但如果基礎(chǔ)工作做不好，后續(xù)處處都會碰壁 —— 如今不少企業(yè)正陷入這樣的困境，某種程度上甚至陷入了停滯。這并非單一問題，而是會引發(fā)一系列連鎖反應(yīng)。”

業(yè)內(nèi)其他人士也持相同觀點。西門子電子設(shè)計自動化事業(yè)部生成式人工智能產(chǎn)品群經(jīng)理尼蘭詹?西塔普雷稱：“分析人工智能設(shè)計對數(shù)據(jù)管理的影響，主要需區(qū)分兩個維度：一是訓練新的人工智能模型、大語言模型或微調(diào)現(xiàn)有模型，這是第一類場景；二是采用檢索增強生成技術(shù)，這類場景無需訓練或微調(diào)模型，卻仍能利用企業(yè)已有數(shù)據(jù)。而對半導(dǎo)體設(shè)計而言，還有尤為重要的第三個維度 —— 前兩類場景中普遍存在的數(shù)據(jù)格式問題。通常來說，ChatGPT-5、谷歌雙子星等大語言模型在文本處理、代碼編寫和圖像生成等多模態(tài)任務(wù)上表現(xiàn)出色，這是因為它們基于互聯(lián)網(wǎng)海量的同類格式知識完成了訓練。但在電子設(shè)計自動化領(lǐng)域，盡管也涉及代碼、文本和部分圖像，情況卻截然不同：我們的代碼具有高度專有性，還存在 SPRF 這類專屬語言，部分電子設(shè)計自動化工具甚至有自己的語法規(guī)則，且這些內(nèi)容均未公開，即便是 GPT-5 或最新的模型，也無法掌握這類信息，這成為一大難題。此外，部分電子設(shè)計自動化數(shù)據(jù)的格式并非機器可讀取，即便包含圖像和表格，也絕非汽車、自然風光這類普通圖像，而是極為復(fù)雜的電路圖。無論是原理圖還是可視化電路圖，當前的人工智能模型都難以準確理解其中的設(shè)計邏輯。”

這一現(xiàn)狀直接影響到模型微調(diào)和檢索增強生成這兩大核心場景。

西塔普雷指出：“在模型微調(diào)方面，現(xiàn)有模型缺乏電子設(shè)計自動化相關(guān)數(shù)據(jù)支撐，因此它們或許能出色編寫 Python 代碼、解答光刻技術(shù)的通用問題，卻無法深入理解電路的底層設(shè)計邏輯。另一大問題是，模型微調(diào)需要海量數(shù)據(jù)，而大量芯片設(shè)計數(shù)據(jù)并不掌握在電子設(shè)計自動化廠商手中，而是由客戶持有，晶圓代工廠也不會將這類數(shù)據(jù)公開。這就形成了一個尷尬的局面：若要對當前最先進的模型進行微調(diào)，企業(yè)既要解決電子設(shè)計自動化文件格式帶來的數(shù)據(jù)解析難題，又要面對公開數(shù)據(jù)資源不足的問題。而在檢索增強生成場景中，舉個例子，當你使用 GPT-5 時，若在一款設(shè)計規(guī)則檢查工具中打開了某個設(shè)計方案，想要弄清設(shè)計中的問題，或是通過日志文件排查錯誤，這類場景下的數(shù)管工作，相較于前兩者會更易操作、流程也更簡潔。”

工程團隊主要通過兩種方式應(yīng)對上述問題。西塔普雷解釋道：“第一種是為全量數(shù)據(jù)配備智能輔助工具，實現(xiàn)與檢索增強生成技術(shù)的結(jié)合。企業(yè)會提出需求：‘請為我們提供人工智能模型，以及配套的基礎(chǔ)設(shè)施，包括檢索增強生成數(shù)據(jù)流管道、便捷的圖形用戶界面，讓我們能夠便捷地進行問題查詢等操作。’本質(zhì)上，這就是電子設(shè)計自動化領(lǐng)域的 ChatGPT。”

他還提到，部分企業(yè)希望擁有自研的微調(diào)人工智能模型，因此會尋求相關(guān)技術(shù)支持：“這些企業(yè)會說，‘我們的數(shù)據(jù)分布在各個節(jié)點，能否協(xié)助我們搭建微調(diào)或訓練管道，實現(xiàn)對不同設(shè)計方案的 SPICE 仿真？如此一來，每次完成仿真后，我們就能通過日志文件或仿真文件獲取耗時、網(wǎng)表規(guī)模、錯誤類型等信息，再搭建一個能理解這些數(shù)據(jù)的本地人工智能 / 機器學習模型。’針對這類客戶的特定設(shè)計需求，該模型可實現(xiàn)精準預(yù)測：例如運行某一網(wǎng)表將耗時多久、占用多少內(nèi)存，或是基于現(xiàn)有數(shù)據(jù)預(yù)估設(shè)計的功耗、性能、面積（PPA）指標。”

目前，電子設(shè)計自動化工具廠商已向用戶開放了相關(guān)技術(shù)。用戶會先搭建自有數(shù)據(jù)湖，將標準操作流程、操作手冊、設(shè)計方案等各類信息盡可能地進行中心化整合，并處理為機器可讀取格式；隨后可提出需求，將這些數(shù)據(jù)遷移至電子設(shè)計自動化廠商的人工智能服務(wù)基礎(chǔ)設(shè)施中。整個過程中，數(shù)據(jù)始終保持本地部署且完全物理隔離，在保障數(shù)據(jù)安全的同時，也能精準匹配用戶的實際業(yè)務(wù)需求。

換言之，人工智能芯片與系統(tǒng)設(shè)計正推動數(shù)據(jù)管理實現(xiàn)轉(zhuǎn)型：從孤立的、基于文件的結(jié)果存儲，升級為云原生的大數(shù)據(jù)基礎(chǔ)設(shè)施。這一新型基礎(chǔ)設(shè)施可承載跨物理場的只讀存儲器（ROM）和大型物理模型，減少高成本的數(shù)據(jù)遷移操作，并最終將設(shè)計階段和運行階段的數(shù)據(jù)整合至統(tǒng)一的、可擴展的系統(tǒng)中。

已有企業(yè)將大數(shù)據(jù)技術(shù)應(yīng)用于芯片設(shè)計，搭建了專屬的數(shù)據(jù)基礎(chǔ)設(shè)施。2015 年被安世科收購、如今成為新思科技旗下 Seascape 數(shù)據(jù)庫的吉爾設(shè)計解決方案公司，就是其中的代表。新思科技產(chǎn)品營銷總監(jiān)馬克?斯溫寧表示：“我們對多款工具進行了重寫，使其能基于 Seascape 基礎(chǔ)設(shè)施運行；借助 MapReduce 等大數(shù)據(jù)技術(shù)，部分工具已實現(xiàn)原生云部署。在電子設(shè)計自動化領(lǐng)域，傳統(tǒng)模式是先開發(fā)數(shù)據(jù)庫或工具，再思考‘如何將其部署至云端’，而吉爾設(shè)計解決方案公司創(chuàng)始人約翰?李則反其道而行之 —— 秉持云原生優(yōu)先的理念，再讓算法適配云端環(huán)境。例如，你可以讓一款工具定位電壓降位置，讓另一款工具獲取電流數(shù)據(jù)，再要求兩款工具完成數(shù)據(jù)疊加。當兩款工具均基于 Seascape 運行時，就能通過 MapReduce 方法完成數(shù)據(jù)排序、關(guān)聯(lián)與疊加，實現(xiàn)傳統(tǒng)系統(tǒng)無法做到的海量數(shù)據(jù)融合與聯(lián)合分析。”

工程數(shù)據(jù)具備極高價值，但直至近期，其管理仍面臨高風險、低規(guī)范的問題。芯片智能體公司首席執(zhí)行官威廉?王表示：“寄存器傳輸級代碼（RTL）、設(shè)計規(guī)格、波形圖、日志文件和工程變更指令（ECO）歷史記錄等數(shù)據(jù)，具有高度的敏感性，且分布零散、難以審計。當前的行業(yè)瓶頸并非模型質(zhì)量，而是數(shù)據(jù)質(zhì)量 —— 無論模型規(guī)模多大，錯誤的上下文信息都會導(dǎo)致智能體輸出無效結(jié)果。這意味著，數(shù)據(jù)的安全性和溯源性比規(guī)模更重要。用戶關(guān)注的并非大數(shù)據(jù)本身，而是數(shù)據(jù)的來源、訪問權(quán)限和處理模型。”

為解決數(shù)據(jù)質(zhì)量、安全和溯源問題，威廉?王指出，嵌入工作流程的數(shù)管治理模式已落地并取得良好效果 —— 數(shù)據(jù)管理必須融入工程工作流程，而非獨立于外部平臺。“鑒于設(shè)計規(guī)格、寄存器傳輸級模塊、波形圖等每一項設(shè)計成果都需要明確歸屬、溯源路徑和訪問權(quán)限，數(shù)據(jù)的溯源性和訪問控制必須成為默認配置。如今也可通過智能體實現(xiàn)數(shù)據(jù)的中介訪問，由智能體自動執(zhí)行訪問權(quán)限管控，明確不同主體的查看范圍和安全使用邊界。”

這一切的實現(xiàn)，都依賴于對數(shù)據(jù)進行有效組織的能力，而隨著數(shù)據(jù)量的持續(xù)增長，這一工作的難度也不斷加大。弗勞恩霍夫應(yīng)用固體物理研究所 / 電子與系統(tǒng)工程研究所研究員馬丁?諾伊曼 - 基平表示：“如今談及人工智能，我們必須摒棄‘單靠大數(shù)據(jù)就能解決問題’的觀念，大數(shù)據(jù)的熱潮已開始消退，單純收集海量數(shù)據(jù)不再是制勝法寶。我們真正需要的是可解析數(shù)據(jù)—— 即描述清晰、關(guān)聯(lián)緊密、置于正確上下文環(huán)境中的數(shù)據(jù)。多數(shù)企業(yè)的問題并非數(shù)據(jù)不足，而是數(shù)據(jù)被孤立在各個‘信息孤島’中：質(zhì)量數(shù)據(jù)僅質(zhì)量保證團隊可見，生產(chǎn)數(shù)據(jù)僅生產(chǎn)部門可接觸，文檔資料僅工程團隊能訪問，諸如此類。這些孤島數(shù)據(jù)本身具備價值，但真正的潛力在于將其關(guān)聯(lián)整合，從整體視角看待生產(chǎn)系統(tǒng) —— 唯有如此，才能搭建起真正的企業(yè)系統(tǒng)知識庫。”

對于生成式人工智能在內(nèi)的優(yōu)質(zhì)人工智能解決方案而言，僅僅 “擁有數(shù)據(jù)” 遠遠不夠。諾伊曼 - 基平稱：“必須精準掌握數(shù)據(jù)的實際含義，為數(shù)據(jù)添加語義描述、構(gòu)建本體論體系，并建立統(tǒng)一的數(shù)據(jù)語言。這也是我們研究知識圖譜、在現(xiàn)有系統(tǒng)之上搭建智能數(shù)據(jù)層的原因。企業(yè)當前的數(shù)據(jù)管理系統(tǒng)可作為良好基礎(chǔ)，但需要通過語義層實現(xiàn)跨數(shù)據(jù)源的信息關(guān)聯(lián)。一旦完成這一搭建，就能在其基礎(chǔ)上開發(fā)更強大的人工智能應(yīng)用，包括智能體系統(tǒng)。因此，人工智能時代的數(shù)管工作并非一個獨立議題，而是發(fā)展人工智能的先決條件。若不在數(shù)據(jù)的描述、結(jié)構(gòu)化和關(guān)聯(lián)整合上投入精力，企業(yè)的人工智能應(yīng)用將始終局限于狹隘的、局部的優(yōu)化；而若將數(shù)據(jù)視為全系統(tǒng)數(shù)字孿生的一部分，就能實現(xiàn)對整個業(yè)務(wù)流程的優(yōu)化，而非僅針對單個環(huán)節(jié)。這正是我眼中人工智能在工業(yè)領(lǐng)域的真正長期價值所在。”

崗位新需求：電子設(shè)計自動化數(shù)據(jù)管理員

幾年前，英偉達首席執(zhí)行官黃仁勛曾預(yù)言，未來工程師將成為人工智能智能體的管理者。與此相契合，電子設(shè)計自動化數(shù)據(jù)管理員這一崗位的需求正持續(xù)增長，其核心職責是確保數(shù)據(jù)格式標準化、搭配規(guī)范的元數(shù)據(jù)、存儲于指定目錄、配置合理的訪問權(quán)限等。

西門子的西塔普雷表示：“我們需要為特定項目匹配精準的數(shù)據(jù)，搭配規(guī)范的元數(shù)據(jù)和合理的訪問控制，建立清晰的信息關(guān)聯(lián)，以及基于本體論的知識圖譜以明確數(shù)據(jù)溯源。這一崗位的重要性與日俱增，盡管它處于設(shè)計流程的后端，看似并非核心崗位，實則是奠定行業(yè)發(fā)展基礎(chǔ)的關(guān)鍵崗位。企業(yè)需要專人負責這項工作，并進行大量投入。從企業(yè)級人工智能的視角來看 —— 不僅是電子設(shè)計自動化領(lǐng)域，而是全行業(yè) —— 都需要持續(xù)加大對數(shù)據(jù)管理結(jié)構(gòu)化的投入，因為若忽視這一點，最終只會陷入‘垃圾進，垃圾出’的困境。”

企業(yè)的數(shù)據(jù)往往高度分散，規(guī)模較大的企業(yè)或有并購、被并購經(jīng)歷的企業(yè)，這一問題更為突出。是德科技的蘭斯稱：“這些企業(yè)的數(shù)據(jù)分散在各類數(shù)據(jù)管理系統(tǒng)中，部分團隊甚至未使用專業(yè)數(shù)管系統(tǒng)，而是借助康 fluence、SharePoint 文件服務(wù)器等工具，導(dǎo)致數(shù)據(jù)缺乏索引、編目和版本控制。企業(yè)內(nèi)部其他部門則可能使用完全不同的系統(tǒng)，數(shù)據(jù)存儲在另一處。當企業(yè)內(nèi)遍布這些孤立的數(shù)據(jù)碎片時，問題便接踵而至：若繼續(xù)放任數(shù)據(jù)分散，人工智能應(yīng)用將面臨延遲問題，數(shù)據(jù)也可能出現(xiàn)重復(fù)存儲的情況。而數(shù)據(jù)質(zhì)量、存儲位置、可訪問性，以及快速獲取、讀取、利用、編排數(shù)據(jù)并推進后續(xù)任務(wù)的算力和系統(tǒng)能力，都會引發(fā)人工智能幻覺現(xiàn)象，這一系列問題還會產(chǎn)生連鎖反應(yīng)。事實上，數(shù)據(jù)查找困難和數(shù)據(jù)質(zhì)量低下，是諸多問題的根源。過去，企業(yè)常說：‘我們知道各處都有數(shù)據(jù)，卻沒有數(shù)據(jù)工程師來做數(shù)據(jù)整理工作。’這是最大的挑戰(zhàn) —— 彼時行業(yè)內(nèi)甚至沒有對應(yīng)的崗位設(shè)置。而如今，企業(yè)不僅需要增設(shè)相關(guān)崗位，還需組建數(shù)據(jù)治理團隊，負責制定數(shù)據(jù)結(jié)構(gòu)化方案、明確數(shù)據(jù)存儲位置、確立數(shù)據(jù)的單一可信來源、搭建數(shù)據(jù)訪問和加密的安全體系，防止數(shù)據(jù)泄露，同時明確數(shù)據(jù)的運行硬件環(huán)境。”

過去，大量數(shù)據(jù)管理工作和數(shù)據(jù)系統(tǒng)都運行在通用服務(wù)器或工作站上。但要真正發(fā)揮模型訓練、推理和工作流編排的價值，數(shù)據(jù)必須部署在高性能計算機上，才能實現(xiàn)數(shù)據(jù)的快速訪問、處理和回寫，并及時獲取運算結(jié)果。蘭斯表示：“底層還存在信息技術(shù)和基礎(chǔ)設(shè)施的問題，而這些問題在過去并未凸顯。如今，隨著行業(yè)高度關(guān)注模型的研發(fā)與管理，企業(yè)才意識到，他們甚至無法推進后續(xù)工作 —— 因為必須先完成數(shù)據(jù)整理，優(yōu)化數(shù)據(jù)存儲、算力資源和數(shù)據(jù)安全體系。即便打好了這些基礎(chǔ)，企業(yè)還將面臨確立數(shù)據(jù)單一可信來源的新挑戰(zhàn)。此外，如何為設(shè)計流程中從未有過的數(shù)據(jù)類型進行補充，也是一大難題。過去，設(shè)計流程中僅有測試數(shù)據(jù)、設(shè)計數(shù)據(jù)、驗證數(shù)據(jù)、文檔和規(guī)格說明，從未留存模型文件和測試結(jié)果，這些數(shù)據(jù)通常會被直接丟棄，仿真運行記錄也不例外。但如今，仿真運行記錄需要為機器學習提供支撐，這就導(dǎo)致數(shù)據(jù)量進一步激增，而企業(yè)現(xiàn)有的信息技術(shù)服務(wù)器，原本并未針對海量數(shù)據(jù)存儲進行配置。”

向新型數(shù)據(jù)管理思維轉(zhuǎn)型，還帶來了獨特的組織架構(gòu)挑戰(zhàn)。蘭斯稱：“過去，我們的合作對象主要是工程師、架構(gòu)師、計算機輔助設(shè)計團隊和工程管理人員，而如今，信息技術(shù)團隊、計算機輔助設(shè)計團隊、安全工程師和安全專家都成為了核心合作方。我們甚至發(fā)現(xiàn)，面對大型客戶和大型機構(gòu)時，他們還會讓法務(wù)團隊介入，評估特定數(shù)據(jù)的風險、制定數(shù)據(jù)分類標準，確保受出口管制的信息，不會在機器學習模型的訓練過程中被利用，尤其是當模型需要部署至特定地區(qū)時。這些工作過去由不同團隊在后臺獨立完成，且并非時間敏感型任務(wù)，但如今都需要進行專業(yè)評估。參與整體解決方案評估的人員范圍大幅擴大，這無疑讓工作變得更為復(fù)雜。”

久久ER99热精品一区二区-久久精品99国产精品日本-久久精品免费一区二区三区-久久综合九色综合欧美狠狠

新聞中心

人工智能設(shè)計重塑數(shù)據(jù)管理

評論

相關(guān)推薦

技術(shù)專區(qū)