邊緣 AI 架構如何跟上模型迭代

作者：時間：2026-04-24 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

核心要點

AI 模型迭代速度已超越芯片設計周期，邊緣 AI 架構必須優(yōu)先考慮可適配性。
模型更新節(jié)奏高度依賴具體應用，與產(chǎn)品生命周期、運行風險緊密相關。
可適配性常與功耗、性能、面積（PPA）目標沖突，高效的異構架構與完善的軟件 / 編譯器工具鏈至關重要。

圓桌訪談：邊緣 AI 架構如何跟上模型迭代

如今的芯片架構師在設計 AI 處理器時，必須在 AI 模型快速迭代的背景下，兼顧高性能與高效率。邀請多位行業(yè)專家展開討論，以下為訪談精華。

受訪嘉賓

Ronan Naughton：Arm 邊緣 AI 產(chǎn)品管理總監(jiān)
Amol Borkar、Jason Lawley：Cadence Tensilica DSP/AI IP 產(chǎn)品管理高管
Sharad Chole：Expedera 首席科學家兼聯(lián)合創(chuàng)始人
Justin Endo：Silvaco 旗下 Mixel 營銷總監(jiān)
Steve Roddy：Quadric 首席營銷官
Steven Woo：Rambus 院士、杰出發(fā)明家
Sathishkumar Balasubramanian：西門子 EDA IC 驗證與 EDA AI 產(chǎn)品負責人
Gordon Cooper：新思科技（Synopsys）首席產(chǎn)品經(jīng)理

一、模型迭代有多快？不同場景差異巨大

SE：AI 模型移植是邊緣 AI 處理器設計的關鍵。目標模型更新頻率如何？芯片 / IP 廠商需要多快響應？是否因終端市場而異？

Steve Roddy（Quadric）部分領域模型迭代正在加速，例如汽車、機器人領域，正從獨立模型串聯(lián)轉向世界模型，如視覺 - 語言 - 動作（VLA）模型，融合視覺、語言與控制能力。

傳統(tǒng)視覺處理：計算密集，小模型 + 海量像素，看重 MAC 算力密度。
語言模型：權重流式傳輸，看重通用計算能力。
產(chǎn)品生命周期決定更新需求：

一次性消費設備（如百元門鈴攝像頭）：幾年不更新固件，模型基本不變。
長壽命設備（交通攝像頭、汽車，壽命 10–20 年）：模型必須持續(xù)迭代。如今多數(shù)應用在產(chǎn)品上市前模型就已變更，靈活性比三年前重要得多。

Steven Woo（Rambus）新模型與優(yōu)化方案推出極快，硬件廠商無法逐個追趕。客戶期望快速支持更高處理速度、更大內(nèi)存帶寬，并在主流模型家族上提供一定專用化能力。消費與視覺類邊緣設備響應窗口短，安全關鍵市場則優(yōu)先保障安全性。

Ronan Naughton（Arm）Arm 主張異構 AI，AI 算力可分布在整個 SoC 甚至跨設備。

智能眼鏡 + 手機：眼鏡側重語音、視覺等特定負載；手機算力更強、負載多變。
不同設備模型更新頻率差異顯著，移動設備需完全可編程以應對未知負載。

Sathishkumar Balasubramanian（西門子 EDA）模型更新頻率完全取決于應用：

工廠自動化：環(huán)境穩(wěn)定，模型更新少。
汽車應用：場景開放、任務關鍵，需實時或盡快更新。工業(yè)場景即便更新頻率低，也需預留異常情況下的模型修改機制。

Gordon Cooper（新思科技）芯片設計 + 產(chǎn)品化需約 2 年，市場壽命 5–10 年，期間模型必然變化，IP 必須內(nèi)置靈活性。CNN 歷經(jīng) 10 年演進，如今大模型正向小語言模型（SLM）收斂，架構需持續(xù)適配。同時要在可編程性與極致 PPA間做權衡。

Amol Borkar（Cadence）模型幾乎每時每刻都在變，Hugging Face 等平臺頻繁推出 SLM、VLM、多模態(tài)模型變體。行業(yè)正全面 AI 化，嵌入式領域面臨兩大挑戰(zhàn)：

硬件：無萬能方案，需 NPU+DSP+CPU 等異構子系統(tǒng)提供靈活性；硬化架構（如 NPU）性能功耗最優(yōu)，但遇新算子易失效。
軟件：編譯器需高效映射硬件，對不支持算子提供仿真等兜底方案；客戶關注不同計算單元的負載分配與端到端流程通暢。

Sharad Chole（Expedera）模型更新速度取決于 NPU 在 pipeline 中的位置：

靠近傳感器（如降噪）：與傳感器強綁定，變更少。
靠近應用（控制、人機交互）：需支持新量化、結構優(yōu)化等技術。難點不在于支持新模型，而在于高性能支持，硬件約束與模型演進始終存在追趕博弈。

Jason Lawley（Cadence）客戶最重視私有模型，編譯器必須能高效編譯未公開網(wǎng)絡。跟上算子與網(wǎng)絡演進極具挑戰(zhàn)與成本，IP 廠商可通過多客戶分攤軟件成本，比自研加速器更具優(yōu)勢。

Steve Roddy（Quadric）下游 OEM 不愿依賴多層供應商完成模型移植。工具鏈必須可靠，讓車企數(shù)據(jù)科學家能直接將新算法高效部署到硬件，IP 廠商不能成為模型迭代的瓶頸。

二、智能體 AI（Agentic AI）帶來哪些 workload 變革

SE：智能體 AI 熱潮如何改變邊緣負載類型與頻率？

Sathishkumar Balasubramanian（西門子 EDA）智能體 AI 領域正大量實驗浮點精度取舍，以平衡精度與內(nèi)存利用。邊緣 AI 需應對更多編排與未知性，IP 需靈活適配浮點位寬等基礎變更。

Ronan Naughton（Arm）智能體 AI 分兩類：

云端智能體：通過 API 調(diào)用云端 LLM 等能力。
本地 / 私有智能體：模型運行在終端或家庭設備，保護隱私。編排器與智能體模型（Llama、Claude、ChatGPT 等）更新極快，Arm CPU 常用于任務拆解與分發(fā)。

Steve Roddy（Quadric）智能體 AI 使推理需求量級躍升：從人工觸發(fā)變?yōu)?7×24 小時自主運行（如設備實時監(jiān)控）。

工廠等場景無法承擔海量云端 Token 費用，必須本地閉環(huán)。
邊緣需更強算力、更大內(nèi)存，僅在異常時回傳云端，推動邊緣硬件升級。

Steven Woo（Rambus）智能體 AI 帶來更長生命周期、更深上下文的負載，硬件關注點從短期瞬時任務轉向持續(xù)效率、數(shù)據(jù)移動、可靠性與功耗管理。多智能體交互放大負載，內(nèi)存容量與帶寬需求激增，推動更高效計算與內(nèi)存分層設計。

Sharad Chole（Expedera）智能體 AI 的 Token 規(guī)模極大，系統(tǒng)提示可達數(shù)萬 Token。提示工程比微調(diào)更有效，大任務帶來海量輸入 / 輸出 Token。邊緣難以運行重型智能體，需明確哪些輕量智能體適合邊緣，兼顧隱私與時延要求。

Gordon Cooper（新思科技）從 NPU 視角看，智能體 AI 是系統(tǒng)級問題：既要做好感知類 AI，也要支撐 LLM、VLA 等存儲 / 計算密集型任務。客戶更關注每秒 Token 數(shù)、特定模型運行效果，而非 NPU 直接運行智能體 AI。

Jason Lawley（Cadence）邊緣智能體 AI 的應用形態(tài)仍在探索中，最終回歸三大核心：