專欄中心

EEPW首頁 > 專欄 > 收購Arm，推出80G超級A100：2020年，英偉達還有一招沒出

收購Arm，推出80G超級A100：2020年，英偉達還有一招沒出

發布人：機器之心時間：2020-12-16 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

400 億美元收購 Arm，把業界頂級顯卡性能一次提升 20 倍，市值超越英特爾成為第一大芯片公司……2020 年的科技界大新聞，英偉達一家就占了好幾條。

說起英偉達，很多人都知道這家公司最新推出的消費級顯卡 RTX 3080，以及它一卡難求的火爆景象。實際上，由于 GPU 在高性能計算、AI 等領域的大規模應用，英偉達出品已經成為了很多工作中不可或缺的一部分。

英偉達快速發展的技術，為人們帶來了近乎無窮的算力，也讓其自身業績節節攀升。在過去 20 個季度中，英偉達已有 18 個季度的財務業績超過了華爾街分析師們的預期。

當然不斷的成功并沒有讓英偉達放緩推出新卡的步伐。

今年英偉達發布的新顯卡，幾乎都是由黃仁勛自家烤爐中「出爐」的。

就在自家消費級 GPU RTX 3080 顯卡搶占「最強 AI 計算芯片」的名頭后不久，11 月份英偉達又為旗下的最強 AI 訓練計算卡 A100 系列進行了升級。

回想今年五月份，英偉達在 GTC 大會上發布了 7nm 安培架構（NVIDIA Ampere）的 A100 GPU 產品，其中 40GB，帶寬為 1.6TB/s 的 HBM2 顯存令人印象深刻。11 月 16 日，競爭對手 AMD 帶來了 7nm CDNA 架構的 MI100 加速卡，英偉達繼續出招，推出了 A100 80GB GPU，顯存翻倍，性能大幅提升。

時隔僅半年，英偉達推出的新卡有哪些具體的提升？首先在芯片的計算性能上，A100 80GB 的數據沒有變化，依然采用了基于 7nm 工藝的安培架構，集成 542 億晶體管、6912 個 CUDA 核心、加速頻率 1.41GHz，FP32 性能 19.5TFLOPS，FP64 性能 9.7TFLOPS，INT8 性能 624TOPS，額定功耗 400W。

A100 搭載了英偉達特有的第三代 Tensor Core 人工智能計算單元，對稀疏張量運算進行了特別加速，執行速度提高了一倍，也支持 FP64、 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速。通過全新的 TF32，A100 將上一代 Volta 架構的 AI 吞吐量提高多達 20 倍。

新款 A100 計算卡的主要升級之處在于 HBM2 顯存：從之前的 40GB 直接翻倍達到 80GB，顯存類型升級為更先進的 HBM2e。同時顯存頻率從之前的 2.4Gbps 提升到 3.2Gbps，帶寬也從 1.6TB/s 提升到史無前例的 2TB/s。通過配合英偉達多實例 GPU（MIG）技術，每個實例在訓練時獲得的內存可以增加一倍，單卡最多可提供七個 MIG（每個 10 GB）。

英偉達最新幾代 AI 訓練卡性能的對比，圖片來自 AnandTech。

在 A100 上應用的技術還包括第三代 NVLink 和 NVSwitch 功能，相比上代，它們提供了兩倍的 GPU 到 GPU 帶寬，并將數據密集型工作負載到 GPU 的數據傳輸加速到每秒 600 GB。

通過硬件與軟件的優化提升，A100 80G 可以在大型仿真系統中提供相比六個月前剛剛發布的 A100「標準版」1.8 倍性能的提升。在材料模擬軟件 Quantum Espresso 上，單節點 A100 80GB 也實現了近 2 倍的吞吐量提升。

這使得數據可以快速傳輸到全球最快的數據中心 GPU A100 上，使研究人員能夠更快地加速其應用，處理最大規模的模型和數據集，如類似 GPT-3 這樣的大規模預訓練模型，很大程度上避免了對于數據或模型并行架構的需求。

在深度學習等很多領域中，研究人員對于 AI 算力的需求幾乎是無止境的，據英偉達在今年 5 月的統計，自 2017 年底發布 V100 之后，訓練業界機器學習模型的算力需求增長了 3000 倍。在五月底 Open AI 的 GPT-3 推出以后，這一數字再次被抬高了不少。

機器學習先驅 Richard S. Sutton 在《苦澀的教訓》中曾表示，70 年的人工智能研究史告訴我們，利用計算能力的一般方法最終是最有效的方法。

這種思想獲得了很多人的贊同，也引來了爭議。雖然一直有人認為，找到與人類思考方式類似的因果推理范式才能真正地通往強人工智能，但基于深度學習的方法在近年來已掌握了國際象棋、圍棋，實現了不少人類專家也難以企及的能力。除了前沿探索之外，更多的深度學習應用正在路上。

與此同時，英偉達還發布了「全球唯一」的千萬億次級工作組服務器 NVIDIA DGX Station A100，其配備四塊新款 A100 GPU，具有高達 320GB 的 GPU 內存，輸出算力 2.5 petaflops。在執行 BERT 等大模型時，新一代設備的效率相比過去提高了三倍。

雖然有超算級別的能力，但 DGX Station A100 無需配備數據中心級電源或散熱系統，而且年底即開始供貨。搭載 A100 80GB 的第三方成套系統則預計會在 2021 年上半年出貨。

通過新計算卡和與之配合的架構，英偉達可以向更廣泛的人群輸出以往僅存在于超級計算機的 AI 算力。而說到超級計算機，英偉達也是目前業內的領先者，在 11 月全球超算大會 SC2020 公布的 TOP500 榜單數據來看，近 70％的機器（包括排在前 10 名中的 8 臺）均采用了英偉達技術。

GPU 在高性能計算領域能有如今的覆蓋率，顯然是因為有很大需求：在 SC2020 大會上，有超算界諾貝爾獎美稱的「戈登 · 貝爾獎」頒給了由 UC Berkeley、北京大學、普林斯頓大學組成的研究團隊，他們的研究被認為是當今計算科學中最令人興奮領域的重大進展。

研究團隊引入基于機器學習的分子動力學方法模擬原子運動，每天能夠模擬 1 億原子超過 1 納秒的軌跡。該研究是在美國橡樹嶺國家實驗室的前世界第一超算 Summit 兩萬八千塊英偉達 V100 上完成的。

戈登貝爾獎旨在表彰研究者們在高性能計算方面的成就，入圍者必須證明他們提出的算法可以在世界上最強大的超級計算機上高效運行。中美獲獎團隊開發了一系列高度優化的代碼（GPU Deep MD-Kit）并在 Summit 超算上順利運行，在雙精度下實現了 91 PFLOPS 的速度，在混合單 / 半精度下實現了 162/275 PFLOPS 的速度。

將人工智能算法引入到 HPC 領域，并將邊界拓展至數據中心之外，是高性能計算領域里正在進行的一項重大變革。而在這個過程中，英偉達將會繼續扮演舉足輕重的角色。

今年 5 月份的 GTC 2020 大會上，黃仁勛發布了 7nm 安培架構和 A100；9 月份的 GTC 大會上，又為我們揭曉了「PC 游戲領域自 1999 年以來最大突破」——RTX 30 系列顯卡。

這還沒有完，在今年 12 月，GTC 大會還有一站。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

關鍵詞：