NVIDIA GTC 2024:黃仁勳宣布Blackwell GPU,開啟AI運算新時代
3月18日,NVIDIA在矽谷舉辦了年度GPU技術大會(GTC)。NVIDIA創辦人暨執行長黃仁勳在主題演講中,正式宣布了新一代GPU架構Blackwell,並發表了基於該架構的旗艦產品B200 GPU。Blackwell不僅為NVIDIA帶來了巨大的效能躍升,黃仁勳更認為,該產品將會帶領整個運算產業邁入一個嶄新的時代。
B200 GPU: 驚人的效能躍升
作為Blackwell架構的首發產品,B200 GPU集眾多效能創新於一身,其晶片整合高達2080億顆電晶體,是前代產品H100的2.5倍,可提供每秒20 petaflops的FP4浮點運算能力,更比H100 GPU提升30倍之多。當結合Grace CPU組成GB200超級晶片時,其大型語言模型(LLM)推論效能更可達單一GPU的30倍,而成本與耗電則較H100降低25倍。
對於AI訓練來說,B200的效率提升同樣驚人,以訓練1.8兆參數的超大模型為例,所需的GPU數量從8000顆H100減少到2000顆B200,耗電也從15百萬瓦驟降至4百萬瓦。這意味著Blackwell不僅大幅降低了建置高效能AI系統的硬體門檻,能源效率有著極為驚人的提升。
全新架構可加速大規模GPU部署
Blackwell在架構上有多項重大突破,不僅配備第二代Transformer引擎,可透過每個神經元使用4-bit運算取代8-bit,在運算、頻寬、模型大小等方面也實現效能翻倍。此外,全新的NVLink交換器可支援多達576顆GPU的互連,提供1.8 TB/s的雙向頻寬,而專用的網路交換晶片也有高達500億顆電晶體和3.6 teraflops的FP8運算能力。
得益於這些創新,基於B200的系統可以無縫擴展到數萬顆GPU的規模。NVIDIA已推出了GB200 NVL72參考設計,可在單一機架中整合36顆CPU與72顆GPU,提供720 petaflops的AI訓練算力或1.4 exaflops的推理能力,足以支援高達27兆參數的超大語言模型運作。
軟體生態加持,推動產業普及
除了硬體創新,NVIDIA在軟體生態上的積累也讓Blackwell如虎添翼。NVIDIA正在將預訓練的AI模型及其應用打包,並透過NVIDIA Inference Microservices (NIMS)簡化在Kubernetes(K8s)容器中的部署。使用者可以輕鬆的將這些模型下載到資料中心,NVIDIA也提供諮詢服務幫助企業進行微調與客製化。
多年來,NVIDIA與學術界和產業界保持廣泛而深入的合作。來自高效能運算、醫療、生命科學、金融、製造等各行各業的頂尖機構,都在GTC現身說法,展示出基於NVIDIA平台所取得的成果。可以預見,隨著Blackwell的問世,這個生態系勢必會進一步蓬勃發展,讓AI的成果惠及到更多的領域。
人形機器人的未來想像
除了在傳統的AI運算領域大展身手,NVIDIA也在GTC上帶領與會者一窺機器人技術的未來藍圖。黃仁勋表示,NVIDIA正在為人形機器人研發名為Jetson Thor的新一代邊緣運算模組,以及名為GR00T的專用軟體框架。由於是為人類設計,因此讓機器人擁有近似人類的外型和運動能力,這將有助於機器人適應人類的工作和生活環境,擔負起更多元化的任務。
從黃仁勳在GTC上的發言可以看出,NVIDIA正試圖將自身定位於一切科學和技術革新的交會點。Blackwell推出的當下,除展示其GPU運算能力的一次跨越式發展外,也同步推動相關平台、軟體、生態、場景的落實,確保其領先優勢。
雖然對NVIDIA而言,其雲端應用尤其是訓練工作的優勢仍將延續,但AI晶片的競爭已經從雲端走向終端,英特爾(Intel)、超微半導體(AMD)、谷歌(Google)、Meta甚至特斯拉(Tesla)等巨頭無不針對AI晶片領域虎視眈眈;另一方面,AI商業化尚處於起步階段,尋找殺手級應用仍然任重道遠。
照片來源:NVIDIA