老黃手捧ChatGPT專用「核彈」炸場,英偉達(dá)H100至尊版速度提10倍
GTC 大會上,老黃石破天驚地祭出了專為 ChatGPT 打造的 H100 NVLINK,并放出豪言,稱英偉達(dá)就是行業(yè)內(nèi)的臺積電。
英偉達(dá),贏麻了!
剛剛結(jié)束的 GTC 大會上,靠著滿屏的「生成式 AI」,手握一塊支撐 ChatGPT 算力、提速 10 倍的 H100 NVLINK 芯片,老黃就差把這幾個字寫在臉上 ——「我是贏家」。
ChatGPT,Microsoft 365,Azure,Stable Diffusion,DALL-E,Midjourney…… 所有這些時下最紅最爆的 AI 產(chǎn)品,英偉達(dá)全都能從中分得一杯羹。
今年初 ChatGPT 在全球的爆火,讓英偉達(dá)股價飆升,市值直接增加 700 多億美元。目前,英偉達(dá)市值為 6400 億美元。
而如今,AI 的 iPhone 時刻已經(jīng)到來,第四次科技革命就要開啟,而手握 A100 和 H100 的英偉達(dá),或成最大贏家。
在 GTC 大會上,老黃宣布了英偉達(dá)在 GPU、加速庫、計算光刻、云平臺上的亮眼進(jìn)步,更是放出豪言 —— 英偉達(dá)就是要做 AI 圈的臺積電!
現(xiàn)在已經(jīng)有人猜測,今天的演講都是在 H100 上用 AIGC 模型生成的。
ChatGPT 專用 GPU 已來
這次大會上最重磅的發(fā)布,就是針對 ChatGPT 打造的 NVIDIA H100 NVLINK。
因為算力需求巨大,針對 ChatGPT 等 LLM 的推理,英偉達(dá)推出了新款 Hopper GPU,配備雙 GPU NVLINK 的 PCIE H100,具有 94B 內(nèi)存。
事實上,深度學(xué)習(xí)的歷史從 2012 年之后,就一直與英偉達(dá)息息相關(guān)。
老黃表示,2012 年深度學(xué)習(xí)元老 Hinton 和學(xué)生 Alex Kerchevsky、Ilya Suskever 在訓(xùn)練 AlexNet 時,用的正是 GeForce GTX 580。
隨后,AlexNet 一舉奪得 ImageNet 圖像分類競賽冠軍,成為了深度學(xué)習(xí)大爆炸的奇點。
而時隔 10 年,在 OpenAI 的 Ilya Suskever 也是用著英偉達(dá)的 DGX,訓(xùn)練出了 ChatGPT 背后的 GPT3,及 GPT3.5。
老黃自豪地說,目前在云上唯一可以實際處理 ChatGPT 的 GPU,就是 HGX A100。
但與 A100 相比,一臺搭載四對 H100 和雙 GPU NVLINK 的服務(wù)器速度還要快上 10 倍!因為 H100 可以將 LLM 的處理成本降低一個數(shù)量級。
隨著生成式 AI 掀起一波機(jī)遇浪潮,AI 正處于轉(zhuǎn)折點,使得推理工作負(fù)載呈階梯函數(shù)式增長。
在以前,設(shè)計一個云數(shù)據(jù)中心來處理生成式 AI,是巨大的挑戰(zhàn)。
一方面,理想情況下最好使用一種加速器,使數(shù)據(jù)中心具有彈性;但另一方面,沒有一個加速器能以最優(yōu)的方式處理在算法、模型、數(shù)據(jù)類型和大小方面的多樣性。英偉達(dá)的 One Architecture 平臺就兼具加速功能和彈性。
而今天,英偉達(dá)宣布,推出全新的推理平臺。每種配置都對某類工作負(fù)載進(jìn)行了優(yōu)化。
比如針對 AI 視頻工作負(fù)載,英偉達(dá)就推出了 L4,在視頻解碼和轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話功能上做了優(yōu)化。
而一臺 8-GPU L4 服務(wù)器,將取代一百多臺用于處理 AI 視頻的雙插槽 CPU 服務(wù)器。
同時,英偉達(dá)還針對 Omniverse、圖形渲染以及文本轉(zhuǎn)圖像 / 視頻等生成式 AI 推出了 L40。其性能是英偉達(dá)最受歡迎的云推理 GPU T4 的 10 倍。
當(dāng)前,Runway 推出的 Gen-1,以及 Gen-2 生成式 AI 模型擁有的強大能力便是借助了英偉達(dá)的 GPU。
另外,英偉達(dá)還推出了全新的超級芯片 Grace-Hopper,適用于推薦系統(tǒng)和向量數(shù)據(jù)庫。
挑戰(zhàn)芯片極限破,計算光刻提速 40 倍
在芯片領(lǐng)域,英偉達(dá)聯(lián)合臺積電、ASML 和 Synopsys,歷時 4 年終于完成了計算光刻技術(shù)的一項重大突破 ——NVIDIA cuLitho 計算光刻庫。
在到達(dá) 2nm 制程的極限后,光刻就是突破點。
計算光刻模擬了光通過光學(xué)元件后與光刻膠相互作用時的行為,通過應(yīng)用逆物理算法,我們可以預(yù)測掩膜板上的圖案,以便在晶圓上生成最終圖案。
在芯片設(shè)計和制造領(lǐng)域中,計算光刻是最大的計算工作負(fù)載,每年都要消耗數(shù)百億 CPU 小時。相比之下,英偉達(dá)創(chuàng)造的這個新算法,可以讓日益復(fù)雜的計算光刻工作流程能夠在 GPU 上并行執(zhí)行。
總結(jié)來說,cuLitho 不僅能使計算速度提升 40 倍,而且功耗也可以降低 9 倍之多。
舉個例子,英偉達(dá)的 H100 需要 89 塊掩膜板。
如果用 CPU 進(jìn)行處理的話,每個掩膜板都需要消耗兩周的時間。而如果在 GPU 上運行 cuLitho,則只需 8 個小時即可處理完一個掩膜板。
而臺積電也可以用 500 個 DGX H100 系統(tǒng)中的 4,000 個 Hopper GPU,完成之前需要多達(dá) 40,000 臺基于 CPU 的服務(wù)器才能搞定的工作,并且功率也會從 35MW 降至 5MW。
值得注意的是,cuLitho 加速庫與 Ampere 和 Volta 架構(gòu)的 GPU 也是兼容的,不過 Hopper 是最快的解決方案。
老黃表示,由于光刻技術(shù)已經(jīng)處于物理學(xué)的極限,晶圓廠能夠提高產(chǎn)量,為 2nm 及以后的發(fā)展做好準(zhǔn)備。
AI 的 iPhone 時刻
這幾個月,ChatGPT 以摧枯拉朽之勢,眼看就要掀起第四次科技革命?!肝覀冋幱?AI 的 iPhone 時刻」這個說法,也隨之廣泛流傳開。
在 GTC 大會上,老黃也是激動地把這句話重復(fù)了三遍。
iPhone 時刻來臨,初創(chuàng)公司如 OpenAI 在競相構(gòu)建顛覆性的產(chǎn)品和商業(yè)模式,而谷歌、微軟這樣的老牌公司,則在尋求著應(yīng)對之法。
它們的種種舉動,都是由生成式 AI 在全球引發(fā)的制定 AI 戰(zhàn)略的緊迫感。
英偉達(dá)加速計算始于 DGX AI 超級計算機(jī),這也是當(dāng)前大型語言模型實現(xiàn)突破的背后引擎。
GTC 上,老黃自豪地表示,是我親手將全球首款 DGX 交給了 OpenAI。
從那之后,「財富」100 強企業(yè)中,其中有一半都安裝了 DGXAI 超級計算機(jī)。
DGX 配有 8 個 H100 GPU 模組,同時 H100 配有 Transformer 引擎,能夠處理 ChatGPT 這樣令人驚嘆的模型。
8 個 H100 模組通過 NVLINK Switch 彼此相連,實現(xiàn)了全面無阻塞通信。8 個 H100 協(xié)同工作,就像是一個巨型的 GPU。
讓老黃倍感激動的是,微軟宣布 Azure 將向其 H100 AI 超級計算機(jī)開放私人預(yù)覽版。
并稱,「DGX 超計算機(jī)是現(xiàn)代 AI 工廠。我們正處于 AI 的 iPhone 時刻。」
一手帶出 ChatGPT
過去十年,加速和縱向擴(kuò)展結(jié)合使各種應(yīng)用實現(xiàn)百萬倍性能提升。
令人印象最深刻的例子,便是 2012 年,AlexNet 深度學(xué)習(xí)框架的提出。
當(dāng)時,Alex Krizhevsky、Ilya Suskever,以及 Hinton 在 GeForce GTX 580 上使用了 1400 萬張圖完成了訓(xùn)練,可處理 262 千萬億次浮點運算。
十年后,Transformer 面世。
Ilya Suskever 訓(xùn)練了 GPT-3 來預(yù)測下一個單詞,需要進(jìn)行的浮點運算比訓(xùn)練 AlexNet 模型要多一百萬倍。
由此,創(chuàng)造出了令全世界震驚的 AI——ChatGPT。
用老黃的一句話總結(jié):
這意味著嶄新的計算平臺已經(jīng)誕生,AI 的「iPhone 時刻」已經(jīng)到來。加速計算和 AI 技術(shù)已經(jīng)走進(jìn)現(xiàn)實。
加速庫是加速計算的核心。這些加速庫連接了各種應(yīng)用,進(jìn)而再連接到各行各業(yè),形成了網(wǎng)絡(luò)中的網(wǎng)絡(luò)。
經(jīng)過 30 年的開發(fā),目前已經(jīng)有數(shù)千款應(yīng)用被英偉達(dá)的庫加速,幾乎涉及科學(xué)和工業(yè)的每個領(lǐng)域。
目前,所有的英偉達(dá) GPU 都兼容 CUDA。
現(xiàn)有的 300 個加速庫和 400 個 AI 模型覆蓋了量子計算、數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等廣泛的領(lǐng)域。
這次 GTC 大會,英偉達(dá)宣布更新了其中的 100 個。
英偉達(dá) Quantum 平臺由庫和系統(tǒng)組成,可供研究人員推進(jìn)量子編程模型、系統(tǒng)架構(gòu)和算法。
cuQuantum 是用于量子電路仿真的加速庫,其中 IBM、Baidu 等公司已經(jīng)將這一加速庫集成到他們的仿真框架中。
Open Quantum CUDA 是英偉達(dá)的混合 GPU-Quantum 編程模型。
英偉達(dá)還宣布推出一個量子控制鏈路,這是與 Quantum Machines 合作開發(fā)的。它可以將英偉達(dá) GPU 連接到量子計算機(jī),以極快的速度進(jìn)行糾錯。
還有 RAFT 新庫推出,用于加速索引、數(shù)據(jù)加載和近鄰搜索。
此外,英偉達(dá)還宣布了 DGX Quantum,用 DGX 構(gòu)建,并利用最新開源的 CUDA Quantum,這個新平臺為從事量子計算的研究人員提供了一個革命性的高性能和低延遲的架構(gòu)。
英偉達(dá)還推出了 NVIDIA Triton Management Service 軟件,可在整個數(shù)據(jù)中心自動擴(kuò)展和編排 Triton 推理實例。適用于像 GPT-3 大語言模型的多 GPU、多節(jié)點推理。
用于計算機(jī)視覺的 CV-CUDA 和用于視頻處理的 VPF 是英偉達(dá)新的云規(guī)模加速庫。
老黃宣布 CV-CUDA Beta 優(yōu)化了預(yù)處理和后處理,實現(xiàn)了更高的云吞吐量,將成本和能耗減少了四分之一。
目前,微軟處理視覺搜索、Runway 為其生成式 AI 視頻處理過程,全都采用了 CV-CUDA 和 VRF 庫。
此外,英偉達(dá)加速計算還幫助基因組學(xué)實現(xiàn)了里程碑式發(fā)展。使用英偉達(dá)助力的儀器設(shè)備,將整個基因組測序的成本降低至 100 美元,成為另一個里程碑。
英偉達(dá) NVIDIA Parabrics 加速庫可用于云端或儀器設(shè)備內(nèi)的端到端基因組分析,并且適用于各種公有云和基因組學(xué)平臺。
ChatGPT 在跑,英偉達(dá)在賺
現(xiàn)在,ChatGPT、Stable Diffusion、DALL-E 和 Midjourney,已經(jīng)喚醒了全世界對于生成式 AI 的認(rèn)知。
當(dāng)紅炸子雞 ChatGPT 僅在推出 2 個月后,就月活破億,已經(jīng)成為史上用戶增長最快的應(yīng)用。
可以說,它就是一臺計算機(jī)。不僅能生成文本、寫詩、改寫研究論文、解決數(shù)學(xué)問題、甚至還能編程。
眾多突破性成果造就了今天的生成式 AI。
Transformer 能夠以大規(guī)模并行的方式,從數(shù)據(jù)的關(guān)系和依賴性中學(xué)習(xí)上下文和含義。這使得 LLMs 能夠利用海量數(shù)據(jù)進(jìn)行學(xué)習(xí),在沒有明確訓(xùn)練的情況下執(zhí)行下游任務(wù)。
另外,受物理學(xué)啟發(fā)的擴(kuò)散模型,能夠通過無監(jiān)督學(xué)習(xí)來生成圖像。
老黃總結(jié)道,短短十幾年,我們就從識別貓,跨越到了生成在月球行走的太空服貓的過程。
現(xiàn)在完全可以說,生成式 AI 就是一種新的計算機(jī),一種可以用人類語言進(jìn)行編程的計算機(jī)。
此前,命令計算機(jī)解決問題,是獨屬于程序員的特權(quán),但是如今,人人都可以是程序員了。
和比爾蓋茨一樣,老黃也下了類似的定義:生成式 AI 是一種新型計算平臺,與 PC、互聯(lián)網(wǎng)、移動設(shè)備和云類似。
通過 Debuild,我們只要說清楚自己想要什么,就可以直接設(shè)計和部署 Web 應(yīng)用。
很明顯,生成式 AI 將幾乎重塑所有行業(yè)。
要做 AI 界的「臺積電」
在這樣的背景下,專業(yè)公司都需要使用自己的專有數(shù)據(jù),來構(gòu)建定制模型。
接著,老黃自豪宣布,行業(yè)需要一個類似臺積電的代工廠,來構(gòu)建自定義的大語言模型,而英偉達(dá),就是這個「臺積電」!
大會上,英偉達(dá)宣布推出 NVIDIA AI Foundations 云服務(wù),讓客戶可以定制 LLM 和生成式 AI。
這個云服務(wù)包括語言、視覺和生物學(xué)模型制作服務(wù)。
其中,Nemo 用于構(gòu)建定制的語言文本轉(zhuǎn)文本生成式模型。
而 Picasso 是視覺語言模型制作,可以用于訓(xùn)練自定義模型,包括圖像、視頻和 3D 應(yīng)用。
只要向 Picasso 發(fā)送文本提示和元數(shù)據(jù)的 API 調(diào)用,Picasso 就會用 DGX Cloud 上的模型把生成的素材發(fā)送回應(yīng)用。
更厲害的地方是,把這些素材導(dǎo)入 NVIDIA Omniverse,就可以構(gòu)建逼真的元宇宙應(yīng)用,和數(shù)字孿生仿真。
另外,英偉達(dá)還在和 Shutterstock 合作,開發(fā) Edify-3D 生成式模型。
同時,英偉達(dá)和 Adobe 的合作也繼續(xù)擴(kuò)展,把生成式 AI 融入營銷人員和創(chuàng)意人士的日常工作流,并且,尤其注意對于藝術(shù)家版權(quán)的保護(hù)。
第三個領(lǐng)域,就是生物學(xué)。
如今,藥物研發(fā)行業(yè)的價值已經(jīng)達(dá)到近 2 萬億元,研發(fā)投入高達(dá) 2500 億美元。
NVIDIA Clara 就是一款醫(yī)療健康應(yīng)用框架,用于影像、儀器、基因組學(xué)分析和藥物研發(fā)。
而最近,生物圈的熱門方向是利用生成式 AI 發(fā)現(xiàn)疾病靶因、設(shè)計新分子或蛋白類藥物等。
與之相應(yīng)的,BIONEMO 可以讓用戶使用專有數(shù)據(jù)創(chuàng)建、微調(diào)、提供自定義模型,包括 AlphaFold、ESMFold、OpenFold 等蛋白質(zhì)預(yù)測模型。
最后,老黃總結(jié)道,NVIDIA AI Foundations 是一個云服務(wù)和代工廠,用于構(gòu)建自定義語言模型和生成式 AI。
老黃云服務(wù),月租 36999 美元
英偉達(dá)這次,還推出了一款云服務(wù)。
它敏銳地看到客戶需要更簡單快捷訪問 NVIDIA AI 的需求,因而推出了 NVIDIA DGX Cloud。
DGX Cloud 與 Microsoft Azure、Google GCP 和 Oracle OCI 都有合作。只要一個瀏覽器,NVIDIA DGX AI 超級計算機(jī),就能即時接入每家公司!
在這款云上,可以運行 NVIDIA AI Enterprise 加速庫套件,直接解決 AI 端到端的開發(fā)和部署。
并且,云上不止提供 NVIDIA AI,還有全球最主要的幾大云服務(wù)商。
而英偉達(dá)的第一個 NVIDIA DGX Cloud,就是 Oracle Cloud Infrastructure。
在 OCI 中,NVIDIA CX-7 和 BlueField-3 兩個王炸合體,立馬組合出一臺強力超算。
據(jù)介紹,企業(yè)現(xiàn)在可以租用 DGX Cloud,月租 36999 美元起。
最后,當(dāng)然還是每年 GTC 大會的保留節(jié)目 ——Omniverse。老黃宣布了關(guān)于元宇宙平臺 Omniverse 更新。
現(xiàn)在,Microsoft 和 NVIDIA,正準(zhǔn)備將 Omniverse 帶給數(shù)以億計的 Microsoft 365 和 Azure 用戶。
此外,還有消息稱:老黃為了能讓 H100 合規(guī)地出口中國,便照著之前 A800 的經(jīng)驗特調(diào)了一款「H800」,將芯片之間的數(shù)據(jù)傳輸率降到了 H100 的 50% 左右。
總結(jié)來說,老黃在這次的大會已經(jīng)相當(dāng)明確,英偉達(dá)要做 AI 領(lǐng)域的臺積電,像晶圓廠一樣提供代工,在此基礎(chǔ)上讓行業(yè)內(nèi)其他公司訓(xùn)練算法。
這種商業(yè)模式,能成功嗎?
參考資料:
免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。




