為何都盯上了NPU?
如果您希望可以時常見面,歡迎標星收藏哦~
NPU,一個并不算新的概念,卻在最近翻紅。
例如,PC芯片大廠Intel和AMD在去年年底紛紛發(fā)布集成了NPU的處理器。按照英特爾的說法,到2028年,AI PC將占據(jù)PC市場的80%,而他們的處理器代表了公司在PC實現(xiàn)人工智能的規(guī)模和速度無與倫比;GPU大廠英偉達在今年二月底發(fā)布的全新筆記本電腦GPU中也集成了NPU,可以幫助卸載輕型AI任務;在更早之前,芯片供應商高通也強調,其發(fā)布的驍龍8gen3平臺集成了性能更強的Hexagon NPU。
由此可見,幾乎所有全球領先的處理器廠商都入局了NPU。究其背后原因,按照高通所說,這其實是人工智能產(chǎn)業(yè)發(fā)展的大勢所趨。
人工智能需要NPU
因為ChatGPT和大模型的火熱,每每談到人工智能,我們首先想到的可能是英偉達這樣的GPU廠商,或者是類似谷歌TPU這樣的芯片。這些廣為人知的芯片大多都是圍繞著云端進行的。但其實在人工智能市場中,還有一大部分機會屬于邊緣端。
根據(jù)Gartner預測,2026年全球邊緣AI芯片市場規(guī)模將達到688億美元,2022-2026年CAGR將達到16.9%,這足以證明其市場潛力。然而,和云端AI不同,因為使用場景有限,邊緣端AI在成本和功耗等方面也受到嚴格的限制。
在此背景下,高通提出的“混合AI”將成為AI的未來。
所謂混合AI,按照高通在《混合AI是AI的未來》白皮書中的定義,是指終端和云端協(xié)同工作,在適當?shù)膱鼍昂蜁r間下分配AI計算的工作負載,以提供更好的體驗,并高效利用資源。在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務。而在以云為中心的場景下,終端將根據(jù)自身能力,在可能的情況下從云端分擔一些AI工作負載。
高通同時指出,隨著生成式AI正以前所未有的速度發(fā)展以及計算需求的日益增長,AI處理必須分布在云端和終端進行,才能實現(xiàn)AI的規(guī)?;瘮U展并發(fā)揮其最大潛能——正如傳統(tǒng)計算從大型主機和瘦客戶端演變?yōu)楫斍霸贫撕瓦吘壗K端相結合的模式?!芭c僅在云端進行處理不同,混合AI架構在云端和邊緣終端之間分配并協(xié)調AI工作負載。云端和邊緣終端如智能手機、汽車、個人電腦和物聯(lián)網(wǎng)終端協(xié)同工作,能夠實現(xiàn)更強大、更高效且高度優(yōu)化的AI”,高通強調。
在高通看來,之所以需要“混合AI”,是因為AI推理的規(guī)模遠高于AI訓練,模型的推理成本將隨著日活用戶數(shù)量及使用頻率的增加而增加。但在云端進行推理的成本極高,這將導致規(guī)模化擴展難以持續(xù),而“混合AI”能夠解決上述問題。除了具備上述的成本和功耗優(yōu)勢外,“混合AI”還擁有性能、隱私、安全和個性化等方面的優(yōu)勢。
為了實現(xiàn)上述目標,高通提出需要一個專為邊緣端AI設計的全新計算架構。這首先需要一個面向生成式AI全新設計的神經(jīng)網(wǎng)絡處理器,同時利用異構處理器組合(比如CPU和GPU)。通過結合NPU使用合適的處理器,異構計算能夠實現(xiàn)最佳應用性能、能效和電池續(xù)航,賦能全新增強的生成式AI體驗。
熟悉處理器的讀者可能會知道,因為本身設計的不同,不同類型的處理器在實際的工作負載中能夠扮演不同的角色。例如CPU擅長順序控制和即時性,GPU適合并行數(shù)據(jù)流處理,NPU則擅長標量、向量和張量數(shù)學運算,可用于核心AI工作負載。
CPU和GPU大家耳熟能詳,在這里就不再深入贅述。對于什么是NPU,不同廠商可能有不同的定義,但在高通看來,NPU是專為實現(xiàn)以低功耗加速AI推理而全新打造,其架構隨著新AI算法、模型和用例的發(fā)展不斷演進。Al工作負載主要包括由標量、向量和張量數(shù)學組成的神經(jīng)網(wǎng)絡層計算以及非線性激活函數(shù)。優(yōu)秀的NPU設計能夠為處理這些AI工作負載做出正確的設計選擇,與AI行業(yè)方向保持高度一致。
NPU扮演重要角色
在談論NPU的作用之前,我們首先還是需要對人工智能進行一些科普。
卷積網(wǎng)絡之父Yann LeCun曾經(jīng)在一篇科普文章中寫道,AI是一門嚴謹?shù)目茖W,專注于設計智能系統(tǒng)和智能機器,其中使用的算法技術在某些程度上借鑒了我們對大腦的了解。許多現(xiàn)代AI系統(tǒng)使用人工神經(jīng)網(wǎng)絡和計算機代碼,模擬非常簡單的、通過互相連接的單元組成的網(wǎng)絡,有點像大腦中的神經(jīng)元。這些網(wǎng)絡可以通過修改單元之間的連接來學習經(jīng)驗,有點像人類和動物的大腦通過修改神經(jīng)元之間的連接進行學習。
簡而言之,人工智能大體上可以分為訓練和推理兩部分,本質在于對算法的執(zhí)行。在其中的訓練階段因為需要大量的計算能力和內(nèi)存,目前這部分主要是GPU的活,所以包括英偉達、英特爾和AMD等都是圍繞著這類處理器展開爭奪,其他類似Cerebra、Graphcore、和Habana等ASIC廠商也都在試圖瓜分這個市場。
來到推理方面,涉及到云端推理和終端推理,NPU主要面向的是終端推理市場。
據(jù)高通在《通過NPU和異構計算開啟終端側生成式AI》白皮書中介紹,早在2015年,NPU主要面向音頻和語音AI用例而設計,這些用例基于簡單卷積神經(jīng)網(wǎng)絡(CNN)并且主要需要標量和向量數(shù)學運算。從2016年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短期記憶網(wǎng)絡(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(CNN)等更復雜的全新模型。這些工作負載需要大量張量數(shù)學運算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。有了面向張量乘法的大共享內(nèi)存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內(nèi)存帶寬占用和能耗。
在2023年,大語言模型和大視覺模型(如Stable Diffusion)賦能的生成式AI使得典型模型的大小提升超過了一個數(shù)量級。除計算需求之外,還需要重點考慮內(nèi)存和系統(tǒng)設計,通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。
展望未來,預計將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。因此,伴隨著AI的快速演進發(fā)展,就必須在性能、功耗、效率、可編程性和面積之間進行權衡。而一個專用的定制化設計的NPU就能夠做出正確的選擇。
看到這里,也許有讀者就會問,我們?yōu)楹尾蛔鲆粋€單獨的芯片來做推理,而是專注于把NPU集成到一個SoC里面呢?要回答這個問題其實也很簡單——因為AI負載多樣化,而集成NPU的SoC是峰值性能、能效、單位面積、芯片尺寸和成本的最優(yōu)解。
在上文中,我們談到了CPU和GPU的“本職工作”:前者擅長順序控制和即時性,后者適合并行數(shù)據(jù)流處理。而NPU的“本職工作”則是AI,降低相關工作的部分易編程性以實現(xiàn)更高的峰值性能、能效和面積效率,從而運行機器學習所需的大量乘法、加法和其他運算。
但是,我們還是要澄清一下,雖然CPU、GPU和NPU有各自擅長的任務,但具體到AI方面,除了NPU以外,其他的處理器也是能處理一些AI任務的。如CPU也適用于相對較小的傳統(tǒng)模型,如卷積神經(jīng)網(wǎng)絡模型,或一些特定的大語言模型(LLM)。如果模型變大(如數(shù)十億參數(shù)時),GPU或者NPU會更適合。
這就進一步證明——針對不同負載,集成多個處理器的SoC擁有先天優(yōu)勢。而這正是高通所擅長的。
5G+AI,賦能未來
高通在芯片方面的實力不用多言,驍龍芯片在全球范圍的影響力能夠說明一切。在NPU領域,高通也有著多年積累。早在2007年,高通首款Hexagon DSP在驍龍平臺上正式亮相——DSP控制和標量架構也成為了高通未來多代NPU的基礎。
高通技術公司產(chǎn)品管理高級副總裁Ziad Asghar同時指出,在最初開始研究NPU時,高通關注的是一些簡單用例,主要包括面向音頻和語音處理的卷積神經(jīng)網(wǎng)絡模型和長短期記憶網(wǎng)絡模型(Long Short-Term Memory,LSTM)。高通在2015年推出的第一代高通AI引擎,其Hexagon NPU集成了標量和向量運算擴展。他們率先開始了這個領域的研究并積累了豐富的技術專長,讓其能夠以非常高效的方式進行標量和向量運算。
2016-2022年之間,高通將研究方向拓展至AI影像和視頻處理,以實現(xiàn)增強的影像能力。從2023年開始,Hexagon NPU實現(xiàn)了對LLM和LVM的支持,高通也在NPU中增加了Transformer支持,以更好地處理基于Transformer的模型。
“現(xiàn)在,Hexagon NPU能夠在終端側運行高達100億參數(shù)的模型,無論是首個token的生成速度還是每秒生成token的速率都處在業(yè)界領先水平。我們還引入了微切片推理技術,增加了能夠支持所有引擎組件的大共享內(nèi)存,以實現(xiàn)領先的LLM處理能力?!盳iad Asghar表示。
按照高通在“NPU白皮書”中所說,第三代驍龍8中的Hexagon NPU是高通面向生成式AI最新、也是目前最好的設計,為持續(xù)AI推理帶來了98%的性能提升和40%的能效提升。它包括了跨整個NPU的微架構升級。微切片推理進一步升級,能夠支持更高效的生成式AI處理,并降低內(nèi)存帶寬占用。此外,Hexagon張量加速器增加了獨立的電源傳輸軌道,讓需要不同標量、向量和張量處理規(guī)模的AI模型能夠實現(xiàn)最高性能和效率。大共享內(nèi)存的帶寬也增加了一倍?;谝陨咸嵘虸NT4硬件加速,Hexagon NPU成為面向終端側生成式AI大模型推理的領先處理器。
“高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設計和快速創(chuàng)新。通過定制設計NPU并控制指令集架構,高通能夠快速進行設計演進和擴展,以解決瓶頸問題并優(yōu)化性能?!备咄偨Y說。
有了這個領先的NPU,加上高通本身在CPU和GPU上的積累,高通打造起了一個包括高通Hexagon NPU、高通Adreno GPU、高通Kryo或高通Oryon CPU、高通傳感器中樞和內(nèi)存子系統(tǒng)在內(nèi)的高通AI引擎,這些處理器為實現(xiàn)協(xié)同工作而設計,能夠在終端側快速且高效地運行AI應用,使得在利用異構SoC執(zhí)行AI任務方面如魚得水。
于高通而言,除了這些領先的計算能力,公司本身在連接領域的積累,也讓其在推動AI規(guī)?;瘮U展的時候,擁有其他競爭對手所不具備的優(yōu)勢。高通也曾強調,隨著5G與終端側AI的不斷融合,企業(yè)數(shù)字化轉型正在加速。高通也正在與眾多合作伙伴一起,推動5G和AI與行業(yè)融合創(chuàng)新,加速邁向數(shù)字化未來。
在近期舉辦的MWC期間,高通帶來了在終端側AI、智能計算和無線連接領域的最新產(chǎn)品和里程碑,助力加速數(shù)字化轉型、推動新一輪經(jīng)濟增長,并將AI和連接融合帶入全新領域。其中,高通發(fā)布了公司第三代AI賦能的5G調制解調器驍龍X80,具備變革性的AI創(chuàng)新,能夠助力提升數(shù)據(jù)傳輸速度,降低時延,擴大覆蓋范圍,提高服務質量、定位精度、頻譜效率、能效和多天線管理能力。高通還發(fā)布了首個支持AI優(yōu)化的Wi-Fi 7系統(tǒng)FastConnect 7900,利用AI可適應特定用例和環(huán)境,有效優(yōu)化能耗、網(wǎng)絡時延和吞吐量。
為了更好地賦能開發(fā)者,高通在本屆MWC上還帶來了包含預優(yōu)化AI模型庫的全新高通AI Hub。按照高通所說,AI Hub支持在搭載驍龍和高通平臺的終端上進行無縫部署。該模型庫為開發(fā)者提供超過75個主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同執(zhí)行環(huán)境中打包,能夠在不同形態(tài)終端中實現(xiàn)卓越的終端側AI性能、降低內(nèi)存占用并提升能效。
最后,需要強調的是,高通的這些計算能力和連接能力并不僅僅局限于手機端。高通在去年底也發(fā)布了專為AI PC打造的驍龍X Elite平臺,能夠支持在終端側運行超過130億參數(shù)的生成式AI模型,AI處理速度是競品的4.5倍。多年的積累和堅實的技術底座也讓高通能夠跨公司所有不同產(chǎn)品線,將無線連接、終端側AI和高性能低功耗計算規(guī)?;瘮U展到不同類型的終端,從智能手機到PC、物聯(lián)網(wǎng)終端、汽車等等。
在高通看來,終端側生成式AI正為用戶帶來強大、快速、個性化、高效、安全和高度優(yōu)化的體驗,改變?nèi)藗兊墓ぷ?、娛樂和生活方式,并為各行各業(yè)帶來廣闊的發(fā)展機遇。在這一過程中,高通當仁不讓地扮演著賦能者的角色。
點這里加關注,鎖定更多原創(chuàng)內(nèi)容
今天是《半導體行業(yè)觀察》為您分享的第3704期內(nèi)容,歡迎關注。
『半導體第一垂直媒體』
實時 專業(yè) 原創(chuàng) 深度
公眾號ID:icbank
喜歡我們的內(nèi)容就點“在看”分享給小伙伴哦
免責聲明:此文內(nèi)容為本網(wǎng)站轉載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關。僅供讀者參考,并請自行核實相關內(nèi)容。




