當(dāng)前位置：車訊網(wǎng) -> 熱點(diǎn)

SRAM停止微縮，怎么辦？

公眾號(hào)記得加星標(biāo)，第一時(shí)間看推送不會(huì)錯(cuò)過。

內(nèi)存延遲、帶寬、容量和能耗日益成為性能提升的瓶頸。在本文中，我們重新審視了由大量?jī)?nèi)存供眾多CPU共享的系統(tǒng)架構(gòu)。我們認(rèn)為，擴(kuò)展性(scaling)和信號(hào)傳輸(signaling)這兩個(gè)實(shí)際的工程難題限制了此類設(shè)計(jì)。

為此，我們提出了一種相反的方法。系統(tǒng)不是創(chuàng)建大型、共享、同質(zhì)的內(nèi)存，而是明確地將內(nèi)存分割成更小的片，這些片與計(jì)算單元更緊密地耦合。利用單片/2.5D/3D集成技術(shù)的進(jìn)步，這種“計(jì)算-內(nèi)存節(jié)點(diǎn)”提供私有本地內(nèi)存，通過微米級(jí)距離訪問節(jié)點(diǎn)獨(dú)占數(shù)據(jù)，并大幅降低訪問成本。封裝內(nèi)內(nèi)存元件支持處理器內(nèi)的共享狀態(tài)，提供比封裝外的DRAM更好的帶寬和能效，而DRAM用于大型工作集和冷數(shù)據(jù)的主內(nèi)存。通過硬件明確內(nèi)存容量與訪問距離，軟件能夠高效地構(gòu)建這種內(nèi)存層次結(jié)構(gòu)，從而實(shí)現(xiàn)對(duì)數(shù)據(jù)布局和遷移的管理。

引言

一個(gè)大型分布式內(nèi)存地址空間的想法頗具吸引力。它能讓應(yīng)用程序在單個(gè)主機(jī)之外無縫擴(kuò)展，同時(shí)將緩存、一致性以及放置的復(fù)雜性留給底層系統(tǒng)處理。在 20 世紀(jì) 80 年代和 90 年代，這一想法以分布式共享內(nèi)存的形式得到了探索，為現(xiàn)代多核和多處理器系統(tǒng)的內(nèi)存一致性模型提供了借鑒。

隨著內(nèi)存逐漸成為數(shù)據(jù)中心和云服務(wù)器的瓶頸，研究工作正在重新審視這些理念，以期打造新一代系統(tǒng)，這些系統(tǒng)擁有巨大的網(wǎng)絡(luò)連接內(nèi)存，且這些內(nèi)存可在眾多處理器間共享。本文認(rèn)為，由于現(xiàn)代工程面臨的兩個(gè)障礙——擴(kuò)展性和信號(hào)傳輸，這種做法是不可行的。這些障礙是基于物理原理的實(shí)際限制。

首先是縮放能力，指的是利用更精密的工具和復(fù)雜的制造工藝，使晶體管和電路變得更小、更便宜的能力。存儲(chǔ)器技術(shù)的縮放已實(shí)質(zhì)終結(jié)。靜態(tài)隨機(jī)存取存儲(chǔ)器和動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)的每字節(jié)成本均趨于平穩(wěn)，且未來五年內(nèi)無顯著降本路徑。隨著邏輯器件持續(xù)縮小(盡管速度較以往放緩)，存儲(chǔ)器在系統(tǒng)成本中的占比日益攀升，導(dǎo)致配置大容量存儲(chǔ)器在經(jīng)濟(jì)性與架構(gòu)設(shè)計(jì)上均不具優(yōu)勢(shì)。我們應(yīng)當(dāng)著力提升存儲(chǔ)器利用效率。

第二道障礙在于信號(hào)傳輸——在給定帶寬下，組件間信號(hào)傳輸所需能量決定了內(nèi)存能效與帶寬必須通過與計(jì)算邏輯的深度集成來提升。在芯片片內(nèi)，訪問遠(yuǎn)端SRAM緩存行的速度更慢且能耗更高，而跨芯片片訪問成本則更為高昂。通過電路板走線訪問DRAM的成本高出一個(gè)數(shù)量級(jí)；而通過CXL或RDMA訪問遠(yuǎn)程內(nèi)存則會(huì)增加更多開銷。這些性能代價(jià)使得遠(yuǎn)程內(nèi)存變得極其昂貴。

面對(duì)這些障礙，我們提出了一種不同的方法:物理可組合的分解架構(gòu)。系統(tǒng)由計(jì)算內(nèi)存節(jié)點(diǎn)構(gòu)成，這些節(jié)點(diǎn)將計(jì)算能力與私有本地內(nèi)存及封裝內(nèi)共享內(nèi)存緊密集成，同時(shí)利用封裝外DRAM提供大容量存儲(chǔ)。軟件通過顯式組合內(nèi)存系統(tǒng)來決定:哪些數(shù)據(jù)保留在本地，哪些在節(jié)點(diǎn)間共享，哪些移交至DRAM等。

2D縮放的終結(jié):SRAM與DRAM

二維半導(dǎo)體縮放技術(shù)曾以更低成本實(shí)現(xiàn)更高存儲(chǔ)密度與容量。然而圖1顯示，無論是SRAM還是DRAM，傳統(tǒng)2D縮放都已走到盡頭。DRAM的每字節(jié)成本十余年來始終停滯不前，這正是服務(wù)器規(guī)模擴(kuò)大后DRAM成本占據(jù)系統(tǒng)成本主導(dǎo)地位的原因。(2) SRAM同樣面臨類似瓶頸:我們已無法制造更微小的SRAM單元。

對(duì)于SRAM而言，主要限制源于晶體管尺寸接近原子尺度:制造公差限制了交叉耦合反相器對(duì)的晶體管匹配度，從而降低信號(hào)裕度。計(jì)算邏輯不受此問題影響，因各級(jí)電路均可恢復(fù)數(shù)字信號(hào)。對(duì)于DRAM而言，主要制約因素在于高長(zhǎng)寬比電容器的蝕刻成本以及確保低漏電流的復(fù)雜晶體管幾何結(jié)構(gòu)。更先進(jìn)的制程節(jié)點(diǎn)雖能縮小DRAM單元的物理尺寸，卻無法降低單存儲(chǔ)單元成本。我們雖可繼續(xù)制造更大容量的DRAM DIMM，但其每字節(jié)成本并不會(huì)下降。

從這些限制中得到的主要結(jié)論是:海量存儲(chǔ)必然伴隨天價(jià)成本。片上緩存的增長(zhǎng)速度無法超越芯片面積的擴(kuò)張，而現(xiàn)代服務(wù)器處理器已然龐大。系統(tǒng)必須更高效地利用存儲(chǔ)資源。

局部性=效率與帶寬

更緊密的集成提升了數(shù)據(jù)在內(nèi)存間傳輸?shù)膸捙c能效。緩存正是這一原理的典范:L1、L2和L3緩存均采用相同SRAM技術(shù)，但L1緩存通過更小的存儲(chǔ)器銀行尺寸、更精細(xì)的訪問粒度以及更接近CPU核心的物理位置實(shí)現(xiàn)了卓越性能。

處理器插槽的DRAM帶寬正緩慢提升:現(xiàn)代DDR5-5600內(nèi)存條帶寬達(dá)358Gbps，且每插槽內(nèi)存條數(shù)量從8條增至12條，總帶寬達(dá)4.3Tbps。然而同期，每插槽核心數(shù)量的增長(zhǎng)已超越或匹配帶寬提升幅度。圖2展示了自2018年以來英特爾與AMD服務(wù)器處理器封裝的單核帶寬:該指標(biāo)已陷入停滯。

DRAM的帶寬限制和能耗問題源于其在印刷電路板上的連接方式——該板載銅走線和凸點(diǎn)引腳數(shù)量有限(例如DDR5僅有288個(gè)引腳)。高帶寬內(nèi)存(HBM)通過改進(jìn)集成技術(shù)，將DRAM芯片重新定位并緊密排列。通過在多個(gè)DRAM芯片下方嵌入封裝內(nèi)硅基邏輯芯片，并采用硅通孔技術(shù)連接，每組HBM3E堆棧可實(shí)現(xiàn)1024個(gè)引腳與更短的互連距離。這種引腳數(shù)量的顯著差異直接轉(zhuǎn)化為HBM的帶寬優(yōu)勢(shì)。表1展示了更緊密的物理集成如何實(shí)現(xiàn)更高引腳密度、更寬帶寬及更低能耗。較低的引腳密度則需要更高速度的信號(hào)電路，從而增加能耗。

這些集成限制意味著核心性能無法通過DRAM獲得提升。電路板無法容納更多DIMM模塊，其引腳數(shù)量已達(dá)實(shí)際極限。銅線傳輸更高信號(hào)速率將帶來高昂的能耗代價(jià)。

物理可組合的解耦方案

這些擴(kuò)展挑戰(zhàn)迫使我們對(duì)內(nèi)存層次結(jié)構(gòu)設(shè)計(jì)進(jìn)行根本性重構(gòu)——將關(guān)注點(diǎn)從原始容量轉(zhuǎn)向局部性、帶寬和能效。

我們提出顛覆傳統(tǒng)內(nèi)存“解耦”思路，強(qiáng)調(diào)更精細(xì)的計(jì)算與內(nèi)存集成，并優(yōu)先提升內(nèi)存利用率——即使這可能導(dǎo)致計(jì)算利用率小幅下降。該方案的核心是計(jì)算內(nèi)存節(jié)點(diǎn)，通過3D集成技術(shù)將計(jì)算單元與本地內(nèi)存堆疊集成，典型代表是AMD的VCache設(shè)計(jì)和Milan-X處理器。

與普通緩存不同，這種私有本地內(nèi)存能夠采用顯式管理機(jī)制，并且是專用于存儲(chǔ)節(jié)點(diǎn)特有的數(shù)據(jù)。通過微凸點(diǎn)、混合鍵合、硅通孔或單片晶圓級(jí)互連實(shí)現(xiàn)的微米級(jí)距離訪問，極大緩解了大地址空間帶來的延遲、能耗和帶寬瓶頸。借鑒現(xiàn)代多芯片處理器的實(shí)踐，跨節(jié)點(diǎn)共享狀態(tài)(如鎖機(jī)制)被置于封裝內(nèi)共享內(nèi)存(如HBM)中。盡管其速度低于私有局部片段，但仍遠(yuǎn)優(yōu)于封裝外DRAM的帶寬與能效表現(xiàn)。

然而，集成度受限于物理約束3。大容量存儲(chǔ)仍需依賴封裝外DRAM。DRAM不再作為共享的扁平地址空間池，而是轉(zhuǎn)變?yōu)槊嫦虼笮凸ぷ骷屠鋽?shù)據(jù)的容量驅(qū)動(dòng)型存儲(chǔ)層，而性能關(guān)鍵型訪問則通過更快的封裝內(nèi)分散存儲(chǔ)器進(jìn)行管理。軟件需自行構(gòu)建內(nèi)存系統(tǒng):通過抽象層將“近零距離本地內(nèi)存”與“更高延遲共享層級(jí)”一并呈現(xiàn)，決定哪些數(shù)據(jù)保留在本地、哪些共享、哪些移至封裝外DRAM，從而實(shí)現(xiàn)數(shù)據(jù)布局與遷移的高效管理。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4159期內(nèi)容，歡迎關(guān)注。

加星標(biāo)第一時(shí)間看推送，小號(hào)防走丟

求推薦

免責(zé)聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，與本網(wǎng)無關(guān)。僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

二区三区少妇,变态夫妇波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

SRAM停止微縮，怎么辦？

新車

最新內(nèi)容

二区三区少妇,变态夫妇 波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

SRAM停止微縮，怎么辦？

新車

最新內(nèi)容

二区三区少妇,变态夫妇波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

SRAM停止微縮，怎么辦？