MIT與英偉達(dá)聯(lián)手:HART工具革新圖像生成技術(shù)
MIT攜手英偉達(dá)推出HART工具,為圖像生成技術(shù)帶來(lái)全新變革
近日,外媒報(bào)道了一則令人矚目的科技成果:美國(guó)麻省理工學(xué)院與英偉達(dá)公司(NVIDIA)的研究人員成功研發(fā)出一種創(chuàng)新方法,巧妙融合了兩種常見(jiàn)圖像生成方式的優(yōu)勢(shì),打造出一款名為 HART(混合自回歸轉(zhuǎn)換器的縮寫(xiě))的混合圖像生成工具。
HART:圖像生成新利器
HART 運(yùn)用自回歸模型,能夠迅速勾勒出圖像的整體輪廓,隨后借助小型擴(kuò)散模型對(duì)圖像細(xì)節(jié)進(jìn)行精細(xì)優(yōu)化。它生成的圖像質(zhì)量,與當(dāng)前頂尖擴(kuò)散模型所生成的不相上下,甚至更勝一籌,而生成速度卻提升了九倍之多。更為突出的是,HART 在圖像生成過(guò)程中,消耗的計(jì)算資源比典型擴(kuò)散模型要少,這使得它可以在普通商用筆記本電腦或智能手機(jī)上本地運(yùn)行。用戶(hù)只需在 HART 界面輸入自然語(yǔ)言提示,就能輕松獲得生成的圖像。其應(yīng)用前景十分廣闊,比如助力研究人員訓(xùn)練機(jī)器人執(zhí)行復(fù)雜現(xiàn)實(shí)任務(wù),幫助設(shè)計(jì)師為視頻游戲構(gòu)建更具吸引力的場(chǎng)景。
創(chuàng)新融合,突破傳統(tǒng)局限
像 Stable Diffusion 和 DALL - E 這類(lèi)流行的擴(kuò)散模型,雖能生成細(xì)節(jié)豐富的圖像,但生成過(guò)程較為繁瑣。它們通過(guò)迭代,對(duì)每個(gè)像素預(yù)測(cè)隨機(jī)噪聲并減去,這一 “去噪” 過(guò)程可能需重復(fù) 30 步甚至更多,導(dǎo)致整體速度緩慢且計(jì)算成本高昂,不過(guò)多次修正機(jī)會(huì)保證了圖像的高質(zhì)量。自回歸模型在文本預(yù)測(cè)中廣泛應(yīng)用,它通過(guò)依次預(yù)測(cè)圖像塊來(lái)生成圖像,順序預(yù)測(cè)過(guò)程比擴(kuò)散模型快很多,但其采用自動(dòng)編碼器壓縮原始圖像像素為離散標(biāo)記,在重建圖像時(shí),因壓縮導(dǎo)致的信息丟失可能引發(fā)錯(cuò)誤,且無(wú)法回溯修正。
HART 創(chuàng)新性地采用混合方法,先用自回歸模型預(yù)測(cè)壓縮的離散圖像標(biāo)記,再用小型擴(kuò)散模型預(yù)測(cè)殘差標(biāo)記,以此彌補(bǔ)信息損失。由于擴(kuò)散模型只需處理自回歸模型完成后的剩余細(xì)節(jié),僅需八步就能完成任務(wù),而標(biāo)準(zhǔn)擴(kuò)散模型通常需要 30 步以上。額外引入的擴(kuò)散模型,在幾乎不增加計(jì)算量的情況下,保留了自回歸模型的速度優(yōu)勢(shì),還極大提升了生成復(fù)雜圖像細(xì)節(jié)的能力。
在研發(fā) HART 時(shí),研究人員克服了高效整合擴(kuò)散模型以增強(qiáng)自回歸模型的難題。他們發(fā)現(xiàn),在自回歸過(guò)程早期集成擴(kuò)散模型會(huì)導(dǎo)致誤差累積,所以最終設(shè)計(jì)僅在最后一步應(yīng)用擴(kuò)散模型預(yù)測(cè)剩余標(biāo)記,顯著提高了圖像生成質(zhì)量。研究人員結(jié)合了 7 億參數(shù)的自回歸轉(zhuǎn)換器模型和 3700 萬(wàn)參數(shù)的輕量級(jí)擴(kuò)散模型,生成圖像質(zhì)量與 20 億參數(shù)擴(kuò)散模型相當(dāng),速度卻快九倍,計(jì)算量還少約 31%。
未來(lái)可期
HART 因采用自回歸模型承擔(dān)大量工作,更易于與新型統(tǒng)一視覺(jué) - 語(yǔ)言生成式模型集成。未來(lái),人們或許能與這類(lèi)模型互動(dòng),比如讓其展示組裝家具的中間步驟。展望后續(xù),研究人員計(jì)劃基于 HART 架構(gòu)打造視覺(jué) - 語(yǔ)言模型,并憑借其擴(kuò)展性和多模態(tài)通用性,嘗試將其應(yīng)用于視頻生成和音頻預(yù)測(cè)任務(wù),持續(xù)拓展其應(yīng)用邊界。
免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
最新內(nèi)容
- 汽車(chē)觀察:什么是“好”智駕?紅旗見(jiàn)真章
- 吉利銀河星耀8預(yù)售價(jià)13.98萬(wàn)元起劍指中
- 注重戰(zhàn)略?xún)r(jià)值重構(gòu)A股上市公司股份協(xié)議轉(zhuǎn)讓頻
- 奇瑞混動(dòng)之夜:技術(shù)開(kāi)源,多款車(chē)型直降兩萬(wàn)
- 奇瑞混動(dòng)之夜:發(fā)布全新技術(shù)并發(fā)布多款車(chē)型售
- 2025款風(fēng)云A8煥新上市,現(xiàn)金一口價(jià)8.
- 譚鐵牛:GPT-5遲遲出不來(lái)說(shuō)明蠻力發(fā)展不
- 富士康希望與日產(chǎn)在電動(dòng)汽車(chē)領(lǐng)域合作
- 廣汽發(fā)布人形機(jī)器人核心部件,計(jì)劃年內(nèi)小批量
- 保時(shí)捷第一季度全球交付量下降8%




