MIT重新構(gòu)想圖像生成標(biāo)記器和解碼器無(wú)需生成器即可進(jìn)行編輯和修復(fù)
蓋世汽車訊 人工智能圖像生成——依靠神經(jīng)網(wǎng)絡(luò)根據(jù)各種輸入創(chuàng)建新圖像——預(yù)計(jì)到本世紀(jì)末將成為一個(gè)價(jià)值數(shù)十億美元的產(chǎn)業(yè)。即使以今天的技術(shù),如果想要?jiǎng)?chuàng)作一幅奇特的畫面,比如一位朋友在火星上插上國(guó)旗,或者漫不經(jīng)心地飛進(jìn)黑洞,也只需不到一秒鐘。
然而,在圖像生成器能夠執(zhí)行此類任務(wù)之前,它們通常需要接受海量數(shù)據(jù)集的訓(xùn)練,這些數(shù)據(jù)集包含數(shù)百萬(wàn)張圖像,通常還配有相關(guān)文本。訓(xùn)練這些生成模型可能是一項(xiàng)艱巨的任務(wù),需要數(shù)周甚至數(shù)月的時(shí)間,并且會(huì)消耗大量的計(jì)算資源。
但是,如果真的可以通過(guò)人工智能方法生成圖像,而無(wú)需使用生成器,那會(huì)怎樣呢?
據(jù)外媒報(bào)道,2025年夏初,在加拿大不列顛哥倫比亞省溫哥華舉行的國(guó)際機(jī)器學(xué)習(xí)大會(huì)上,一篇研究論文闡述了這種現(xiàn)實(shí)可能性以及其他一些引人入勝的想法。研究人員重新構(gòu)想圖像生成,使標(biāo)記器和解碼器無(wú)需生成器即可進(jìn)行編輯和修復(fù)圖像。相關(guān)論文已發(fā)表在arXiv預(yù)印本服務(wù)器上。
論文由麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)研究生研究員Lukas Lao Beyer、麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)博士后研究員Tianhong Li、Facebook人工智能研究中心的Xinlei Chen、麻省理工學(xué)院航空航天學(xué)教授兼LIDS主任Sertac Karaman以及麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)副教授Kaiming He共同撰寫。
這項(xiàng)團(tuán)隊(duì)研究的起源是Lao Beyer去年秋季參加的深度生成模型研究生研討課的課堂項(xiàng)目。在學(xué)期中的交流中,Lao Beyer和研討課的授課老師He都意識(shí)到這項(xiàng)研究具有真正的潛力,遠(yuǎn)遠(yuǎn)超出了普通家庭作業(yè)的范疇。很快,其他合作者也加入了進(jìn)來(lái)。
Lao Beyer的研究起點(diǎn)是一篇發(fā)表于2024年6月的論文,該論文由慕尼黑工業(yè)大學(xué)和中國(guó)公司字節(jié)跳動(dòng)的研究人員共同撰寫,該論文介紹了一種新的視覺信息表示方法,稱為一維標(biāo)記器。利用這種設(shè)備(它也是一種神經(jīng)網(wǎng)絡(luò)),可以將256x256像素的圖像轉(zhuǎn)換為僅由32個(gè)數(shù)字組成的序列,這些數(shù)字被稱為標(biāo)記。
免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
最新內(nèi)容
- 博澤中國(guó)-后排多功能座椅骨架申報(bào)2025第
- 比亞迪海鷗領(lǐng)跑新能源市場(chǎng),吉利星越L位列燃
- 銳捷網(wǎng)絡(luò)301165.SZ:參與編寫了CO
- 央行上??偛浚合乱徊綄⒊掷m(xù)提升跨境貿(mào)易投資
- TeletracNavman推出行車記錄儀
- 通用汽車申請(qǐng)自動(dòng)轉(zhuǎn)向信號(hào)指示器專利
- 五菱之光EV305km進(jìn)取型攜7大升級(jí)進(jìn)階
- 中信證券、華夏基金,大動(dòng)作!
- 魏建軍放大招!長(zhǎng)城V8超跑首秀
- 東風(fēng)再臨變革時(shí)刻!日產(chǎn)初成、本田未捷,兩大




