二区三区少妇,变态夫妇 波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

車訊網(wǎng) - 專業(yè)汽車新聞資訊門戶
當(dāng)前位置: 車訊網(wǎng) -> 行業(yè)

Meta發(fā)布會(huì)讀唇語(yǔ)的AI,可提高嘈雜場(chǎng)景的語(yǔ)音識(shí)別準(zhǔn)確率已開源

時(shí)間:2022-01-11 02:41  |  責(zé)任編輯:燕夢(mèng)蝶  |  來源: IT之家  |  關(guān)鍵詞:  |  閱讀量:11923  |  

借助讀唇語(yǔ),人類能夠更容易聽懂他人的講話內(nèi)容,那么 AI 也能如此嗎。

Meta發(fā)布會(huì)讀唇語(yǔ)的AI,可提高嘈雜場(chǎng)景的語(yǔ)音識(shí)別準(zhǔn)確率已開源

最近,Meta 提出了一種視聽版 BERT,不僅能讀唇語(yǔ),還能將識(shí)別錯(cuò)誤率降低 75%。

效果大概就像如下這樣,給一段視頻,該模型就能根據(jù)人物的口型及語(yǔ)音輸出他所說的內(nèi)容。。

而且與此前同類方法相比,它只用十分之一的標(biāo)記數(shù)據(jù),性能就能超過過去最好的視聽語(yǔ)音識(shí)別系統(tǒng)。

這種結(jié)合了讀唇的語(yǔ)音識(shí)別方法,對(duì)于識(shí)別嘈雜環(huán)境下的語(yǔ)音有重大幫助。

Meta 的研究專家 Abdelrahman Mohamed 表示,該技術(shù)未來可用在手機(jī)智能助手,AR 眼鏡等智能設(shè)備上。

目前,Meta 已將相關(guān)代碼開源至 GitHub。

自監(jiān)督 + 多模態(tài)

Meta 將該方法命名為 AV—HuBERT,這是一個(gè)多模態(tài)的自監(jiān)督學(xué)習(xí)框架。

多模態(tài)不難理解,該框架需要輸入語(yǔ)音音頻和唇語(yǔ)視頻兩種不同形式內(nèi)容,然后輸出對(duì)應(yīng)文本。

Meta 表示,通過結(jié)合人們說話過程中嘴唇和牙齒活動(dòng),語(yǔ)音方面的信息,AV—HuBERT 可以捕捉到音頻和視頻間的微妙聯(lián)系。

這和人類本身感知語(yǔ)言的模式很相似。

此前已經(jīng)有研究表明,閱讀唇語(yǔ)是人類理解語(yǔ)言的一種重要方式尤其是在嘈雜的環(huán)境下,通過讀唇可以將語(yǔ)言識(shí)別的準(zhǔn)確性最高提升 6 倍

在該模型中,通過一個(gè) ResNet—transformer 框架可將掩碼音頻,圖像序列編碼為視聽特征,從而來預(yù)測(cè)離散的集群任務(wù)序列。

具體來看,AV—HuBERT 使用幀級(jí)同步的音頻流和視頻流作為輸入,來更好地建模和提取兩種模態(tài)之間的相關(guān)性。

圖像序列和音頻特征能夠通過輕量級(jí)的模態(tài)特定編碼器來產(chǎn)生中間特征,然后將這個(gè)中間特征融合并反饋到共享的主干 transformer 編碼器中,以此來預(yù)測(cè)掩蔽聚類任務(wù)。

該目標(biāo)是根據(jù)聚類音頻特征或 AV—HuBERT 模型上一次迭代中提取的特征生成的。

當(dāng)對(duì)唇讀微調(diào)時(shí),該模型只使用視覺輸入,不使用音頻輸入。從長(zhǎng)遠(yuǎn)來看,Meta希望有一天“Meta宇宙”能夠同時(shí)承載廣告和電商業(yè)務(wù)。

結(jié)果表明,AV—HuBERT 經(jīng)過 30 個(gè)小時(shí)帶有標(biāo)簽的 TED 演講視頻訓(xùn)練后,單詞錯(cuò)誤率為 32.5%,而此前方法能達(dá)到的最低錯(cuò)誤率為 33.6%,并且此方法訓(xùn)練時(shí)間高達(dá) 31000 個(gè)小時(shí)。

WER 是語(yǔ)音識(shí)別任務(wù)中的錯(cuò)誤率指標(biāo),計(jì)算方法為將錯(cuò)誤識(shí)別單詞數(shù)除以總單詞數(shù),32.5% 意味著大約每 30 個(gè)單詞出現(xiàn)一個(gè)錯(cuò)誤。

經(jīng)過 433 個(gè)小時(shí) TED 演講訓(xùn)練后,錯(cuò)誤率可進(jìn)一步降低至 26.9%。

另一方面,AV—HuBERT 與前人方法最大不同之處在于,它采用了自監(jiān)督學(xué)習(xí)方法。Meta與廣告高管就“MetaUniverse”進(jìn)行的討論表明,該公司正在努力將“MetaUniverse”轉(zhuǎn)變?yōu)橐豁?xiàng)有利可圖的業(yè)務(wù),盡管“MetaUniverse”可能需要數(shù)年時(shí)間才能成熟。

此前 DeepMind,牛津大學(xué)提出的方法中,由于需要對(duì)數(shù)據(jù)集打標(biāo)簽,使得可學(xué)習(xí)的詞匯范圍受到限制。

AV—HuBERT 在預(yù)訓(xùn)練中使用特征聚類和掩蔽預(yù)測(cè)兩個(gè)步驟不斷迭代訓(xùn)練,從而實(shí)現(xiàn)自己學(xué)習(xí)對(duì)標(biāo)記的數(shù)據(jù)進(jìn)行分類。

這樣一來,對(duì)于一些音頻數(shù)據(jù)集很少的語(yǔ)言,AV—HuBERT 也能很好學(xué)習(xí)。

在使用不到十分之一的標(biāo)記數(shù)據(jù)情況下,該方法可將識(shí)別錯(cuò)誤率平均降低至此前方法的 75%。

事實(shí)上,在有噪音的環(huán)境中,能讀唇語(yǔ)的語(yǔ)音識(shí)別方法更能大顯身手。

Meta 研究人員表示,當(dāng)語(yǔ)音和背景噪音同樣音量時(shí),AV—HuBERT 的 WER 僅為 3.2%,而之前的最佳多模態(tài)模型為 25.5%。

仍存在弊端

顯然,在各方面數(shù)據(jù)上,Meta 新方法的表現(xiàn)著實(shí)讓人眼前一亮。

但是基于現(xiàn)實(shí)使用方面的考慮,有學(xué)者提出了一些擔(dān)憂。

其中,華盛頓大學(xué)的人工智能倫理學(xué)專家 Os Keye 就提到,對(duì)于因患有唐氏綜合征,中風(fēng)等疾病而導(dǎo)致面部癱瘓的人群,依賴讀唇的語(yǔ)音識(shí)別還有意義嗎。

對(duì)此,Meta 方面研究人員回應(yīng)稱,AV—HuBERT 方法更多關(guān)注于唇部動(dòng)作,并非整個(gè)面部。

而且與大多數(shù) AI 模型類似,AV—HuBERT 的性能與訓(xùn)練數(shù)據(jù)中不同人群的代表性樣本數(shù)量成正比。

論文地址:

GitHub 地址:

參考鏈接:

。

免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

鹤庆县| 乌拉特后旗| 新余市| 眉山市| 宝兴县| 古丈县| 天全县| 巧家县| 西充县| 增城市| 沾益县| 临武县| 白沙| 汤原县| 华坪县| 孟连| 兴仁县| 衡山县| 米易县| 七台河市| 长顺县| 商南县| 布拖县| 彭泽县| 平凉市| 北安市| 晴隆县| 五莲县| 石阡县| 建昌县| 密山市| 光泽县| 额尔古纳市| 隆化县| 富蕴县| 隆回县| 文昌市| 柘荣县| 明光市| 麦盖提县| 会理县|