當前位置：車訊網(wǎng) -> 熱點

吵翻天，ChatGPT到底懂不懂語言？PNAS：先研究什么是「理解」吧

時間：2023-04-08 12:03 | 責任編輯：安遠 | 來源: IT之家 | 關鍵詞： | 閱讀量：18600 |

語言模型理解了人類語言嗎？誰贊成，誰反對？

機器會不會思考這個問題就像問潛水艇會不會游泳一樣。——Dijkstra

早在 ChatGPT 發(fā)布之前，業(yè)界就已經(jīng)嗅到了大模型帶來的變革。

去年 10 月 14 日，圣塔菲研究所的教授 Melanie Mitchell 和 David C. Krakauer 在 arXiv 發(fā)布了一篇綜述，全面調(diào)研了所有關于「大規(guī)模預訓練語言模型是否可以理解語言」的相關爭論，文中描述了「正方」和「反方」的論點，以及根據(jù)這些論點衍生的更廣泛的智力科學的關鍵問題。

發(fā)表期刊:《美國科學院院報》

太長不看版:

支持「理解」的主要論點是大型語言模型能夠完成許多似乎需要理解后才能完成的任務。
反對「理解」的主要論點是，以人類的角度來看，大型語言模型的理解力非常脆弱，比如無法理解 prompt 間的微妙變化；并且語言模型也沒有現(xiàn)實世界的生活經(jīng)驗來驗證他們的知識，多模態(tài)的語言模型可能會緩解這個問題。

最關鍵的問題在于，目前還沒有人對「什么是理解」有一個可靠的定義，并且也不知道如何測試語言模型的理解能力，用于人類的測試不一定適用于測試大型語言模型的理解能力。

總之，大型語言模型能夠理解語言，但可能是以一種不同于人類的理解方式。

研究人員認為，可以開發(fā)一種新的智力科學，深入研究不同的理解類型，找出不同理解模式的優(yōu)勢和局限性，同時整合不同理解形式產(chǎn)生的認知差異。

論文的第一作者 Melanie Mitchell 是 Santa Fe 研究所的教授，她于 1990 年博士畢業(yè)于密歇根大學，導師為侯世達和約翰霍蘭德，她的主要研究方向為類比推理、復雜系統(tǒng)、遺傳算法和細胞自動機。

到底什么叫做「理解」？

「何為理解」一直困擾著哲學家、認知科學家和教育家，研究人員經(jīng)常以人類或其他動物作為「理解能力」的參照物。

直到最近，隨著大規(guī)模人工智能系統(tǒng)的興起，特別是大型語言模型的出現(xiàn)，在人工智能界掀起了一場激烈的辯論，即現(xiàn)在是否可以說機器已經(jīng)能夠理解自然語言，從而理解語言所描述的物理和社會情況。

這不是一場單純的學術辯論，機器理解世界的程度和方式對于人類能在多大程度上信任 AI 能夠執(zhí)行駕駛汽車、診斷疾病、照顧老人、教育兒童等任務，以便在人類有關的任務中采取有力且透明的行動。

目前的辯論表明，學術界在如何思考智能系統(tǒng)中的理解方面存在著一些分歧，特別是在依靠「統(tǒng)計相關性」和「因果機制」的心智模型中，分歧更加明顯。

不過，人工智能研究界對機器理解仍然達成了普遍共識，即，雖然人工智能系統(tǒng)在許多特定任務中表現(xiàn)出看似智能的行為，但它們并不像人類那樣理解它們所處理的數(shù)據(jù)。

比如說，面部識別軟件并不能理解面部是身體的一部分，也不理解面部表情在社會互動中的作用，更不能理解人類是如何以近乎無窮種方式來使用面部概念的。

同樣，語音轉文字和機器翻譯程序也并不理解它們所處理的語言，自動駕駛系統(tǒng)也不理解司機和行人用來避免事故的微妙眼神接觸或肢體語言的含義。

事實上，這些人工智能系統(tǒng)經(jīng)常被提及的脆性，即不可預測的錯誤和缺乏穩(wěn)健的泛化能力，是評估 AI 理解力的關鍵指標。

在過去的幾年里，大型語言模型在人工智能領域的受眾和影響力激增，也改變了一些人對機器理解語言前景的看法。

大型預訓練模型，也可以叫做基礎模型是具有數(shù)十億到上萬億個參數(shù)(權重)的深度神經(jīng)網(wǎng)絡，在海量自然語言語料庫(包括網(wǎng)絡文本、在線圖書等)上進行「預訓練」后得到。

模型在訓練期間的任務是預測輸入句子中的缺失部分，所以這種方法也叫做「自監(jiān)督學習」，由此產(chǎn)生的網(wǎng)絡是一個復雜的統(tǒng)計模型，可以得到訓練數(shù)據(jù)中的單詞和短語之間是如何相互關聯(lián)的。

這種模型可以用來生成自然語言，并為特定的自然語言任務進行微調(diào)，或者進一步訓練以更好地匹配「用戶意圖」，不過對于非專業(yè)人士和科學家來說，語言模型到底如何完成這些任務的，仍然是個謎。

神經(jīng)網(wǎng)絡的內(nèi)部運行原理在很大程度上是不透明的，即使是構建這些網(wǎng)絡的研究人員對這種規(guī)模的系統(tǒng)的直覺也是有限的。

神經(jīng)科學家 Terrence Sejnowski 這樣描述 LLMs 的涌現(xiàn)能力:

突破了某個閾值后，就好像外星人一下子出現(xiàn)了，可以用一種可怕的、人類交流的方式與我們交流。目前只有一件事是清楚的，大型語言模型并非人類，它們行為的某些方面似乎是智能的，但如果不是人類的智能，它們的智能的本質(zhì)是什么？

支持理解派 VS 反對理解派

盡管大型語言模型展現(xiàn)出的性能讓人震撼，但最先進的 LLMs 仍然容易受到脆性和非人類錯誤的影響。

不過可以觀察到，網(wǎng)絡性能隨著其參數(shù)數(shù)量和訓練語料規(guī)模的擴大而有明顯改善，這也使得該領域的一些研究者聲稱，只要有足夠大的網(wǎng)絡和訓練數(shù)據(jù)集，語言模型也許是多模式版本--將導致人類水平的智能和理解。

一個新的人工智能口號已經(jīng)出現(xiàn):唯一要做的就是提升模型規(guī)模！

這種說法也體現(xiàn)了人工智能研究界關于大型語言模型的爭論:

一派認為，語言模型能夠真正理解語言，并能以通用的方式進行推理。

例如，谷歌的 LaMDA 系統(tǒng)在文本上進行了預訓練，然后在對話任務上進行了微調(diào)，能夠在非常廣泛的領域內(nèi)與用戶進行對話。

另一派認為，像 GPT-3 或 LaMDA 這樣的大型預訓練模型，無論它們的語言輸出多么流暢，都不能擁有理解力，因為這些模型沒有實踐經(jīng)驗，也沒有世界的心智模型。

語言模型只是在預測大量文本集合中的單詞方面的訓練讓它們學會了語言的形式，遠遠沒有學會語言背后的意義。

僅靠語言訓練的系統(tǒng)永遠不會接近人類的智慧，即使從現(xiàn)在起一直訓練到宇宙消亡為止。很明顯，這些系統(tǒng)注定只能是淺層次的理解，永遠無法接近我們在人類身上看到的全身心的思考。

另一位學者認為，在談論這些系統(tǒng)時，智能、智能體以及推而廣之的理解是錯誤的，語言模型實際上是人類知識的壓縮庫，更類似于圖書館或百科全書，而不是智能體。

例如，人類知道「癢」讓我們發(fā)笑是什么意思，因為我們有身體；語言模型可以使用「癢」這個詞，但它顯然沒有過這種感覺，理解「癢」是將一個詞映射到一種感覺上，而不是映射到另一個詞。

那些站「LLMs 沒有理解能力」一派的人認為，雖然大型語言模型的流暢性令人驚訝，但我們的驚訝反映了我們對統(tǒng)計相關性在這些模型的規(guī)模上能生成什么缺乏直覺。

2022 年對自然語言處理社區(qū)的活躍研究人員進行的一項調(diào)查報告顯示了這場辯論中的明顯分歧。

當詢問 480 名受訪者是否同意關于 LLMs 是否能在原理上理解語言的說法，即「只對文本進行訓練的生成式語言模型，只要有足夠的數(shù)據(jù)和計算資源，就能在某種意義上理解自然語言」

調(diào)查結果五五開，一半同意，另一半(49%)不同意。

機器的理解不同于人類

雖然參與「LLM 理解能力」辯論的雙方都有充分的直覺來支持各自的觀點，但目前可用來深入了解理解力的且基于認知科學的方法并不足以回答關于 LLM 的這類問題。

事實上，一些研究人員已經(jīng)將心理測試應用于 LLMs，發(fā)現(xiàn)在某些情況下，LLMs 確實在思想理論測試中表現(xiàn)出類似人類的反應，以及在推理評估中表現(xiàn)出類似人類的能力和偏見。

雖然這些測試被認為是評估人類泛化能力的可靠智能體，但對于人工智能系統(tǒng)來說可能不是這樣。

大型語言模型有一種特別的能力來學習其訓練數(shù)據(jù)和輸入中的 token 之間的相關性，并且可以使用這種相關性來解決問題；相反，人類使用反映其現(xiàn)實世界經(jīng)驗的壓縮概念。

當把為人類設計的測試應用于 LLMs 時，對結果的解釋可能依賴于對人類認知的假設，而這些假設對這些模型來說可能根本不真實。

為了取得進展，科學家們將需要開發(fā)新的基準和探測方法，以了解不同類型的智能和理解的機制，包括我們所創(chuàng)造的新形式的「奇異的、類似心靈的實體」，目前也已經(jīng)有了一些相關工作。

隨著模型規(guī)模越來越大，能力更強的系統(tǒng)被開發(fā)出來后，關于 LLMs 中的理解能力的爭論強調(diào)了我們需要「擴展我們的智能科學」，以便使得「理解」是有意義的，無論是對人還是機器都是如此。

神經(jīng)科學家 Terrence Sejnowski 指出，專家們對 LLMs 智能的不同意見表明，我們基于自然智能的舊觀念是不夠的。

如果 LLMs 和相關模型通過利用前所未有的規(guī)模的統(tǒng)計相關性就能獲得成功，也許可以被認為是一種「新的理解形式」，一種能夠?qū)崿F(xiàn)非凡的、超人的預測能力的形式，例如 DeepMind 的 AlphaZero 和 AlphaFold 系統(tǒng)，它們分別給下棋和蛋白質(zhì)結構預測領域帶來了一種「外來」的直覺形式。

因此可以說，近年來，人工智能領域創(chuàng)造了具有新的理解模式的機器，很可能是一個全新的概念，隨著我們在追求智能的難以捉摸的本質(zhì)方面取得進展，這些新概念將繼續(xù)得到豐富。

那些需要大量編碼的知識、對性能要求很高的問題將會繼續(xù)促進大規(guī)模統(tǒng)計模型的開發(fā)，而那些擁有有限知識和強大因果機制的問題將有利于理解人類智能。

未來的挑戰(zhàn)是開發(fā)新的科學方法，以揭示不同形式的智能的詳細理解機制，辨別它們的優(yōu)勢和局限，并學習如何整合這些真正不同的認知模式。

參考資料:

免責聲明：此文內(nèi)容為本網(wǎng)站轉載企業(yè)宣傳資訊，僅代表作者個人觀點，與本網(wǎng)無關。僅供讀者參考，并請自行核實相關內(nèi)容。

二区三区少妇,变态夫妇波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

吵翻天，ChatGPT到底懂不懂語言？PNAS：先研究什么是「理解」吧

新車

最新內(nèi)容

二区三区少妇,变态夫妇 波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

吵翻天，ChatGPT到底懂不懂語言？PNAS：先研究什么是「理解」吧

新車

最新內(nèi)容

二区三区少妇,变态夫妇波多野结衣,日本欧美久久久久久,久久久婷婷热,69欧美精品,色色亚洲无码色色热热,亚洲中文字幕在线刺激,久久久久久66,性感美女131视频

吵翻天，ChatGPT到底懂不懂語言？PNAS：先研究什么是「理解」吧