GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當前資訊

來源：CSDN博客 | 2023-03-28 17:01:26 |

OneFlow編譯

(資料圖片僅供參考)

翻譯｜賈川、楊婷、徐佳渝編輯｜王金許

一朝成名天下知。ChatGPT/GPT-4相關的新聞接二連三刷屏朋友圈，如今，這些模型背后的公司OpenAI的知名度不亞于任何科技巨頭。

不過，就在ChatGPT問世前，OpenAI在GPT-3發(fā)布后的兩年多時間里陷入沉寂，甚至開始被人唱衰。實際上，OpenAI在這期間正在潛心打磨GPT-3.5。

在OneFlow去年3月發(fā)布的《深度學習崛起十年：“開掛”的OpenAI革新者》一文中，OpenAI聯(lián)合創(chuàng)始人、首席科學家就介紹了那些現(xiàn)在業(yè)內(nèi)人盡皆知的人類反饋的強化學習（RLHF）、AI對齊以及多模態(tài)等關鍵名詞和基本思路。

只不過，那時業(yè)內(nèi)似乎都在忙著比拼更大的模型參數(shù)，無暇顧及抑或并不在意OpenAI正在研究的工作，看過這個對話的人很少。

當然，即使看了他們的技術思路，相信他們能走通的人就更少了，能去真正實踐的也只有他們自己。直到ChatGPT大獲成功，同行也只好羨慕嫉妒拍自己大腿，并說上一句：不就是已有技術的組合。然后眼睜睜看著OpenAI一腳油門，甩出同行幾條街。

作為GPT系列模型背后“組裝者”和推動者，毫不夸張地說，沒有Ilya Sutskever，就沒有現(xiàn)在的ChatGPT以及GPT-4。他正在改變世界。

更驚人的是，十年前，他已經(jīng)改變過一次世界。那個引發(fā)深度學習新一輪革命浪潮的AlexNet也與Ilya有關，他是AlexNet的作者之一，后續(xù)隨之而來的AlphaGo、GPT、CLIP、DALL-E和Codex都離不開他的貢獻。

那么，從推動這一系列變革的科學家角度，他究竟如何看待當先ChatGPT、GPT-4模型的發(fā)展？他對AI的思考和堅定信念從何而來？OpenAI下一步研究方向是什么？他又如何看待AI對社會的影響？

在近期與英偉達CEO黃仁勛（GTC大會）以及Eye on AI播客的主持人Craig S. Smith的兩場對話中，Ilya對此進行了解答。

對話中的Ilya像是AI研究者中的苦行僧。不同于Sam Altman和Greg Brockman兩位創(chuàng)始人在交談中表現(xiàn)出的異常敏捷的表達能力，Ilya的語速相對平緩很多，但他的思考要比說出口的內(nèi)容更深遠。當你問他能否解決GPT模型一本正經(jīng)地胡說八道的問題時，他說，“讓我們拭目以待”，這個回答讓你感覺毛骨悚然的同時還會相信這家伙真的能做到。

就在業(yè)內(nèi)其他團隊正在研究怎么研發(fā)類ChatGPT追趕甚至“彎道超車”O(jiān)penAI時，GPT-5或許已經(jīng)在路上了。在這之前，最好看看Ilya怎么思考AI及其未來發(fā)展方向，或許會啟發(fā)我們提出更好的、不一樣的發(fā)展路徑。

OneFlow以QA形式對上述兩場對話進行了編譯整理，對于問題以下不作具體區(qū)分。（Craig的播客經(jīng)授權(quán)后由OneFlow編譯，內(nèi)容轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。播客：https://www.eye-on.ai/）

1AI界的“iPhone時刻”

Q：ChatGPT就是AI界的“iPhone時刻”，你是如何實現(xiàn)這一歷史性轉(zhuǎn)變的？

A：最開始，我們也不清楚該如何開展整個項目，而且這個領域與現(xiàn)在的發(fā)展走向也完全不同。2016年左右開始創(chuàng)辦OpenAI時，這一領域的研究者還很少，我們當時的同事大多來自Google/DeepMind，他們有從業(yè)經(jīng)驗，但思路相對而言比較狹窄，有所束縛。

那時我們有兩個大的基礎想法，它們的影響一直延續(xù)到今天。第一個想法是通過壓縮進行無監(jiān)督學習。現(xiàn)在看來這是理所應當，但在2016年，無監(jiān)督學習是一個還沒有被解決的問題，也沒有任何科學家有相關想法。

Yann LeCun當時到處說這是一個技術上的瓶頸。壓縮也不是人們經(jīng)常會談到的問題，但ChatGPT實際上確實壓縮了訓練數(shù)據(jù)，我們通過不斷訓練自回歸生成模型實現(xiàn)了數(shù)據(jù)壓縮。如果數(shù)據(jù)被壓縮得足夠好，就必須要提取其中存在的所有隱藏信息，這就是關鍵所在。

這也直接導致了我們研究情緒神經(jīng)元。OpenAI科學家Alec Radford訓練LSTM來預測亞馬遜評論的下一個字符時發(fā)現(xiàn)，如果你預測下一個字符足夠好，LSTM就會有一個與情緒對應的神經(jīng)元。這就很好地展示了無監(jiān)督學習的效果，也驗證了下一個字符預測的想法。這個發(fā)現(xiàn)對我們的影響很大。

但哪里能得到無監(jiān)督學習的數(shù)據(jù)呢？無監(jiān)督學習的難點不在于數(shù)據(jù)，更多關于為什么要這么做，以及意識到訓練神經(jīng)網(wǎng)絡來預測下一個字符是值得追求和探索的。

然后Transformer出來后，我們立即發(fā)現(xiàn)這個模型就是我們想要的，于是做出了GPT-1。

第二個想法就是強化學習。我有一個很強的信念是“越大越好”，OpenAI的目標是找到擴展的正確路徑。我們完成的第一個真正的大型項目是實時戰(zhàn)略游戲DOTA 2。當時我們訓練了一個強化學習的Agent來與自己對抗，目標是達到人類玩家的水平。

從DOTA的強化學習轉(zhuǎn)變?yōu)槿祟惙答伒膹娀瘜W習，再加上GPT技術基座，成就了今天的ChatGPT。

Q：有人認為，ChatGPT只是一個大型語言模型，但在我看來，那背后有自己的復雜系統(tǒng)。能否介紹一下你們是如何通過強化學習進行精調(diào)的？ChatGPT背后是否有多種系統(tǒng)進行支撐？

A：當我們訓練大型神經(jīng)網(wǎng)絡以準確預測互聯(lián)網(wǎng)上大量不同文本的下一個詞時，我們在做的其實是在學習一個世界模型。從表面看，神經(jīng)網(wǎng)絡只是在學習文本中的統(tǒng)計相關性，但實際上，學習統(tǒng)計相關性就能把知識壓縮得很好，神經(jīng)網(wǎng)絡所學習的是，它在生成文本過程中的一些表述，文本只是這個世界的一個映射，所以神經(jīng)網(wǎng)絡學習的是這個世界的多個方面的知識。

這就是它在準確預測下一個詞的任務中所學習到的，對下一個詞的預測越準，還原度越高，你看到的文本的準確度就越高。這就是ChatGPT模型在預訓練階段所做的，它盡可能多地從世界的映射（也就是文本）中學習關于世界的知識。

但這不能說明神經(jīng)網(wǎng)絡會表現(xiàn)出人類希望它做出的行為，這就需要第二階段的微調(diào)、人類反饋的強化學習以及其他形式的AI系統(tǒng)的協(xié)助，這個階段做得更好，神經(jīng)網(wǎng)絡越就越有用、可靠。

Q：多模態(tài)為GPT-4帶來的最大突破是什么？

A：多模態(tài)非常有意思。第一，多模態(tài)在視覺識別上特別有用。因為整個世界是視覺化的，人類和其他動物也是視覺動物，人腦1/3的灰質(zhì)都是用于視覺的，如果沒有視覺，神經(jīng)網(wǎng)絡的用處不會達到它應有的程度，GPT-4能夠很好地去理解這些圖像。

第二，除了從文本中學習外，我們還能從圖像中學習關于這個世界的知識，盡管這看起來還不太明確。一個人可能一生之中會聽到10億個詞，對我們來說，有盡可能多的信息來源很重要。

同樣，這也適用于神經(jīng)網(wǎng)絡。即使是視覺信息，也會通過文本緩慢傳播，如果再加上視覺信息，模型就能學到文本中原本沒有的信息。

Q：相比ChatGPT，GPT-4在哪些方面有所改進？

A：ChatGPT版本有時會錯誤地理解問題，給出的回答有的很不理想，但GPT-4好多了，還能會以更快的方式去解決難題，簡而言之，就是可靠性更高了。 GPT-4是在ChatGPT的基礎上進行改進的。GPT-4的訓練大約始于6-8個月前，它的預測能力更加準確，這得益于其更好的神經(jīng)網(wǎng)絡，使其能夠更加精準地預測下一個單詞，并深入理解文本。

GPT-4為什么能更精準地預測下一個單詞，為什么這會帶來更深的理解能力？就像你讀偵探小說時，情節(jié)、事件以及其他線索都不清楚，使你無法準確預測故事結(jié)局。但當你閱讀小說的最后一頁時，就可以很容易推測出兇手是誰，這是因為你在閱讀過程中積累了大量的知識和經(jīng)驗。同樣地，GPT-4的更大訓練數(shù)據(jù)和神經(jīng)網(wǎng)絡可以幫助它更好地理解文本，從而更準確地預測下一個單詞。

Q：從ChatGPT到GPT-4，有哪些能力讓你覺得很驚艷？

A：一方面是模型的可靠性，另一方面，最讓我覺得驚艷的就是，這些模型真的有效。我在AI領域差不多有二十多年了，神經(jīng)網(wǎng)絡從最開始毫不起眼的工作慢慢演進，通過更大的數(shù)據(jù)集訓練之后，變得越來越強，盡管基礎算法不同，但訓練方式是類似的。我經(jīng)常會感嘆于人工神經(jīng)元的想法居然真的有效。

“智能”背后的工作原理

Q：你是何時對計算機科學感興趣的？這種興趣來自最初的一時沖動？還是由腦科學、神經(jīng)科學等興趣引發(fā)的？

A：我出生于俄羅斯，在以色列長大，十多歲時隨父母移民到了加拿大。根據(jù)父母的說法，我從小就表現(xiàn)出了對AI的興趣。我一直想搞清楚意識（consciousness）這個東西，對一切能夠幫我了解意識的東西感興趣。在這方面，AI似乎是個很好的切入點。

17歲時，我就開始跟著Geoffrey Hinton在多倫多大學做研究了。當時，深度學習是人工智能領域最重要、最難接觸的部分，我一直想做這方面的研究。

現(xiàn)在，我們理所當然地認為計算機是可以學習的，但在2003年，情況恰恰相反，AI領域的最大成就是國際象棋引擎深藍（Deep Blue）。當時AI的發(fā)展程度還比較低級，就拿國際象棋來說，AI只是通過簡單的方法尋找棋子的最佳走位。

這種方法難以用于實戰(zhàn)，因為當時人們還沒有搞清楚該怎么讓AI學習，但我對此很感興趣，幸運的是，Geoff是多倫多大學的教授，我有機會在學校見他，見面后一拍即合，我很快加入了他的團隊。

Q：你只是單純地對機器學習感興趣，還是與Geoff一樣，希望借助機器學習來了解大腦的奧秘？

A：AI涵蓋的領域非常廣泛，人們?nèi)胄蠥I領域的動機也各有不同，而我想要弄清楚“智能”背后的工作原理。

現(xiàn)在，對這個問題我們已經(jīng)有了一些答案?！爸悄堋钡谋澈笫且粡埓笮蜕窠?jīng)網(wǎng)絡，我們對神經(jīng)網(wǎng)絡的工作原理也有了一定程度的了解。但在當時，雖然神經(jīng)網(wǎng)絡已經(jīng)存在，卻沒人知道它的用處。

所以“智能”到底是如何運作的？到底該怎么做才能讓計算機變得稍微智能一點？

那時的我有一個非常明確的想法：在AI領域作出真實、有效的貢獻。當時AI屆看似人多，貢獻也層出不窮，但卻沒有取得任何實質(zhì)性的成就，就像一片荒蕪之地，看不到希望。這些就是我最初從事AI的動力。

Q：Geoff曾說，卷積神經(jīng)網(wǎng)絡（CNN）的突破促使你參加了ImageNet競賽，而Alex用他高超的編程技能訓練了神經(jīng)網(wǎng)絡。

A：簡而言之，當時我意識到，如果在一個足夠大的數(shù)據(jù)集上訓練大型深度神經(jīng)網(wǎng)絡，讓這個神經(jīng)網(wǎng)絡去處理復雜任務（比如視覺等），只要堅持訓練下去，就能成功。

這背后的邏輯是：人腦是擁有神經(jīng)元的神經(jīng)網(wǎng)絡，可以快速處理視覺等復雜任務，可以得出，其它某些神經(jīng)網(wǎng)絡也可以很好地做到這一點。因此，我們需要一個較小但相關的神經(jīng)網(wǎng)絡，并用數(shù)據(jù)對其進行訓練。計算機內(nèi)部最好的神經(jīng)網(wǎng)絡將與執(zhí)行這項任務的神經(jīng)網(wǎng)絡進行關聯(lián)。當時的一種說法是，大型深度神經(jīng)網(wǎng)絡可以完成這一任務。

另外，我們要有訓練工具（Geoff的實驗室完成了這部分的技術工作），將這兩點相結(jié)合（一是神經(jīng)網(wǎng)絡要足夠大，確保訓練時正常運行；二是指定解決方案的數(shù)據(jù)），我們就可以訓練神經(jīng)網(wǎng)絡，ImageNet競賽剛好滿足了我們的需求。Alex有快速卷積核，ImageNet擁有足夠大的數(shù)據(jù)，而我們抓住了這個機會，做了一些前所未有的嘗試，并取得了成功。

Q：Geoff曾提出一個非常有趣的觀點：與人腦相比，具有大量參數(shù)的大型模型，尤其是大型語言模型，可以用相對較少的參數(shù)處理大量數(shù)據(jù)。相比之下，人類大腦有數(shù)以萬億計的參數(shù)，但處理的數(shù)據(jù)量相對較小。你是否思考過這個問題？

A：特別是在模型訓練的早期階段，現(xiàn)有神經(jīng)網(wǎng)絡技術結(jié)構(gòu)確實需要大量數(shù)據(jù)。然而，在模型訓練的后期階段，對數(shù)據(jù)的需求會逐漸減少，這也是模型能夠快速學習的原因。雖然模型的學習速度不及人類，但已經(jīng)相當迅速了。

從某個角度來看，我們并不一定關心是否需要大量數(shù)據(jù)才能實現(xiàn)目標。但從更普遍角度，從較少的數(shù)據(jù)中學到更多知識是可能的，盡管這需要一些富有創(chuàng)意的想法。

從少量的數(shù)據(jù)中學習更多知識將會開啟其他可能性，使我們能夠向AI傳授其缺乏的技能，并且更易傳遞我們的期望和偏好，以更精確地控制其行為。雖然經(jīng)過訓練后的語言模型可以快速學習知識，但還有更多的機會可以利用。

擴展的對象更重要

Q：2017年，《Attention Is All You Need》一文提出了自注意機制和Transformer模型。那么GPT項目的研發(fā)是如何開始的？

A：在OpenAI早期，我們的工作重心是“預測下一件事就是你所需的一切（predicting the next thing is all you need）”。當時，我們想利用有限的神經(jīng)網(wǎng)絡去預測下一個單詞、像素，在我們看來預測就是壓縮（compression）。我們想知道預測下一個單詞能發(fā)展到什么程度，想知道預測能否解決無監(jiān)督學習。在GPT之前，無監(jiān)督學習就是機器學習的最高目標，是大家心目中的圣杯。

雖然現(xiàn)在人們已經(jīng)徹底掌握了無監(jiān)督學習，它已不再是人們關注的焦點，但它曾經(jīng)確實是機器學習的最高目標，是一大難點。當時，我對這方面的研究非常感興趣，因為足夠好的預測可以幫助我們進行無監(jiān)督學習，理想狀態(tài)是實現(xiàn)全部數(shù)據(jù)集的無監(jiān)督學習。

當時，我們使用的是遞歸神經(jīng)網(wǎng)絡（RNN），但它無法勝任上述任務?！禔ttention Is All You Need》論文發(fā)表以后，我們很快意識到Transformer可以解決當前神經(jīng)網(wǎng)絡學習的長程依賴（long-term dependencies）的局限問題。

這其實是技術問題，但我們立刻切換到Transformer。就這樣，初期GPT開始萌芽、發(fā)展起來，有了Transformer，GPT運行越來越順利，變得越來越大，隨后我們意識到，可以讓它一直不斷擴大，就這樣最終發(fā)展到了GPT-3，并走到了現(xiàn)在這個階段。

Q：Richard Sutton（強化學習先驅(qū)）一直強調(diào)“擴展（scale）是我們所需要的一切”，而不需要新的算法。這一觀點是否對你有影響或者是你們想到一塊兒去了？

A：他的想法并沒有影響到我。盡管Rich的《慘痛教訓（The Bitter Lesson）》一文非常有說服力，我們也很樂意看到其他人的類似想法，但我認為，這篇文章的觀點其實有點夸大其詞，或者至少人們從中得出的觀點“不管做什么，擴展就對了”是夸張的說法。這種說法是不正確的。

我們需要擴展一些可以從中受益的特定事物。深度學習讓我們首次實現(xiàn)了對擴展的有效利用，并從中獲得了回報，這是深度學習的一大突破。在此之前，大型計算機集群的作用是什么？可能僅限于天氣模擬、物理模擬、電影制作等等，除此之外沒有任何真實的需求。

事實上，深度神經(jīng)網(wǎng)絡越大、訓練數(shù)據(jù)越多，運行的效果就越好，這是第一個有趣的擴展案例。將來我們需要擴展的事物可能會出現(xiàn)變化，這種變化也許更有利于擴展，但現(xiàn)在我們還不知道變化的規(guī)模，在搞清楚它的規(guī)模之后，你可能又會驚訝于它的變化之微小。

總之，擴展的對象十分重要。現(xiàn)在，我們只是找到了一個能夠獲得回報的擴展對象。

Q：聽你說過，需要更快的處理器才能進一步擴展模型。模型擴展（scaling of models）似乎是無止境的，但訓練這些模型所需的計算能力已經(jīng)接近極限，或者至少達到了社會公認的極限。

A：我記不太清你提及的具體評論，但在處理器方面，越快越好的邏輯不言而喻，我們確實需要更快、更多的處理器。不過，隨著計算能力的需求不斷提高，對計算資源的投入成本也在持續(xù)上升。

問題的關鍵不在于成本是否高昂，而在于我們能否通過投入成本得到超過其本身的價值。如果你投入了巨大的成本但沒有獲得任何價值，那么這樣的代價肯定不值得。但是，如果你獲得了非常有用、極具價值的東西，能夠解決許多問題，那付出的成本就是值得的。

大型語言模型的局限性

Q：目前，大型語言模型的局限性在于，它們所擁有的知識只限于它們所訓練過的語種，而大多數(shù)人類知識都是非語言性的。它們的目標是滿足prompt的統(tǒng)計一致性（statistical consistency），而對語言所涉及的現(xiàn)實沒有基本的理解。

A：其實，很難確定什么是語言模型的局限性。比如，兩年前人們曾對當時的局限性高談闊論，但現(xiàn)在的局限性跟當時相比又完全不同。因此相比于談論局限性，將注意力放在當下的發(fā)展更為重要，畢竟誰又能保證目前的局限性還會在兩年后仍制約著語言模型的發(fā)展呢？至少我沒這個自信。

另一方面，有人認為模型只是在學習統(tǒng)計規(guī)律，因此它們不知道世界的本質(zhì)究竟是什么。但我認為，學習統(tǒng)計規(guī)律比我們眼睛看到的更重要。之所以現(xiàn)在才有這個觀點，是因為我們還沒有（至少大多數(shù)人沒有）真正在神經(jīng)網(wǎng)絡上花費很多時間，而神經(jīng)網(wǎng)絡在一定程度上是統(tǒng)計學。

什么是統(tǒng)計模型？其實只是擬合一些參數(shù)，比如真實發(fā)生的事情。預測也是一種統(tǒng)計現(xiàn)象，不過需要了解產(chǎn)生數(shù)據(jù)的真正底層過程才能更多地對數(shù)據(jù)進行壓縮，進而完成預測。在這個過程中，你需要更多地了解這個產(chǎn)生數(shù)據(jù)的世界。

隨著生成模型變得越來越好，理解程度也會越來越高，它們對整個世界的了解會讓我們?yōu)橹痼@。而其中諸多精妙之處，卻不止存在于現(xiàn)世，那是一個透過文本鏡頭才能看到的世界。

它們了解到的世界是文字鏡頭映射出來的世界：學習互聯(lián)網(wǎng)上人類生成的各類文本。但這些文本其實也表達了整個世界。

一個很有意義和啟發(fā)性的例子是，Sydney是由ChatGPT支持的Bing衍生出的一種模式，當用戶對Sydney說，Google是比Bing更好的搜索引擎時，Sydney就會變得好斗、咄咄逼人。

那么，我們該如何看待這種現(xiàn)象？這又意味著什么？有人會說，它只是在預測人類在這種情況下會怎么做。沒錯，人類確實會這么做，但這也許意味著用心理學語言開始理解神經(jīng)網(wǎng)絡的行為。

Q：事實上，神經(jīng)網(wǎng)絡有時會產(chǎn)生“幻覺”，而語言模型在學習世界、思想、概念等方面的表現(xiàn)要好得多，但輸出方面卻不盡人意，當我向ChatGPT詢問關于我的個人信息時，它識別出我是一名記者，但它卻給我冠上了很多沒有獲得過的榮譽。在你們未來的研究中，是否有措施來解決這個問題？

A：關于這一過程需要理解的是：在預訓練階段，我們只是訓練語言模型，希望學習關于這個世界的一切；在人類反饋的強化學習（RLHF）階段，我們關注的是輸出結(jié)果。如果輸出不合適或者不合理時，就會停止這樣的輸出。模型很快就能學會生成恰當?shù)妮敵觥?/p>

現(xiàn)在的問題在于輸出水平，其實預訓練階段的情況并非如此。神經(jīng)網(wǎng)絡確實有編造回答的傾向，即使是ChatGPT也會時不時的胡亂編造，這極大地限制了模型的實用性。我希望能通過改進強化學習反饋步驟來阻止神經(jīng)網(wǎng)絡產(chǎn)生“幻覺”。

此時你可能會問，它們真的會學習嗎？我的答案是：讓我們拭目以待。

Q：如果我告訴ChatGPT，它的回答有誤，那么這是在對其進行訓練，還是內(nèi)部會給它一些懲罰或者獎勵，以便下次回答得更加準確。

A：我們現(xiàn)在的做法是雇傭人工訓練員來教神經(jīng)網(wǎng)絡（比如ChatGPT）如何表現(xiàn)。到目前為止，他們指定所需行為的方式略有不同。但事實上，你所描述的就是正確的訓練方式：只需與它互動，它會從你的反應中推斷自己的回答是否讓你滿意。

因此，輸出結(jié)果不好，ChatGPT下次就應該做些不同的事情。雖然“幻覺”是一個很大的問題，但這種方法完全可以解決這些問題。

Q：Yann LeCun（圖靈獎得主，CNN網(wǎng)絡發(fā)明者）認為，大型語言模型所缺失的是一種非語言的基礎世界模型（underlying world model），語言模型的構(gòu)建可以對其進行參考。我想聽聽你對此的看法，以及你是否在這方面有所探索。

A：我看過他的提議，其中有許多想法，并且與當前技術范式可能存在一些細微差異，但在我看來，這些差異并不是非常顯著。

首先，對于一個系統(tǒng)來說，擁有多模態(tài)的理解是可取的，這樣可以使其從多方位（不僅僅從文本）來了解世界、了解人類以及與之相關的情況，如此一來，系統(tǒng)也能更好地理解它應該解決的任務，滿足人類的需求。

在這方面，我們已經(jīng)做了相當多的工作，比如Clip和Dall-E，它們都朝著多模態(tài)方向發(fā)展。這并不是一個非此即彼的情況，有人說如果沒有視覺，不從視頻中理解世界，就不能處理這方面的工作。

但我想說的是：有些東西從圖像和圖表中學習起來要容易得多，但我們?nèi)匀豢梢酝ㄟ^文本來進行學習，只是學習速度要慢一點。

以顏色舉例。雖然我們不能從文本中學習顏色的概念，但每個神經(jīng)網(wǎng)絡都通過“嵌入（embeddings）”表示單詞、句子和概念，這些embeddings也就是高維向量，可以知道什么與什么類似，神經(jīng)網(wǎng)絡如何看待這個概念或那個概念。所以機器可以通過嵌入向量來判斷顏色，紫色比紅色更接近藍色，但比橙色更接近紅色，如果有視覺感知，顏色之間的差異一眼就可看出，但僅從文本來分辨，可能需要更長的時間，也許你知道怎么交流，已經(jīng)了解了單詞和語法，但也需要一段時間才能真正理解顏色。

因此，多模態(tài)非必要，但絕對有用。雖然這是一個很好的發(fā)展方向，但我并不認為必須在當前方案和多模態(tài)中二選一。

Yann LeCun的論文中提到：最大的挑戰(zhàn)之一是，預測具有不確定性的高維向量。我們需要采取特定方法來解決這個問題。我發(fā)現(xiàn)，其實當前的自回歸Transformers已經(jīng)具有該屬性，但論文中沒有承認這一點。

舉兩個例子。一是給定某書中的一頁，預測下一頁。這有很多種情況，是一個非常復雜的高維空間，但自回歸Transformers能處理得很好。對于圖像處理也是如此。比如OpenAI在研發(fā)iGPT時，將Transformer應用于像素預測，能以非常復雜和微妙的方式生成圖像，效果非常好。它有很不錯的無監(jiān)督表示學習能力。

Dall-E 1的情況也是一樣。因此，論文中強調(diào)當前方法無法預測高維分布的部分是錯誤的，那絕對可以勝任。

Q：現(xiàn)在有一種觀點：安排一批人類訓練員與大型語言模型（如ChatGPT）一起工作，并通過強化學習對其進行指導。僅從直覺來看，這并不能有效教會模型理解潛在現(xiàn)實（underlying reality）。

A：我不同意這個說法。首先，我們的預訓練模型已經(jīng)掌握了關于潛在現(xiàn)實的必要知識，并對語言及其產(chǎn)生過程有了深入了解。

也許我需要再次強調(diào)一點。在大型語言模型中，學習到的文本數(shù)據(jù)是對真實世界進程（real-world processes）的壓縮表示，其中包含有關人類思想、感受，以及人類所處環(huán)境和人際互動等方面的信息。

一個人可能處于不同情境，而這些情境所涉及的信息是壓縮進程的一部分，并由神經(jīng)網(wǎng)絡表示，以生成新的文本內(nèi)容。語言模型越好，生成模型的表現(xiàn)越好，保真度越高，就能更好捕捉這個進程。要想構(gòu)建一個高質(zhì)量的系統(tǒng)，只需遵循“如果方法有效，則繼續(xù)使用”的策略。

那些指導模型學習的訓練員團隊本身也在利用AI來輔助他們的工作。這些工具能夠高效地完成大量任務，但仍需要人類進行監(jiān)督和評估，以確保結(jié)果的高可靠性，這與人類的教育過程沒什么不同。

我們會積極尋求方法來提高模型的效率和準確性，以構(gòu)建表現(xiàn)良好的語言模型。為了確保模型能夠識別幻覺（hallucination），需要進行額外的訓練。一旦模型掌握了該技能，就可以將其用于處理業(yè)務需求了。而強化學習人類訓練員或者其他類似的方法能夠教會模型辨識幻覺。雖然目前還沒有確切的結(jié)論，但我們很快就會找到答案。

Q：你近期關注的研究方向是什么？

A：提高模型的可靠性和可控性，加快模型從少量數(shù)據(jù)中學習知識的速度，并降低對人工指導的依賴，避免出現(xiàn)“幻覺”。我認為這一系列問題密不可分。此外，還需要注意這些問題所涉及的時間跨度。

AI對社會管理的影響

Q：你談過AI給民主帶來的影響。若是擁有充足的數(shù)據(jù)和足夠大的模型，就可以用這些數(shù)據(jù)來訓練模型以獲得讓所有人都滿意的最優(yōu)決策。你覺得這會幫助人類進行社會管理嗎？

A：我們還無法預測政府將如何利用這種技術來獲取各種建議，不過在民主問題上，未來可能會出現(xiàn)這樣一種情況：由于神經(jīng)網(wǎng)絡無處不在且對社會產(chǎn)生巨大影響，我們將不得不建立某種民主流程，讓公民向神經(jīng)網(wǎng)絡提供信息，包括他們希望的事務狀態(tài)、行為方式等。

這可能是一種高效的民主形式，即我們可以從每個公民身上獲取更多的信息并進行匯總，然后指定這些系統(tǒng)如何采取行動。當然，這會引發(fā)許多問題。

當前的模型還有很多提升空間，未來，特別是在訓練和使用模型方面會發(fā)生一些變化，從而使模型能夠更好地解決這類問題。

Q：按你所說，每個人都有機會輸入數(shù)據(jù)，然而這也牽涉到世界模型的問題。你是否認為AI系統(tǒng)最終可以變得足夠強大，能夠理解某種情境并分析所有的變量？

A：分析所有變量意味著需要綜合考慮情境中的所有因素，確定重要變量，并進行深入研究。這個過程類似于讀書，我可以選擇讀一百本書，也可以仔細閱讀一本書，這樣就可以獲得更多。這種方法在一定程度上是值得推崇的，但也許在某種程度上，理解所有事情是基本不可能的。

舉個更簡單的例子：當社會或公司面臨復雜情況時，即使對于中等規(guī)模的公司來說，處理大量數(shù)據(jù)和分析信息的任務也超出了個人的能力范圍。然而，通過正確地構(gòu)建AI系統(tǒng)，就可以在各種情境下獲得極大的幫助。

其他人都在看

GPT-4，大增長時代的序幕

深度學習崛起十年：“開掛”的OpenAI革新者

OpenAI創(chuàng)始人：GPT-4的研究起源和構(gòu)建心法

ChatGPT作者Schulman：我們成功的秘密武器

比快更快，開源Stable Diffusion刷新作圖速度

OneEmbedding:單卡訓練TB級推薦模型不是夢

GLM訓練加速：性能最高提升3倍，顯存節(jié)省1/3

歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

關鍵詞：

GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當前資訊

本周資訊推薦

Windows11的Android模擬器沒有響應是哪里的問題？Win11安卓模擬器沒有響應修復方法

Windows11系統(tǒng)里面運行Android應用程序的要求有哪些？Win11運行安卓的配置要求

cmd里面使用wmic命令無效是什么情況？使用wmic查找產(chǎn)品密鑰時未找到怎么辦？

Windows11沙盒沒有互聯(lián)網(wǎng)連接修復方法 windows沙盒連接網(wǎng)絡失敗怎么辦？

Windows11無法識別NVMe固態(tài)硬盤是什么問題？NVMeSSD硬盤無法識別解決方法

熱點資訊

天津最好的肺結(jié)節(jié)醫(yī)院-天津國泰醫(yī)院

甲子園是什么（甲子園是什么意思） -環(huán)球熱門

小米線刷包（MIUI官方ROM倉庫）相關內(nèi)容簡介

H2是什么意思（女生對你說H2是什么意思？） -即時

年會節(jié)目推薦（14個精彩有趣的公司年會節(jié)目） -快播

GPT-4創(chuàng)造者：第二次改變AI浪潮的方向-當前資訊

圖片推薦

要聞

本周資訊推薦

熱點資訊