OneFlow編譯
(資料圖片僅供參考)
翻譯|賈川、楊婷、徐佳渝 編輯|王金許
一朝成名天下知。ChatGPT/GPT-4相關的新聞接二連三刷屏朋友圈,如今,這些模型背后的公司OpenAI的知名度不亞于任何科技巨頭。
不過,就在ChatGPT問世前,OpenAI在GPT-3發(fā)布后的兩年多時間里陷入沉寂,甚至開始被人唱衰。實際上,OpenAI在這期間正在潛心打磨GPT-3.5。
在OneFlow去年3月發(fā)布的《深度學習崛起十年:“開掛”的OpenAI革新者》一文中,OpenAI聯(lián)合創(chuàng)始人、首席科學家就介紹了那些現(xiàn)在業(yè)內(nèi)人盡皆知的人類反饋的強化學習(RLHF)、AI對齊以及多模態(tài)等關鍵名詞和基本思路。
只不過,那時業(yè)內(nèi)似乎都在忙著比拼更大的模型參數(shù),無暇顧及抑或并不在意OpenAI正在研究的工作,看過這個對話的人很少。
當然,即使看了他們的技術思路,相信他們能走通的人就更少了,能去真正實踐的也只有他們自己。直到ChatGPT大獲成功,同行也只好羨慕嫉妒拍自己大腿,并說上一句:不就是已有技術的組合。然后眼睜睜看著OpenAI一腳油門,甩出同行幾條街。
作為GPT系列模型背后“組裝者”和推動者,毫不夸張地說,沒有Ilya Sutskever,就沒有現(xiàn)在的ChatGPT以及GPT-4。他正在改變世界。
更驚人的是,十年前,他已經(jīng)改變過一次世界。那個引發(fā)深度學習新一輪革命浪潮的AlexNet也與Ilya有關,他是AlexNet的作者之一,后續(xù)隨之而來的AlphaGo、GPT、CLIP、DALL-E和Codex都離不開他的貢獻。
那么,從推動這一系列變革的科學家角度,他究竟如何看待當先ChatGPT、GPT-4模型的發(fā)展?他對AI的思考和堅定信念從何而來?OpenAI下一步研究方向是什么?他又如何看待AI對社會的影響?
在近期與英偉達CEO黃仁勛(GTC大會)以及Eye on AI播客的主持人Craig S. Smith的兩場對話中,Ilya對此進行了解答。
對話中的Ilya像是AI研究者中的苦行僧。不同于Sam Altman和Greg Brockman兩位創(chuàng)始人在交談中表現(xiàn)出的異常敏捷的表達能力,Ilya的語速相對平緩很多,但他的思考要比說出口的內(nèi)容更深遠。當你問他能否解決GPT模型一本正經(jīng)地胡說八道的問題時,他說,“讓我們拭目以待”,這個回答讓你感覺毛骨悚然的同時還會相信這家伙真的能做到。
就在業(yè)內(nèi)其他團隊正在研究怎么研發(fā)類ChatGPT追趕甚至“彎道超車”O(jiān)penAI時,GPT-5或許已經(jīng)在路上了。在這之前,最好看看Ilya怎么思考AI及其未來發(fā)展方向,或許會啟發(fā)我們提出更好的、不一樣的發(fā)展路徑。
OneFlow以QA形式對上述兩場對話進行了編譯整理,對于問題以下不作具體區(qū)分。(Craig的播客經(jīng)授權(quán)后由OneFlow編譯,內(nèi)容轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。播客:https://www.eye-on.ai/)
1AI界的“iPhone時刻”
Q:ChatGPT就是AI界的“iPhone時刻”,你是如何實現(xiàn)這一歷史性轉(zhuǎn)變的?
A:最開始,我們也不清楚該如何開展整個項目,而且這個領域與現(xiàn)在的發(fā)展走向也完全不同。2016年左右開始創(chuàng)辦OpenAI時,這一領域的研究者還很少,我們當時的同事大多來自Google/DeepMind,他們有從業(yè)經(jīng)驗,但思路相對而言比較狹窄,有所束縛。
那時我們有兩個大的基礎想法,它們的影響一直延續(xù)到今天。第一個想法是通過壓縮進行無監(jiān)督學習。現(xiàn)在看來這是理所應當,但在2016年,無監(jiān)督學習是一個還沒有被解決的問題,也沒有任何科學家有相關想法。
Yann LeCun當時到處說這是一個技術上的瓶頸。壓縮也不是人們經(jīng)常會談到的問題,但ChatGPT實際上確實壓縮了訓練數(shù)據(jù),我們通過不斷訓練自回歸生成模型實現(xiàn)了數(shù)據(jù)壓縮。如果數(shù)據(jù)被壓縮得足夠好,就必須要提取其中存在的所有隱藏信息,這就是關鍵所在。
這也直接導致了我們研究情緒神經(jīng)元。OpenAI科學家Alec Radford訓練LSTM來預測亞馬遜評論的下一個字符時發(fā)現(xiàn),如果你預測下一個字符足夠好,LSTM就會有一個與情緒對應的神經(jīng)元。這就很好地展示了無監(jiān)督學習的效果,也驗證了下一個字符預測的想法。這個發(fā)現(xiàn)對我們的影響很大。
但哪里能得到無監(jiān)督學習的數(shù)據(jù)呢?無監(jiān)督學習的難點不在于數(shù)據(jù),更多關于為什么要這么做,以及意識到訓練神經(jīng)網(wǎng)絡來預測下一個字符是值得追求和探索的。
然后Transformer出來后,我們立即發(fā)現(xiàn)這個模型就是我們想要的,于是做出了GPT-1。
第二個想法就是強化學習。我有一個很強的信念是“越大越好”,OpenAI的目標是找到擴展的正確路徑。我們完成的第一個真正的大型項目是實時戰(zhàn)略游戲DOTA 2。當時我們訓練了一個強化學習的Agent來與自己對抗,目標是達到人類玩家的水平。
從DOTA的強化學習轉(zhuǎn)變?yōu)槿祟惙答伒膹娀瘜W習,再加上GPT技術基座,成就了今天的ChatGPT。
Q:有人認為,ChatGPT只是一個大型語言模型,但在我看來,那背后有自己的復雜系統(tǒng)。能否介紹一下你們是如何通過強化學習進行精調(diào)的?ChatGPT背后是否有多種系統(tǒng)進行支撐?
A:當我們訓練大型神經(jīng)網(wǎng)絡以準確預測互聯(lián)網(wǎng)上大量不同文本的下一個詞時,我們在做的其實是在學習一個世界模型。從表面看,神經(jīng)網(wǎng)絡只是在學習文本中的統(tǒng)計相關性,但實際上,學習統(tǒng)計相關性就能把知識壓縮得很好,神經(jīng)網(wǎng)絡所學習的是,它在生成文本過程中的一些表述,文本只是這個世界的一個映射,所以神經(jīng)網(wǎng)絡學習的是這個世界的多個方面的知識。
這就是它在準確預測下一個詞的任務中所學習到的,對下一個詞的預測越準,還原度越高,你看到的文本的準確度就越高。這就是ChatGPT模型在預訓練階段所做的,它盡可能多地從世界的映射(也就是文本)中學習關于世界的知識。
但這不能說明神經(jīng)網(wǎng)絡會表現(xiàn)出人類希望它做出的行為,這就需要第二階段的微調(diào)、人類反饋的強化學習以及其他形式的AI系統(tǒng)的協(xié)助,這個階段做得更好,神經(jīng)網(wǎng)絡越就越有用、可靠。
Q:多模態(tài)為GPT-4帶來的最大突破是什么?
A:多模態(tài)非常有意思。第一,多模態(tài)在視覺識別上特別有用。因為整個世界是視覺化的,人類和其他動物也是視覺動物,人腦1/3的灰質(zhì)都是用于視覺的,如果沒有視覺,神經(jīng)網(wǎng)絡的用處不會達到它應有的程度,GPT-4能夠很好地去理解這些圖像。
第二,除了從文本中學習外,我們還能從圖像中學習關于這個世界的知識,盡管這看起來還不太明確。一個人可能一生之中會聽到10億個詞,對我們來說,有盡可能多的信息來源很重要。
同樣,這也適用于神經(jīng)網(wǎng)絡。即使是視覺信息,也會通過文本緩慢傳播,如果再加上視覺信息,模型就能學到文本中原本沒有的信息。
Q:相比ChatGPT,GPT-4在哪些方面有所改進?
A:ChatGPT版本有時會錯誤地理解問題,給出的回答有的很不理想,但GPT-4好多了,還能會以更快的方式去解決難題,簡而言之,就是可靠性更高了。 GPT-4是在ChatGPT的基礎上進行改進的。GPT-4的訓練大約始于6-8個月前,它的預測能力更加準確,這得益于其更好的神經(jīng)網(wǎng)絡,使其能夠更加精準地預測下一個單詞,并深入理解文本。
GPT-4為什么能更精準地預測下一個單詞,為什么這會帶來更深的理解能力?就像你讀偵探小說時,情節(jié)、事件以及其他線索都不清楚,使你無法準確預測故事結(jié)局。但當你閱讀小說的最后一頁時,就可以很容易推測出兇手是誰,這是因為你在閱讀過程中積累了大量的知識和經(jīng)驗。同樣地,GPT-4的更大訓練數(shù)據(jù)和神經(jīng)網(wǎng)絡可以幫助它更好地理解文本,從而更準確地預測下一個單詞。
Q:從ChatGPT到GPT-4,有哪些能力讓你覺得很驚艷?
A:一方面是模型的可靠性,另一方面,最讓我覺得驚艷的就是,這些模型真的有效。我在AI領域差不多有二十多年了,神經(jīng)網(wǎng)絡從最開始毫不起眼的工作慢慢演進,通過更大的數(shù)據(jù)集訓練之后,變得越來越強,盡管基礎算法不同,但訓練方式是類似的。我經(jīng)常會感嘆于人工神經(jīng)元的想法居然真的有效。
2
“智能”背后的工作原理
Q:你是何時對計算機科學感興趣的?這種興趣來自最初的一時沖動?還是由腦科學、神經(jīng)科學等興趣引發(fā)的?
A:我出生于俄羅斯,在以色列長大,十多歲時隨父母移民到了加拿大。根據(jù)父母的說法,我從小就表現(xiàn)出了對AI的興趣。我一直想搞清楚意識(consciousness)這個東西,對一切能夠幫我了解意識的東西感興趣。在這方面,AI似乎是個很好的切入點。
17歲時,我就開始跟著Geoffrey Hinton在多倫多大學做研究了。當時,深度學習是人工智能領域最重要、最難接觸的部分,我一直想做這方面的研究。
現(xiàn)在,我們理所當然地認為計算機是可以學習的,但在2003年,情況恰恰相反,AI領域的最大成就是國際象棋引擎深藍(Deep Blue)。當時AI的發(fā)展程度還比較低級,就拿國際象棋來說,AI只是通過簡單的方法尋找棋子的最佳走位。
這種方法難以用于實戰(zhàn),因為當時人們還沒有搞清楚該怎么讓AI學習,但我對此很感興趣,幸運的是,Geoff是多倫多大學的教授,我有機會在學校見他,見面后一拍即合,我很快加入了他的團隊。
Q:你只是單純地對機器學習感興趣,還是與Geoff一樣,希望借助機器學習來了解大腦的奧秘?
A:AI涵蓋的領域非常廣泛,人們?nèi)胄蠥I領域的動機也各有不同,而我想要弄清楚“智能”背后的工作原理。
現(xiàn)在,對這個問題我們已經(jīng)有了一些答案?!爸悄堋钡谋澈笫且粡埓笮蜕窠?jīng)網(wǎng)絡,我們對神經(jīng)網(wǎng)絡的工作原理也有了一定程度的了解。但在當時,雖然神經(jīng)網(wǎng)絡已經(jīng)存在,卻沒人知道它的用處。
所以“智能”到底是如何運作的?到底該怎么做才能讓計算機變得稍微智能一點?
那時的我有一個非常明確的想法:在AI領域作出真實、有效的貢獻。當時AI屆看似人多,貢獻也層出不窮,但卻沒有取得任何實質(zhì)性的成就,就像一片荒蕪之地,看不到希望。這些就是我最初從事AI的動力。
Q:Geoff曾說,卷積神經(jīng)網(wǎng)絡(CNN)的突破促使你參加了ImageNet競賽,而Alex用他高超的編程技能訓練了神經(jīng)網(wǎng)絡。
A:簡而言之,當時我意識到,如果在一個足夠大的數(shù)據(jù)集上訓練大型深度神經(jīng)網(wǎng)絡,讓這個神經(jīng)網(wǎng)絡去處理復雜任務(比如視覺等),只要堅持訓練下去,就能成功。
這背后的邏輯是:人腦是擁有神經(jīng)元的神經(jīng)網(wǎng)絡,可以快速處理視覺等復雜任務,可以得出,其它某些神經(jīng)網(wǎng)絡也可以很好地做到這一點。因此,我們需要一個較小但相關的神經(jīng)網(wǎng)絡,并用數(shù)據(jù)對其進行訓練。計算機內(nèi)部最好的神經(jīng)網(wǎng)絡將與執(zhí)行這項任務的神經(jīng)網(wǎng)絡進行關聯(lián)。當時的一種說法是,大型深度神經(jīng)網(wǎng)絡可以完成這一任務。
另外,我們要有訓練工具(Geoff的實驗室完成了這部分的技術工作),將這兩點相結(jié)合(一是神經(jīng)網(wǎng)絡要足夠大,確保訓練時正常運行;二是指定解決方案的數(shù)據(jù)),我們就可以訓練神經(jīng)網(wǎng)絡,ImageNet競賽剛好滿足了我們的需求。Alex有快速卷積核,ImageNet擁有足夠大的數(shù)據(jù),而我們抓住了這個機會,做了一些前所未有的嘗試,并取得了成功。
Q:Geoff曾提出一個非常有趣的觀點:與人腦相比,具有大量參數(shù)的大型模型,尤其是大型語言模型,可以用相對較少的參數(shù)處理大量數(shù)據(jù)。相比之下,人類大腦有數(shù)以萬億計的參數(shù),但處理的數(shù)據(jù)量相對較小。你是否思考過這個問題?
A:特別是在模型訓練的早期階段,現(xiàn)有神經(jīng)網(wǎng)絡技術結(jié)構(gòu)確實需要大量數(shù)據(jù)。然而,在模型訓練的后期階段,對數(shù)據(jù)的需求會逐漸減少,這也是模型能夠快速學習的原因。雖然模型的學習速度不及人類,但已經(jīng)相當迅速了。
從某個角度來看,我們并不一定關心是否需要大量數(shù)據(jù)才能實現(xiàn)目標。但從更普遍角度,從較少的數(shù)據(jù)中學到更多知識是可能的,盡管這需要一些富有創(chuàng)意的想法。
從少量的數(shù)據(jù)中學習更多知識將會開啟其他可能性,使我們能夠向AI傳授其缺乏的技能,并且更易傳遞我們的期望和偏好,以更精確地控制其行為。雖然經(jīng)過訓練后的語言模型可以快速學習知識,但還有更多的機會可以利用。
3
擴展的對象更重要
Q:2017年,《Attention Is All You Need》一文提出了自注意機制和Transformer模型。那么GPT項目的研發(fā)是如何開始的?
A:在OpenAI早期,我們的工作重心是“預測下一件事就是你所需的一切(predicting the next thing is all you need)”。當時,我們想利用有限的神經(jīng)網(wǎng)絡去預測下一個單詞、像素,在我們看來預測就是壓縮(compression)。我們想知道預測下一個單詞能發(fā)展到什么程度,想知道預測能否解決無監(jiān)督學習。在GPT之前,無監(jiān)督學習就是機器學習的最高目標,是大家心目中的圣杯。
雖然現(xiàn)在人們已經(jīng)徹底掌握了無監(jiān)督學習,它已不再是人們關注的焦點,但它曾經(jīng)確實是機器學習的最高目標,是一大難點。當時,我對這方面的研究非常感興趣,因為足夠好的預測可以幫助我們進行無監(jiān)督學習,理想狀態(tài)是實現(xiàn)全部數(shù)據(jù)集的無監(jiān)督學習。
當時,我們使用的是遞歸神經(jīng)網(wǎng)絡(RNN),但它無法勝任上述任務?!禔ttention Is All You Need》論文發(fā)表以后,我們很快意識到Transformer可以解決當前神經(jīng)網(wǎng)絡學習的長程依賴(long-term dependencies)的局限問題。
這其實是技術問題,但我們立刻切換到Transformer。就這樣,初期GPT開始萌芽、發(fā)展起來,有了Transformer,GPT運行越來越順利,變得越來越大,隨后我們意識到,可以讓它一直不斷擴大,就這樣最終發(fā)展到了GPT-3,并走到了現(xiàn)在這個階段。
Q:Richard Sutton(強化學習先驅(qū))一直強調(diào)“擴展(scale)是我們所需要的一切”,而不需要新的算法。這一觀點是否對你有影響或者是你們想到一塊兒去了?
A:他的想法并沒有影響到我。盡管Rich的《慘痛教訓(The Bitter Lesson)》一文非常有說服力,我們也很樂意看到其他人的類似想法,但我認為,這篇文章的觀點其實有點夸大其詞,或者至少人們從中得出的觀點“不管做什么,擴展就對了”是夸張的說法。這種說法是不正確的。
我們需要擴展一些可以從中受益的特定事物。深度學習讓我們首次實現(xiàn)了對擴展的有效利用,并從中獲得了回報,這是深度學習的一大突破。在此之前,大型計算機集群的作用是什么?可能僅限于天氣模擬、物理模擬、電影制作等等,除此之外沒有任何真實的需求。
事實上,深度神經(jīng)網(wǎng)絡越大、訓練數(shù)據(jù)越多,運行的效果就越好,這是第一個有趣的擴展案例。將來我們需要擴展的事物可能會出現(xiàn)變化,這種變化也許更有利于擴展,但現(xiàn)在我們還不知道變化的規(guī)模,在搞清楚它的規(guī)模之后,你可能又會驚訝于它的變化之微小。
總之,擴展的對象十分重要。現(xiàn)在,我們只是找到了一個能夠獲得回報的擴展對象。
Q:聽你說過,需要更快的處理器才能進一步擴展模型。模型擴展(scaling of models)似乎是無止境的,但訓練這些模型所需的計算能力已經(jīng)接近極限,或者至少達到了社會公認的極限。
A:我記不太清你提及的具體評論,但在處理器方面,越快越好的邏輯不言而喻,我們確實需要更快、更多的處理器。不過,隨著計算能力的需求不斷提高,對計算資源的投入成本也在持續(xù)上升。
問題的關鍵不在于成本是否高昂,而在于我們能否通過投入成本得到超過其本身的價值。如果你投入了巨大的成本但沒有獲得任何價值,那么這樣的代價肯定不值得。但是,如果你獲得了非常有用、極具價值的東西,能夠解決許多問題,那付出的成本就是值得的。
4
大型語言模型的局限性
Q:目前,大型語言模型的局限性在于,它們所擁有的知識只限于它們所訓練過的語種,而大多數(shù)人類知識都是非語言性的。它們的目標是滿足prompt的統(tǒng)計一致性(statistical consistency),而對語言所涉及的現(xiàn)實沒有基本的理解。
A:其實,很難確定什么是語言模型的局限性。比如,兩年前人們曾對當時的局限性高談闊論,但現(xiàn)在的局限性跟當時相比又完全不同。因此相比于談論局限性,將注意力放在當下的發(fā)展更為重要,畢竟誰又能保證目前的局限性還會在兩年后仍制約著語言模型的發(fā)展呢?至少我沒這個自信。
另一方面,有人認為模型只是在學習統(tǒng)計規(guī)律,因此它們不知道世界的本質(zhì)究竟是什么。但我認為,學習統(tǒng)計規(guī)律比我們眼睛看到的更重要。之所以現(xiàn)在才有這個觀點,是因為我們還沒有(至少大多數(shù)人沒有)真正在神經(jīng)網(wǎng)絡上花費很多時間,而神經(jīng)網(wǎng)絡在一定程度上是統(tǒng)計學。
什么是統(tǒng)計模型?其實只是擬合一些參數(shù),比如真實發(fā)生的事情。預測也是一種統(tǒng)計現(xiàn)象,不過需要了解產(chǎn)生數(shù)據(jù)的真正底層過程才能更多地對數(shù)據(jù)進行壓縮,進而完成預測。在這個過程中,你需要更多地了解這個產(chǎn)生數(shù)據(jù)的世界。
隨著生成模型變得越來越好,理解程度也會越來越高,它們對整個世界的了解會讓我們?yōu)橹痼@。而其中諸多精妙之處,卻不止存在于現(xiàn)世,那是一個透過文本鏡頭才能看到的世界。
它們了解到的世界是文字鏡頭映射出來的世界:學習互聯(lián)網(wǎng)上人類生成的各類文本。但這些文本其實也表達了整個世界。
一個很有意義和啟發(fā)性的例子是,Sydney是由ChatGPT支持的Bing衍生出的一種模式,當用戶對Sydney說,Google是比Bing更好的搜索引擎時,Sydney就會變得好斗、咄咄逼人。
那么,我們該如何看待這種現(xiàn)象?這又意味著什么?有人會說,它只是在預測人類在這種情況下會怎么做。沒錯,人類確實會這么做,但這也許意味著用心理學語言開始理解神經(jīng)網(wǎng)絡的行為。
Q:事實上,神經(jīng)網(wǎng)絡有時會產(chǎn)生“幻覺”,而語言模型在學習世界、思想、概念等方面的表現(xiàn)要好得多,但輸出方面卻不盡人意,當我向ChatGPT詢問關于我的個人信息時,它識別出我是一名記者,但它卻給我冠上了很多沒有獲得過的榮譽。在你們未來的研究中,是否有措施來解決這個問題?
A:關于這一過程需要理解的是:在預訓練階段,我們只是訓練語言模型,希望學習關于這個世界的一切;在人類反饋的強化學習(RLHF)階段,我們關注的是輸出結(jié)果。如果輸出不合適或者不合理時,就會停止這樣的輸出。模型很快就能學會生成恰當?shù)妮敵觥?/p>
現(xiàn)在的問題在于輸出水平,其實預訓練階段的情況并非如此。神經(jīng)網(wǎng)絡確實有編造回答的傾向,即使是ChatGPT也會時不時的胡亂編造,這極大地限制了模型的實用性。我希望能通過改進強化學習反饋步驟來阻止神經(jīng)網(wǎng)絡產(chǎn)生“幻覺”。
此時你可能會問,它們真的會學習嗎?我的答案是:讓我們拭目以待。
Q:如果我告訴ChatGPT,它的回答有誤,那么這是在對其進行訓練,還是內(nèi)部會給它一些懲罰或者獎勵,以便下次回答得更加準確。
A:我們現(xiàn)在的做法是雇傭人工訓練員來教神經(jīng)網(wǎng)絡(比如ChatGPT)如何表現(xiàn)。到目前為止,他們指定所需行為的方式略有不同。但事實上,你所描述的就是正確的訓練方式:只需與它互動,它會從你的反應中推斷自己的回答是否讓你滿意。
因此,輸出結(jié)果不好,ChatGPT下次就應該做些不同的事情。雖然“幻覺”是一個很大的問題,但這種方法完全可以解決這些問題。
Q:Yann LeCun(圖靈獎得主,CNN網(wǎng)絡發(fā)明者)認為,大型語言模型所缺失的是一種非語言的基礎世界模型(underlying world model),語言模型的構(gòu)建可以對其進行參考。我想聽聽你對此的看法,以及你是否在這方面有所探索。
A:我看過他的提議,其中有許多想法,并且與當前技術范式可能存在一些細微差異,但在我看來,這些差異并不是非常顯著。
首先,對于一個系統(tǒng)來說,擁有多模態(tài)的理解是可取的,這樣可以使其從多方位(不僅僅從文本)來了解世界、了解人類以及與之相關的情況,如此一來,系統(tǒng)也能更好地理解它應該解決的任務,滿足人類的需求。
在這方面,我們已經(jīng)做了相當多的工作,比如Clip和Dall-E,它們都朝著多模態(tài)方向發(fā)展。這并不是一個非此即彼的情況,有人說如果沒有視覺,不從視頻中理解世界,就不能處理這方面的工作。
但我想說的是:有些東西從圖像和圖表中學習起來要容易得多,但我們?nèi)匀豢梢酝ㄟ^文本來進行學習,只是學習速度要慢一點。
以顏色舉例。雖然我們不能從文本中學習顏色的概念,但每個神經(jīng)網(wǎng)絡都通過“嵌入(embeddings)”表示單詞、句子和概念,這些embeddings也就是高維向量,可以知道什么與什么類似,神經(jīng)網(wǎng)絡如何看待這個概念或那個概念。所以機器可以通過嵌入向量來判斷顏色,紫色比紅色更接近藍色,但比橙色更接近紅色,如果有視覺感知,顏色之間的差異一眼就可看出,但僅從文本來分辨,可能需要更長的時間,也許你知道怎么交流,已經(jīng)了解了單詞和語法,但也需要一段時間才能真正理解顏色。
因此,多模態(tài)非必要,但絕對有用。雖然這是一個很好的發(fā)展方向,但我并不認為必須在當前方案和多模態(tài)中二選一。
Yann LeCun的論文中提到:最大的挑戰(zhàn)之一是,預測具有不確定性的高維向量。我們需要采取特定方法來解決這個問題。我發(fā)現(xiàn),其實當前的自回歸Transformers已經(jīng)具有該屬性,但論文中沒有承認這一點。
舉兩個例子。一是給定某書中的一頁,預測下一頁。這有很多種情況,是一個非常復雜的高維空間,但自回歸Transformers能處理得很好。對于圖像處理也是如此。比如OpenAI在研發(fā)iGPT時,將Transformer應用于像素預測,能以非常復雜和微妙的方式生成圖像,效果非常好。它有很不錯的無監(jiān)督表示學習能力。
Dall-E 1的情況也是一樣。因此,論文中強調(diào)當前方法無法預測高維分布的部分是錯誤的,那絕對可以勝任。
Q:現(xiàn)在有一種觀點:安排一批人類訓練員與大型語言模型(如ChatGPT)一起工作,并通過強化學習對其進行指導。僅從直覺來看,這并不能有效教會模型理解潛在現(xiàn)實(underlying reality)。
A:我不同意這個說法。首先,我們的預訓練模型已經(jīng)掌握了關于潛在現(xiàn)實的必要知識,并對語言及其產(chǎn)生過程有了深入了解。
也許我需要再次強調(diào)一點。在大型語言模型中,學習到的文本數(shù)據(jù)是對真實世界進程(real-world processes)的壓縮表示,其中包含有關人類思想、感受,以及人類所處環(huán)境和人際互動等方面的信息。
一個人可能處于不同情境,而這些情境所涉及的信息是壓縮進程的一部分,并由神經(jīng)網(wǎng)絡表示,以生成新的文本內(nèi)容。語言模型越好,生成模型的表現(xiàn)越好,保真度越高,就能更好捕捉這個進程。要想構(gòu)建一個高質(zhì)量的系統(tǒng),只需遵循“如果方法有效,則繼續(xù)使用”的策略。
那些指導模型學習的訓練員團隊本身也在利用AI來輔助他們的工作。這些工具能夠高效地完成大量任務,但仍需要人類進行監(jiān)督和評估,以確保結(jié)果的高可靠性,這與人類的教育過程沒什么不同。
我們會積極尋求方法來提高模型的效率和準確性,以構(gòu)建表現(xiàn)良好的語言模型。為了確保模型能夠識別幻覺(hallucination),需要進行額外的訓練。一旦模型掌握了該技能,就可以將其用于處理業(yè)務需求了。而強化學習人類訓練員或者其他類似的方法能夠教會模型辨識幻覺。雖然目前還沒有確切的結(jié)論,但我們很快就會找到答案。
Q:你近期關注的研究方向是什么?
A:提高模型的可靠性和可控性,加快模型從少量數(shù)據(jù)中學習知識的速度,并降低對人工指導的依賴,避免出現(xiàn)“幻覺”。我認為這一系列問題密不可分。此外,還需要注意這些問題所涉及的時間跨度。
5
AI對社會管理的影響
Q:你談過AI給民主帶來的影響。若是擁有充足的數(shù)據(jù)和足夠大的模型,就可以用這些數(shù)據(jù)來訓練模型以獲得讓所有人都滿意的最優(yōu)決策。你覺得這會幫助人類進行社會管理嗎?
A:我們還無法預測政府將如何利用這種技術來獲取各種建議,不過在民主問題上,未來可能會出現(xiàn)這樣一種情況:由于神經(jīng)網(wǎng)絡無處不在且對社會產(chǎn)生巨大影響,我們將不得不建立某種民主流程,讓公民向神經(jīng)網(wǎng)絡提供信息,包括他們希望的事務狀態(tài)、行為方式等。
這可能是一種高效的民主形式,即我們可以從每個公民身上獲取更多的信息并進行匯總,然后指定這些系統(tǒng)如何采取行動。當然,這會引發(fā)許多問題。
當前的模型還有很多提升空間,未來,特別是在訓練和使用模型方面會發(fā)生一些變化,從而使模型能夠更好地解決這類問題。
Q:按你所說,每個人都有機會輸入數(shù)據(jù),然而這也牽涉到世界模型的問題。你是否認為AI系統(tǒng)最終可以變得足夠強大,能夠理解某種情境并分析所有的變量?
A:分析所有變量意味著需要綜合考慮情境中的所有因素,確定重要變量,并進行深入研究。這個過程類似于讀書,我可以選擇讀一百本書,也可以仔細閱讀一本書,這樣就可以獲得更多。這種方法在一定程度上是值得推崇的,但也許在某種程度上,理解所有事情是基本不可能的。
舉個更簡單的例子:當社會或公司面臨復雜情況時,即使對于中等規(guī)模的公司來說,處理大量數(shù)據(jù)和分析信息的任務也超出了個人的能力范圍。然而,通過正確地構(gòu)建AI系統(tǒng),就可以在各種情境下獲得極大的幫助。
其他人都在看
GPT-4,大增長時代的序幕
深度學習崛起十年:“開掛”的OpenAI革新者
OpenAI創(chuàng)始人:GPT-4的研究起源和構(gòu)建心法
ChatGPT作者Schulman:我們成功的秘密武器
比快更快,開源Stable Diffusion刷新作圖速度
OneEmbedding:單卡訓練TB級推薦模型不是夢
GLM訓練加速:性能最高提升3倍,顯存節(jié)省1/3
歡迎Star、試用OneFlow:github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/
關鍵詞: