通用領(lǐng)域中的大型語言模型(LLMs),如 ChatGPT,在遵循指令和產(chǎn)生類似人類的響應(yīng)方面取得了顯著的成功。然而,此類語言模型并未針對醫(yī)學(xué)領(lǐng)域量身定制,導(dǎo)致答案準確性較差,無法為醫(yī)學(xué)診斷、藥物等提供合理的建議。
(資料圖)
為了解決這個問題,該研究收集了 700 多種疾病及相應(yīng)癥狀所需要的醫(yī)學(xué)測試和推薦的藥物,從中產(chǎn)生了 5K 次醫(yī)患對話。使用這些量身定制的醫(yī)患對話對?LLMs?進行微調(diào),由此產(chǎn)生的模型具有巨大的潛力來理解患者的需求,提供明智的建議,并在各種醫(yī)療相關(guān)領(lǐng)域提供有價值的幫助。
論文鏈接:
https://arxiv.org/abs/2303.14070
從情感分析和命名實體識別到問答,NLP 在金融技術(shù)領(lǐng)域的應(yīng)用廣泛而復(fù)雜。LLMs?已被證明對各種任務(wù)有效。
一項新研究展示了 BloombergGPT,這是一個具有 500 億參數(shù)的語言模型,它在廣泛的金融數(shù)據(jù)上進行了訓(xùn)練。該研究基于 Bloomberg 廣泛的數(shù)據(jù)源構(gòu)建了一個擁有 3630 億個令牌的數(shù)據(jù)集,這可能是迄今為止最大的特定領(lǐng)域數(shù)據(jù)集,并增加了來自通用數(shù)據(jù)集的 3450 億個令牌。
研究在標準 LLM 基準、開放金融基準和一套能準確反映預(yù)期用途的內(nèi)部基準上驗證了 BloombergGPT。
結(jié)果表明,BloombergGPT?在財經(jīng)任務(wù)上顯著優(yōu)于現(xiàn)有模型,且不會犧牲通用 LLM 基準的性能。
論文鏈接:
https://arxiv.org/abs/2303.17564
解決具有不同領(lǐng)域和模式的復(fù)雜 AI 任務(wù)是通向通用人工智能(AGI)的關(guān)鍵一步。雖然有豐富的 AI 模型可用于不同的領(lǐng)域和模式,但它們無法處理復(fù)雜的 AI 任務(wù)。
考慮到?LLMs?在語言理解、生成、交互和推理方面表現(xiàn)出非凡的能力,該研究提出了 HuggingGPT——一個利用?ChatGPT 等?LLMs?連接機器學(xué)習(xí)社區(qū)(如 HuggingFace)中的各種 AI 模型來完成任務(wù)的系統(tǒng)。
具體來說,在收到用戶請求時使用 ChatGPT 進行任務(wù)規(guī)劃,根據(jù) HuggingFace 中可用的功能描述選擇 AI 模型,用選擇的 AI 模型執(zhí)行每個子任務(wù),并根據(jù)執(zhí)行結(jié)果匯總響應(yīng)。
借助 ChatGPT 強大的語言能力和 HuggingFace 豐富的 AI 模型,HuggingGPT 能夠完成眾多不同模態(tài)和領(lǐng)域的復(fù)雜 AI 任務(wù),在語言、視覺、語音等具有挑戰(zhàn)性的任務(wù)中取得令人矚目的成果,開辟了一條加速邁向 AGI 的新道路。
論文鏈接:
https://arxiv.org/abs/2303.17580
“在所有藝術(shù)中,對我們來說最重要的是電影。”
——弗拉基米爾·列寧
一項新的研究開發(fā)了一種自動音頻描述(AD)模型,它可以攝取電影并以文本形式輸出 AD。由于描述對上下文的依賴性以及可用訓(xùn)練數(shù)據(jù)的數(shù)量有限,因此生成高質(zhì)量的電影 AD 具有挑戰(zhàn)性。通過利用預(yù)訓(xùn)練基礎(chǔ)模型(如 GPT 和 CLIP),該研究只訓(xùn)練一個映射網(wǎng)絡(luò)來橋接兩個模型以生成視覺條件文本。下圖展示了電影 AD 基于泰坦尼克號呈現(xiàn)的結(jié)果。
該研究的主要貢獻為:
(1)結(jié)合了電影剪輯的上下文、之前的剪輯廣告以及字幕;
(2)通過在視覺或上下文信息不可用的大規(guī)模數(shù)據(jù)集上進行預(yù)訓(xùn)練來解決缺乏訓(xùn)練數(shù)據(jù)的問題,如沒有電影的純文本廣告或沒有上下文的視覺字幕數(shù)據(jù)集;
(3)改進了當前可用的 AD 數(shù)據(jù)集,通過去除 MAD 數(shù)據(jù)集中的標簽噪聲,并添加字符命名信息;
(4)與以前的方法相比,這一模型在電影廣告任務(wù)上獲得了很好的結(jié)果。
參考鏈接:
https://arxiv.org/abs/2303.16899
一項新的研究提出了 ViewRefer,這是一個用于 3D 視覺基礎(chǔ)的多視圖框架,探索如何從文本和 3D 模態(tài)中掌握視圖知識。對于文本分支,ViewRefer 利用 GPT 等 LLMs 的多樣化語言知識,將單個基礎(chǔ)文本擴展為多個幾何一致的描述。另一方面,在 3D 模態(tài)中,引入了具有交互視圖注意力的 transformer 融合模塊,以增強對象跨視圖的交互。
更重要的是,ViewRefer 采用了一個視覺?transformer?來有效地掌握多模態(tài)數(shù)據(jù)中的視圖知識,并從兩個角度增強了這一框架:用于更強大文本特征的視圖引導(dǎo)注意模塊,以及最終預(yù)測期間的視圖引導(dǎo)評分策略?;谒O(shè)計的范例,ViewRefer 在三個基準測試中實現(xiàn)了很好的性能。
參考鏈接:
https://arxiv.org/abs/2303.16894
ChatGPT 在過去幾個月里受到越來越多的關(guān)注。雖然已經(jīng)有很多研究對 ChatGPT 的各個方面進行了評估,但公眾仍不清楚其魯棒性,即對意外輸入的性能表現(xiàn)。魯棒性是負責(zé)任的 AI 特別關(guān)注的問題,尤其是對于安全關(guān)鍵型應(yīng)用程序。 該研究從對抗性和 OOD 的角度對 ChatGPT 的魯棒性進行了全面評估。通過選擇幾個流行的基礎(chǔ)模型作為基線,結(jié)果表明,ChatGPT 在大多數(shù)對抗性和 OOD 分類和翻譯任務(wù)上表現(xiàn)出一致性。然而,絕對性能遠非完美,這表明對抗性和 OOD 魯棒性仍然是對基礎(chǔ)模型的重大威脅。
參考鏈接:
https://arxiv.org/abs/2302.12095
關(guān)鍵詞: