開源風(fēng)暴吞噬AI界？從Stable Diffusion的爆火說起-世界觀速訊

來源：CSDN博客 | 2022-11-30 14:50:16 |

近日，文本生成圖像模型Stable Diffusion背后的公司Stability AI宣布獲得了1.01億美元超額融資，估值達(dá)10億美元，這家基于開源社區(qū)的“草根”企業(yè)的風(fēng)頭一時間甚至蓋過了業(yè)界頂級研究機(jī)構(gòu)OpenAI。

本文作者認(rèn)為，盡管開源項目存在商業(yè)模式、開源許可協(xié)議等方面的挑戰(zhàn)，但通過良好開源社區(qū)的驅(qū)動，AI項目的技術(shù)發(fā)展、應(yīng)用廣度和創(chuàng)造空間都有了意想不到的發(fā)展，正如開源“吞噬”軟件1.0，“開源AI”運(yùn)動將在軟件2.0時代不可阻擋。OneFlow社區(qū)對此進(jìn)行了編譯。

(資料圖片僅供參考)

作者｜swyx

翻譯｜胡燕君、賈川

文本轉(zhuǎn)圖像模型的發(fā)展周期歷時數(shù)年：

2020年7月：OpenAI發(fā)文介紹Image GPT模型，將語言模型應(yīng)用到圖像領(lǐng)域。

2022年3月：AI圖像生成平臺Midjourney啟動Beta版本測試。

2022年4月：OpenAI宣布允許一定數(shù)量的用戶對其AI圖像生成工具DALL-E 2 進(jìn)行“研究性試用”。

2022年5月：Google以論文形式公布其文本-圖像生成模型Imagen，Imagen由PyTorch實現(xiàn)。

2022年7月：OpenAI 通過UI/API開放DALL-E 2進(jìn)行公開測試，參與公測的用戶須先進(jìn)入等待名單。

2022年7月：Midjourney通過Discord通訊平臺發(fā)布消息表示即將進(jìn)行公開測試。

2022年8月：文本-圖像生成模型Stable Diffusion發(fā)布，這是一款基于OpenRAIL-M許可的開源模型。

2022年9月：OpenAI取消DALL-E 2的等待名單。

GPT-3從公布到被復(fù)制歷時10個月：

2020年5月：OpenAI以論文形式公開GPT-3，并在隨后的6月發(fā)布了未公開的Beta版API。

2020年7月：非營利開源研究組織EleutherAI成立，成為OpenAI的替代者。

2020年9月：Microsoft獲得GPT-3的獨家授權(quán)。

2021年1月：EleutherAI公布其800G數(shù)據(jù)集The Pile。

2021年3月：EleutherAI公布了分別含13億和27億參數(shù)的兩版開源GPT-Neo模型（GPT-Neo是對GPT-3的克隆版）。

2021年11月：OpenAI取消GPT-3的等待名單，開發(fā)人員可以直接報名使用其API。

2022年5月：Meta公布大型語言模型OPT-175B，供研究人員使用，還公布了模型日志和開源許可證明。

2022年6月：俄羅斯互聯(lián)網(wǎng)巨頭Yandex公布了YaLM-100B，這是一個基于Apache-2許可的類GPT開源模型。

2022年7月：HuggingFace公開了BLOOM-176B，一個基于RAIL許可證明的大型語言模型。

GPT-2從公布到被復(fù)制歷時6個月：

2019年2月，OpenAI宣布GPT-2誕生，為了避免模型遭到不良利用（如被用于制造虛假新聞等），當(dāng)時決定不將模型完全開源；3月，OpenAI放棄“非營利機(jī)構(gòu)”的定位，成立OpenAI LP（有限合伙公司），聲稱進(jìn)入“有限營利”經(jīng)營模式。

8月，兩名計算機(jī)碩士復(fù)制出GPT-2并將其對外公開，稱為OpenGPT-2。

11月，經(jīng)過謹(jǐn)慎的分階段逐步公布，OpenAI終于完全開源了含15億參數(shù)的GPT-2模型。

上述時間線已經(jīng)過高度精簡，實際發(fā)展史還可追溯到2015年提出的擴(kuò)散模型（Diffusion Model）、2017年提出的Transformer模型，以及更早之前對生成對抗網(wǎng)絡(luò)（GANs）的研究。

有趣的是，2022年9月，OpenAI基于MIT許可公開了其Whisper語音轉(zhuǎn)文本模型，并且不設(shè)置付費(fèi)API。當(dāng)然，語音轉(zhuǎn)文本功能遭到不良利用的可能性較低，所以此類模型的開源風(fēng)險也更低，但也有觀點認(rèn)為，OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。

Dreambooth：開源社區(qū)掌舵項目發(fā)展

一個先進(jìn)的開源社區(qū)可以發(fā)揮魔法般的作用。專業(yè)的研究團(tuán)隊或資金充足的團(tuán)隊或許可以開發(fā)出很好的基礎(chǔ)模型，但只有開源社區(qū)才能更好地將各種用例產(chǎn)品化，并且優(yōu)化模型的實際落地使用。

最能體現(xiàn)這一點的例子是Dreambooth的發(fā)展。Dreambooth是一個文本轉(zhuǎn)圖像模型，支持經(jīng)小樣本學(xué)習(xí)（Few-Shot Learning）后生成精調(diào)圖像，生成的圖像既可保留主體的精細(xì)特征，又能為主體切換任意背景。

Dreambooth體現(xiàn)了文本轉(zhuǎn)圖像模型的理想優(yōu)化方向，因為它不止需要用戶下載模型直接運(yùn)行，還需要用戶根據(jù)樣本圖像進(jìn)行精細(xì)訓(xùn)練，但原始端口需要的內(nèi)存太大，大多數(shù)用戶的訓(xùn)練設(shè)備都無法滿足條件。

2022年9月，Corridor Digital的一則YouTube視頻展示了Dreambooth的神奇功能，視頻運(yùn)用文本-圖像生成模型根據(jù)視頻創(chuàng)作者本人照片生成特效人物圖像，很快爆火（視頻：https://www.youtube.com/watch?v=W4Mcuh38wyM）。

這是Dreambooth的發(fā)展歷程：

2022年8月26日，Dreambooth宣布誕生；12天后公布了開源端口；又過了25天后，訓(xùn)練Dreambooth的所需內(nèi)存空間降低了79%；10月8日，Dreambooth已經(jīng)能在8GB GPU上訓(xùn)練。

對Dreambooth的優(yōu)化大多數(shù)由Xavier Xiao和Shivam Shrirao通過GitHub完成，意大利工程師Matteo Serva也提供了幫助。Xavier Xiao來自新加坡，博士主攻生成模型與優(yōu)化，現(xiàn)就職于AWS AI；Shivam Shrirao，計算機(jī)視覺高級工程師，現(xiàn)居印度。這兩位都并非Dreambooth原始團(tuán)隊的成員。

現(xiàn)在，容易優(yōu)化的地方都已優(yōu)化完畢，于是有人開始擔(dān)心：繼續(xù)優(yōu)化下去的投入產(chǎn)出比會越來越低，但后來這種擔(dān)心不攻自破。8月份時，Stable Diffusion可以在內(nèi)存為5~10GB的GPU上運(yùn)行——商用GPU的內(nèi)存一般為6~12GB，蘋果產(chǎn)品都有統(tǒng)一內(nèi)存（Unified Memory）。到了9月，Stable Diffusion已能在iPhone XS上運(yùn)行。

關(guān)鍵詞：