2022年10月17日,AIGC (AI Gererative Content)領域的知名項目 Stable Diffusion —— 背后的公司 Stability AI 宣布獲得了來自 Coatue、光速資本 以及 O"Shaughnessy 總計 1.01 億美元的種子輪投資,資金將用來面向圖像、語言、音頻、視頻以及 3D 領域的 AI 模型開發(fā),投后估值達到 10 億美元。
今年以來,AIGC 領域的相關創(chuàng)作工具如雨后春筍般出現(xiàn),有概念詞「AIGC」,也有大眾詞「AI 繪畫」,更有技術(shù)詞「txt2img」,但本質(zhì)上它們都在講一個功能邏輯 —— 文字敘述到計算機圖像的生成。
我梳理了幾個重要的項目和時間點供大家參考:
(資料圖片)
2021年10月,Somnai 在 Github 上創(chuàng)建了名為 Disco Diffusion 的項目,這是一款運行在 Google Colab 上的 AI 程序,Somnai 在今年 2 月發(fā)布了 5.0 版本,用戶可根據(jù)場景關鍵詞渲染對應圖像,隨后該項目開始在網(wǎng)絡上出圈,但該工具分辨率和算力相對有限;
2022年4月,OpenAI 發(fā)布了 DALL·E 2代模型,名字來源于著名畫家達利以及 2008 年的動畫片《機器人瓦力》,是 DALL.E 的繼任者,OpenAI 背后獲得了微軟和包括 Khosla Ventures 的支持,DALL·E 2 能夠生成高度逼真的原創(chuàng)圖像,這些圖像的視覺風格各異,有夢幻的也有寫實的,例如騎馬的宇航員和在古埃及買面包的泰迪熊,但工具本身在內(nèi)容創(chuàng)作邊界上更加收斂和限制;
2022年5月,Google 推出了 Imagen,Imagen 是一種文本到圖像的擴散模型,能夠生成較為真實的圖片,在精度和質(zhì)量上優(yōu)于 DALL·E 2,但目前主要用于學術(shù)目的并不開放,且在帶有人物的創(chuàng)作上有更多限制;
2022年7月,Midjourney 項目進入公測階段,這是該模型的第 3 版,第 2 版發(fā)布于今年 4 月。Midjourney 是一個獨立的研究實驗室,創(chuàng)始人是原先 Leap Motion的聯(lián)創(chuàng) David Holz,而 Disco Diffusion 項目的原作者 Somnai 也在今年 5 月加入了 Midjourney;
Stability AI 是一家什么樣的公司
來到本篇的主角 —— Stable Diffusion,該項目由初創(chuàng)公司 StabilityAI 和慕尼黑大學機器視覺學習組和 AI 視頻剪輯技術(shù)創(chuàng)業(yè)公司 Runway 合作開發(fā),并得到了黑客組織 EleutherAI和德國非盈利組織 LAION 的支持。
Source:Mostaque,Business Insider;
Mostaque 目前是 Stability AI 的 CEO 兼聯(lián)合創(chuàng)始人,當前的人員在 75 人左右。Mostaque 希望通過這個項目為大眾帶來新的 AI 應用。在 Mostaque 和他的同事們看來,現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角,未來相關的用例可能包括大幅改進的照片寫實、視頻和動畫。
說來有趣,創(chuàng)立 Stability AI 的 Mostaque,既不是研發(fā)人員,也不是藝術(shù)家,他的背景是一名在倫敦從事 13 年對沖基金工作的金融人士。雖然從事對沖基金工作,但 Mostaque 也是妥妥的工科學霸,早年畢業(yè)于牛津大學數(shù)學和計算機專業(yè)。
帶來新的 AI 應用,在 他和同事們看來,現(xiàn)有的 AI 技術(shù)只代表了人工智能藝術(shù)能夠創(chuàng)造的冰山一角,未來相關的用例可能包括大幅改進的照片寫實、視頻和動畫。
除了文章開頭提到種子輪投資人,更早之前項目主要由 Mostaque 和一家名為 Eros Investment 進行天使投資。Eros Investment 認為 Stability AI 具備一定 3D 化身的能力,這些化身在未來將用于 AR/VR 游戲中,預計隨著 Stability AI 引入更快、更好和更專業(yè)的模型,質(zhì)量不斷提高,未來將進一步添加音頻、3D 和視頻功能,并引入到 Canva 和 WordPress 等平臺中去。
由于 Stable Diffusion 項目的底層技術(shù)是免費開源的,因此早期在商業(yè)模式上并沒有明確的定位。8 月份的時候,CEO Mostaque 在接受 Youtube 上的網(wǎng)紅機器學習工程師 Yannic Kilcher 采訪時表示,Stability AI 已經(jīng)與一些政府和領先機構(gòu)建立了合作伙伴關系來銷售這項技術(shù),因此相比于其他起步就虧損的技術(shù)公司相比,公司將早早開始盈利。
Stable Disffusion 的創(chuàng)新是什么?
那么 Stable Disffusion 效果如何呢?你可以在幾秒內(nèi)就創(chuàng)作一張梵高繪制的碧昂斯肖像畫,又或是日本十八世紀藝術(shù)家葛飾北齋創(chuàng)作的賽博朋克城市景觀。
Source:KENRICK CAI via Stable Disffusion;
Stable Diffusion 項目帶來的主要革新是將模型的計算空間從原先的像素通過技術(shù)手段,在保留足夠豐富的信息與細節(jié)狀態(tài)下降為到一個更低的數(shù)量空間里,然后再通過一系列的訓練和圖像進行計算,而這個更低維的空間被稱為潛空間(Latent Space)。
潛空間對產(chǎn)業(yè)界來說,相比其它模型大幅降低了內(nèi)存和計算的要求,舉個例子,原先 512 x 512 對圖像一下子變成了 64 x 64,需要的內(nèi)存減少了 98%!原先只有研究人員才能進行創(chuàng)作的條件一下子達到了消費級,所以該項目出圈是必然的。
Stable Diffusion 開源后,一方面可以在大部分適配 GPU 的電腦上運行,例如一臺 M1 的蘋果電腦,而 DALL·E2 以及 Midjourney 只能通過云計算訪問使用;另一方面,在內(nèi)容創(chuàng)作的范圍上,Stable Diffusion 較其它模型更加自由開放,用戶擁有創(chuàng)作的圖像權(quán)利,也可以自由地用作商業(yè)用途,Mostaque 表示開源能夠讓更多的人接觸到這項技術(shù)。
Source:Stability AI 官網(wǎng);
回到產(chǎn)品的使用上,對于普通用戶 Stability AI 還推出了 DreamStudio,這就像是融合了Stable Diffusion 模型之后的在線 Photoshop,只不過新用戶注冊后需要按積分使用,不同參數(shù)條件下生成的圖像所消耗的積分不同,新用戶將獲得 200 積分,默認條件是一張圖消耗 1 積分。
Source:作者通過DreamStudio繪制;
例如,我嘗試了用李白的《早發(fā)白帝城》的英文詩句輸入到 DreamStudio,出來的效果還是不錯的。
img2img 下的 AIGC 趨勢
如果說 Stable Diffusion 的技術(shù)表述歸納為「text2img」,且多為 2D 平面內(nèi)容,那么該項目的新方向則是通過「img2img」完成 3D 內(nèi)容的創(chuàng)建。
什么是 img2img?Reddit 上的一名用戶發(fā)布了 6 張圖片,根據(jù)經(jīng)典 MS-DOS 上的游戲畫面進行圖形優(yōu)化,效果如下:
Source:frigis9 on Reddit;
img2img 技術(shù)也是 Stable Diffusion 中的新功能,能進一步將 text2img 生成的圖片真人化,使2D變3D,降低了廣大用戶將創(chuàng)意落地的門檻,釋放了大眾創(chuàng)意,而對于本身就靠創(chuàng)意吃飯的藝術(shù)工作者,它們通過該技術(shù)表達創(chuàng)意的能力也會進一步提高,就像從紙面創(chuàng)意如同 8090 年代的 CAD 過渡那樣,如果說 CAD 全稱是Computer Aided Design,那套個AIGC 概念就是AIAided Design......
Source:Mostaque,Twitter;
當然,與 DreamStudio 融合的實際效果和使用都需要一段時間的優(yōu)化中,特別是用在個人計算機上還需要一個過程,畢竟生成圖片的質(zhì)量需要對原先的素材進行大量測試。
實際上,自今年 8 月份發(fā)布以來,Stable Disffusion 已經(jīng)在全球范圍吸引了 20 多萬開發(fā)人員下載和使用,而面向大眾的產(chǎn)品 DreamStudio 更是在 50 多個國家地區(qū)吸引了 100 多萬的用戶注冊使用,目前為止已經(jīng)累計創(chuàng)作了 1.7 億張圖像。
Source:《星際迷航》Holodeck,公開網(wǎng)絡;
Stability AI 的 CEO Mostaque 表示, 隨著 GPU 和算力的提升,Stable Disffusion 可能一年之內(nèi)就能在智能手機上運行,新技術(shù)將在更多低價的設備上進行訓練,很快就能看到 AI 推動的創(chuàng)意出現(xiàn)指數(shù)級的增長,而 Stable Diffusion 和其他模型已經(jīng)開始摩拳擦掌著手動態(tài)視頻的生成了,可能首先會進入創(chuàng)作成本更低的短視頻領域,而他希望這個創(chuàng)作過程是多模態(tài)的,就像《星際迷航》的全息甲板(Holodeck)一樣。
Reference:
[1] 《Stability AI Announces $101 Million in Funding for Open-Source Artificial Intelligence》,PR Newswire;
[2] 《Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion》,F(xiàn)orbes;
[3] 《Stable Diffusion, a milestone? 》,AnalyticsIndiaMag;
封面:LOKESH CHOUDHARY
免責聲明:在任何情況下,本文信息或表述,不構(gòu)成任何投資建議;若有侵權(quán),請后臺聯(lián)系刪除。
- 全球速遞!從 Stability AI 和 Stable Diffusion 看 AIGC
- 暫停A4紙銷售?晨光:未掌握偽造者身份
- 世界快資訊丨易事特:在儲能電站設備及能量管理系統(tǒng)方面研發(fā)多年 具備全系列的儲能變流器產(chǎn)品(50KW-1MW)等
- 天天視訊!東港股份:雖然今年公司中標了許多訂單 但今年的業(yè)績情況還存在一定的不確定性
- 熱資訊!江南化工:截至本公告日 諸暨永天投資有限公司累計質(zhì)押股數(shù)約為7519萬股
- 前沿熱點:華工科技:公司及子公司累計擔保情況
- 東港股份:公司目前生產(chǎn)經(jīng)營情況正常
- 俄油限價遲遲難決 油價還會回到5元時代嗎?
- 品牌向上帶動社會向上,2022金旗獎榜單隆重揭曉
- 從領跑陶瓷衛(wèi)浴賽道到打造全屋智慧家居,箭牌家居底氣何在?
- 北京臨時管控一般幾天結(jié)束?
- 世界快資訊:北京臨時管控3天能解封嗎?
- 11月27日阿壩州新增本土確診病例10例+無癥狀感染者30例
- 11月27日巴中新增確診病例6例+無癥狀感染者231例
- 關注:個人養(yǎng)老金先行城市(地區(qū))名單
- 這是個正經(jīng)的csgo開箱教程——95skins篇
- 天天熱門:林占熺:千千萬萬農(nóng)民富裕起來,才是我真正的富有
- 每日簡訊:澳大利亞“長新冠”患者:確診5個月沒好,我甚至很難站立
- 環(huán)球快報:專訪:美聯(lián)儲激進加息可能對發(fā)展中國家造成“災難性”影響——訪尼日利亞國際關系專家奧努納伊朱
- 【全球聚看點】西媒:歐洲經(jīng)濟正慢慢進入“長期衰退”
- 低碳菜單引領寧波餐飲消費新風尚 試點將持續(xù)至今
- 深圳坪山打造餐飲服務食品安全示范高地 嚴守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機動車檢測機構(gòu)開展監(jiān)督抽查 規(guī)范機動
- 天津北辰扎實做好價格監(jiān)管工作 維護安全有序市場
- 北京石景山開展冬季供暖前特種設備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡直播營銷治理顯成效 培育放心消費直