日韩精品乱码av一区二区,亚洲中文字幕一本久道热线在线

GPT-4，OpenAI的斷崖式領(lǐng)先，人類(lèi)的專(zhuān)屬技能不多了 2023-03-15 15:40:42　　來(lái)源：36氪

人工智能會(huì)替代人類(lèi)嗎？在ChatGPT出現(xiàn)之后，人類(lèi)對(duì)于這個(gè)問(wèn)題的答案已經(jīng)越來(lái)越?jīng)]有信心。

【資料圖】

而在昨天夜里，OpenAI低調(diào)發(fā)布了深度學(xué)習(xí)新的里程碑：GPT-4，一個(gè)比ChatGPT更強(qiáng)大的大模型！OpenAI表示，GPT-4雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力依舊不如人類(lèi)，但在各種專(zhuān)業(yè)和學(xué)術(shù)基準(zhǔn)上已經(jīng)和人類(lèi)表現(xiàn)持平。

GPT-4是一個(gè)多模態(tài)大模型，具有更強(qiáng)大的創(chuàng)造性、更長(zhǎng)的上下文處理能力，可支持圖像輸入，還可以自定義GPT-4的語(yǔ)言風(fēng)格。在OpenAI短短24分鐘的發(fā)布會(huì)中，有這樣一個(gè)場(chǎng)景：在草稿本上用紙筆畫(huà)出一個(gè)非常粗糙的草圖，拍照并上傳，GPT-4在10秒左右直接生成了網(wǎng)站代碼。

著名經(jīng)濟(jì)學(xué)家朱嘉明表示：GPT-4是OpenAI創(chuàng)造出的又一個(gè)重大科技事件，達(dá)到了AI歷史上前所未有的、不可逆轉(zhuǎn)的新高度。

過(guò)去兩年，OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧，并與微軟Azure一起從頭開(kāi)始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。一年前，OpenAI訓(xùn)練GPT-3.5（即ChatGPT）作為系統(tǒng)的第一次“試運(yùn)行”，發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤并改進(jìn)了理論基礎(chǔ)。

OpenAI花了6個(gè)月的時(shí)間來(lái)迭代調(diào)整GPT-4，取得了有史以來(lái)最好的結(jié)果，并且成為第一個(gè)能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的大型模型。這意味著大模型的訓(xùn)練方法將會(huì)從過(guò)去的純粹“暴力美學(xué)”進(jìn)化出更高的可控性與預(yù)期性。

這次OpenAI并沒(méi)有公布論文，只有一份技術(shù)報(bào)告，并且不提供架構(gòu)（包括模型大?。?、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法等細(xì)節(jié)。換句話說(shuō)，其他AI公司不可能再像過(guò)去一樣，走一條模仿、復(fù)現(xiàn)、超越的道路了。

壓力來(lái)到了國(guó)內(nèi)公司，尤其是明天即將發(fā)布文心一言的百度。

1.比ChatGPT更強(qiáng)大

GPT-4比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性。它可以承擔(dān)文本、音頻、圖像的生成、編輯任務(wù)，并能與用戶(hù)一起迭代創(chuàng)意和技術(shù)寫(xiě)作任務(wù)，例如創(chuàng)作歌曲、編寫(xiě)劇本或?qū)W習(xí)用戶(hù)的寫(xiě)作風(fēng)格等。

GPT-4能夠處理超過(guò)25000個(gè)單詞的文本，允許使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等用例。

在簡(jiǎn)單的談話中，ChatGPT與GPT-4可能看不出太大差距。但是，當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就會(huì)出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。

左邊是ChatGPT，右邊是GPT-4

為了解這兩種模型之間的區(qū)別，OpenAI在各種基準(zhǔn)測(cè)試中進(jìn)行了測(cè)試，包括人類(lèi)的模擬考試，比如GRE。OpenAI并沒(méi)有針對(duì)這些考試進(jìn)行專(zhuān)門(mén)培訓(xùn)，但GPT-4的排名依然名列前茅。例如，它通過(guò)模擬律師考試，分?jǐn)?shù)在應(yīng)試者的前10%左右；相比之下，GPT-3.5的得分在倒數(shù)10%左右。

GPT-4在語(yǔ)言風(fēng)格上也迎來(lái)了更新。與具有固定冗長(zhǎng)語(yǔ)氣和風(fēng)格的經(jīng)典ChatGPT不同，開(kāi)發(fā)人員（普通用戶(hù)也將會(huì)開(kāi)放）現(xiàn)在可以在“系統(tǒng)”消息中通過(guò)描述來(lái)規(guī)定他們的AI風(fēng)格和任務(wù)，也就是“自定義”能力。

OpenAI在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評(píng)估了GPT-4，大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型，以及大多數(shù)最先進(jìn)的 (SOTA) 模型：

許多現(xiàn)有的ML基準(zhǔn)測(cè)試都是用英語(yǔ)編寫(xiě)的。OpenAI使用Azure Translate將MMLU基準(zhǔn)——一套涵蓋57個(gè)主題的 14000個(gè)多項(xiàng)選擇題——翻譯成多種語(yǔ)言。在測(cè)試的24種語(yǔ)言中，GPT-4優(yōu)于GPT-3.5和其他LLM（Chinchilla、PaLM）的英語(yǔ)語(yǔ)言性能，包括拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)等低資源語(yǔ)言：

OpenAI表示內(nèi)部也在使用GPT-4，對(duì)支持、銷(xiāo)售、內(nèi)容審核和編程等功能產(chǎn)生了巨大影響。

2.多模態(tài)大模型，支持圖片輸入

除了文本能力的增強(qiáng)，GPT-4還帶來(lái)了新的能力——多模態(tài)，它可以接受圖像作為輸入并生成說(shuō)明、分類(lèi)和分析結(jié)果。

具體來(lái)說(shuō)，它能在用戶(hù)輸入散布式文本與圖像后，自主生成文本輸出（自然語(yǔ)言、代碼等）。在包括帶有文本和照片的文檔、圖表與屏幕截圖中，GPT-4展示了與純文本輸入同樣強(qiáng)大的功能。此外，它還可以通過(guò)為純文本語(yǔ)言模型開(kāi)發(fā)的測(cè)試時(shí)間技術(shù)實(shí)現(xiàn)進(jìn)化，能運(yùn)用少量鏡頭和思維鏈提示。

不過(guò)，GPT-4的圖像輸入展示仍然只是研究“樣品”預(yù)覽，真正的成果尚未公開(kāi)。

GPT-4可以指出被加工圖片的“異常”之處

GPT-4還能讀懂“梗圖”，理解幽默

GPT-4甚至可以直接閱讀并分析帶有圖片的論文：

OpenAI在一組標(biāo)準(zhǔn)的學(xué)術(shù)視覺(jué)基準(zhǔn)測(cè)試中對(duì)GPT-4的表現(xiàn)進(jìn)行評(píng)估，預(yù)覽了它的性能。然而，OpenAI表示這些數(shù)字并不完全代表它的能力范圍，因?yàn)镺penAI不斷發(fā)現(xiàn)這個(gè)模型能夠解決新的、“令人興奮”的任務(wù)。OpenAI計(jì)劃很快發(fā)布更多的分析和評(píng)估數(shù)據(jù)，以及對(duì)測(cè)試時(shí)間技術(shù)影響的全面調(diào)查。

3.花6個(gè)月時(shí)間訓(xùn)練，但訓(xùn)練數(shù)據(jù)只截止到2021年9月

GPT-4是如何訓(xùn)練出來(lái)的？

遵循GPT、GPT-2和GPT-3的研究路徑，OpenAI的深度學(xué)習(xí)方法利用更多數(shù)據(jù)和更多計(jì)算來(lái)創(chuàng)建越來(lái)越復(fù)雜和強(qiáng)大的語(yǔ)言模型。

過(guò)去兩年，OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧，并與微軟Azure一起從頭開(kāi)始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。一年前，訓(xùn)練GPT-3.5作為系統(tǒng)的第一次“試運(yùn)行”，OpenAI發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤并改進(jìn)了理論基礎(chǔ)。結(jié)果，GPT-4 訓(xùn)練運(yùn)行前所未有地穩(wěn)定，成為能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的第一個(gè)大型模型。

OpenAI花了6個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和ChatGPT的經(jīng)驗(yàn)教訓(xùn)迭代調(diào)整 GPT-4，從而在真實(shí)性、可操縱性以及拒絕越界和敏感問(wèn)題方面獲得了有史以來(lái)最好的結(jié)果。在OpenAI的內(nèi)部評(píng)估中，與GPT-3.5相比，GPT-4響應(yīng)被禁止內(nèi)容請(qǐng)求的可能性低82%，產(chǎn)生事實(shí)響應(yīng)的可能性高40%。

與以前的GPT模型一樣，GPT-4基礎(chǔ)模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè)單詞，并且使用公開(kāi)可用的數(shù)據(jù)（例如互聯(lián)網(wǎng)數(shù)據(jù)）以及已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。

盡管功能強(qiáng)大，但GPT-4與早期的GPT模型具有相似的局限。最重要的是，它仍然不完全可靠，會(huì)“幻覺(jué)”事實(shí)并出現(xiàn)推理錯(cuò)誤。

GPT-4的訓(xùn)練數(shù)據(jù)截止到2021年9月，因此對(duì)之后發(fā)生的事件缺乏了解，并且不會(huì)從自己的經(jīng)驗(yàn)中學(xué)習(xí)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤，這些錯(cuò)誤似乎與其強(qiáng)大的跨領(lǐng)域功能不符，有時(shí)也會(huì)過(guò)于輕信用戶(hù)明顯錯(cuò)誤的陳述；有時(shí)，它也會(huì)像人類(lèi)一樣在解決難題時(shí)失敗，例如在生成的代碼中引入安全漏洞。

OpenAI提醒，在使用語(yǔ)言模型輸出時(shí)應(yīng)格外小心，特別是在高風(fēng)險(xiǎn)上下文中，使用符合特定用例需求的確切協(xié)議（例如人工審查、附加上下文的基礎(chǔ)或完全避免高風(fēng)險(xiǎn)使用）。

為此，OpenAI納入了更多的人工反饋，包括ChatGPT用戶(hù)提交的反饋——這其中可能也包括你與ChatGPT的對(duì)話數(shù)據(jù)。OpenAI還與50多位專(zhuān)家合作，在AI安全和保障等領(lǐng)域獲得早期反饋。

雖然生成內(nèi)容的可靠性仍是一個(gè)真問(wèn)題，但GPT-4相對(duì)于以前的模型顯著減少了胡說(shuō)八道。在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中，GPT-4的得分比OpenAI最新的GPT-3.5高 40%：

GPT-4項(xiàng)目的主要焦點(diǎn)之一是構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)框架，主要原因是對(duì)于像GPT-4這樣非常大的訓(xùn)練任務(wù)，進(jìn)行大量的模型特定調(diào)整是不可行的。

OpenAI開(kāi)發(fā)了基礎(chǔ)設(shè)施和優(yōu)化方法，能夠在多個(gè)規(guī)模下表現(xiàn)出非常可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性，OpenAI通過(guò)對(duì)使用相同方法進(jìn)行訓(xùn)練但計(jì)算量少10000倍的模型進(jìn)行推斷，在內(nèi)部代碼庫(kù)（不是訓(xùn)練集的一部分）上準(zhǔn)確預(yù)測(cè)了GPT-4的最終損失。

現(xiàn)在OpenAI可以準(zhǔn)確預(yù)測(cè)OpenAI在訓(xùn)練期間優(yōu)化的指標(biāo)（損失），開(kāi)始開(kāi)發(fā)方法來(lái)預(yù)測(cè)更多可解釋的指標(biāo)。例如，OpenAI成功預(yù)測(cè)了HumanEval數(shù)據(jù)集子集的通過(guò)率，從計(jì)算量減少 1000 倍的模型推斷。

OpenAI認(rèn)為，準(zhǔn)確預(yù)測(cè)未來(lái)的機(jī)器學(xué)習(xí)能力是安全的重要組成部分，但相對(duì)于其潛在影響而言，它并沒(méi)有得到足夠的重視。OpenAI正在加大力度開(kāi)發(fā)方法，為社會(huì)提供更好的未來(lái)系統(tǒng)預(yù)期指導(dǎo)，希望這成為該領(lǐng)域的共同目標(biāo)。

4.如何嘗鮮GPT-4？

目前有兩種辦法可以體驗(yàn)GPT-4。

如果你是普通用戶(hù)，此前訂閱了ChatGPT Plus，將會(huì)直接獲得GPT-4的訪問(wèn)權(quán)限。不過(guò)，ChatGPT Plus只能用美國(guó)信用卡開(kāi)通。

OpenAI將根據(jù)實(shí)踐中的需求和系統(tǒng)性能調(diào)整使用上限，但預(yù)計(jì)會(huì)受到嚴(yán)重的容量限制。

根據(jù)OpenAI看到的流量模式，OpenAI可能會(huì)為更高容量的GPT-4使用引入新的訂閱級(jí)別；OpenAI也希望在某個(gè)時(shí)候提供一些免費(fèi)的GPT-4查詢(xún)，這樣那些沒(méi)有訂閱的人也可以嘗試一下。

如果你是開(kāi)發(fā)者，要訪問(wèn)GPT-4 API（使用與GPT-3.5-turbo相同的ChatCompletions API），需要像等待New Bing一樣加入OpenAI的候補(bǔ)名單。

OpenAI今天將開(kāi)始邀請(qǐng)一些開(kāi)發(fā)人員，并逐步擴(kuò)大規(guī)模以平衡容量與需求。

OpenAI也公布了定價(jià)策略——每1000個(gè)prompt tokens 0.03美元，每1000個(gè)completion tokens 0.06美元。默認(rèn)速率限制為每分鐘4萬(wàn)個(gè)token和每分鐘200個(gè)請(qǐng)求。

GPT-4的上下文長(zhǎng)度為8192個(gè)token。OpenAI還提供了32768 個(gè)tokens上下文（約50頁(yè)文本）版本的有限訪問(wèn)，該版本也將隨著時(shí)間自動(dòng)更新（當(dāng)前版本GPT-4-32k-0314，支持到6月14日)。定價(jià)為每1000個(gè)prompt token 0.06美元和每1000個(gè)completion token 0.12美元。

此外，OpenAI宣布開(kāi)源其軟件框架OpenAI Evals，用于創(chuàng)建和運(yùn)行基準(zhǔn)測(cè)試以評(píng)估GPT-4等模型。

OpenAI使用Evals來(lái)指導(dǎo)OpenAI模型的開(kāi)發(fā)，OpenAI的用戶(hù)可以應(yīng)用它來(lái)跟蹤模型版本的性能，并不斷發(fā)展產(chǎn)品集成。例如，Stripe使用Evals來(lái)補(bǔ)充他們的人工評(píng)估，以衡量其基于GPT的文檔工具的準(zhǔn)確性。

由于所有代碼都是開(kāi)源的，Evals支持編寫(xiě)新的類(lèi)來(lái)實(shí)現(xiàn)自定義評(píng)估邏輯。然而，在OpenAI自己的經(jīng)驗(yàn)中，許多基準(zhǔn)測(cè)試都遵循幾種“模板”的其中之一，因此OpenAI還包括了最有用的模板，包括一個(gè)“模型評(píng)估模板”——OpenAI發(fā)現(xiàn)GPT-4出人意料地能夠檢查自己的工作。

OpenAI希望Evals成為分享和眾包基準(zhǔn)測(cè)試的工具，代表著最廣泛的失敗模式和困難任務(wù)。作為一個(gè)示范，OpenAI創(chuàng)建了一個(gè)邏輯謎題評(píng)估，其中包含GPT-4失敗的十個(gè)提示。Evals也與實(shí)施現(xiàn)有基準(zhǔn)測(cè)試兼容；OpenAI包括了幾個(gè)實(shí)施學(xué)術(shù)基準(zhǔn)測(cè)試和幾個(gè)（小的子集）CoQA集成的筆記本作為示例。

GPT-4已經(jīng)積累了部分商業(yè)客戶(hù)。比如，Stripe使用GPT-4掃描商業(yè)網(wǎng)站并向客戶(hù)支持人員提供摘要，Duolingo將 GPT-4構(gòu)建到新的語(yǔ)言學(xué)習(xí)訂閱層中。摩根士丹利正在創(chuàng)建一個(gè)由GPT-4驅(qū)動(dòng)的系統(tǒng)，該系統(tǒng)將從公司文件中檢索信息并將其提供給金融分析師?？珊箤W(xué)院正在利用GPT-4構(gòu)建某種自動(dòng)化導(dǎo)師。

GPT-4將大模型推向了一個(gè)新的高度，甚至是“斷崖式”領(lǐng)先。包括谷歌、百度在內(nèi)的海內(nèi)外科技公司，不可避免地將面對(duì)自家產(chǎn)品“發(fā)布即落后”的尷尬局面，而微軟則躺在OpenAI背后“賺麻了”。