12月21日,OpenAI連續(xù)12個工作日的直播發(fā)布活動正式收官,與第一天發(fā)布正式版o1模型相對應的是,最后一天OpenAI首席執(zhí)行官山姆·奧特曼推出了該公司的下一代大模型并將其命名為o3,o3在一系列測試中的表現(xiàn)超過了o1,并在一項關(guān)于通往AGI(通用人工智能)的測試中表現(xiàn)優(yōu)異。


不過,同今年年中發(fā)布o1預覽版時相同,山姆·奧特曼坦言o1仍然需要進行安全測試,并沒有公開具體的對外界開放的日程表。取而代之的是o3-mini(即迷你版本)會在明年1月底發(fā)布。值得注意的是,o3-mini的訓練者是北大計算機系畢業(yè),后在斯坦福獲得博士學位的任泓宇。


總體來看,本次OpenAI持續(xù)約兩周的發(fā)布活動算得上“量大管飽”,包括正式版本o1、Sora的“千呼萬喚始出來”,也包括下一代模型o3的推出,中間還夾雜了一系列針對開發(fā)者、具體產(chǎn)品以及算法技術(shù)上的更新升級。但發(fā)布內(nèi)容雖多,卻并未再現(xiàn)像上半年視頻模型Sora和多模態(tài)模型GPT-4o推出時那樣帶給業(yè)界的震撼,尤其是不少用戶在使用過正式發(fā)布的Sora后發(fā)現(xiàn)該產(chǎn)品仍然存在較多缺陷,并非明顯優(yōu)于國內(nèi)視頻模型。這或許說明OpenAI雖然仍是AI大模型領(lǐng)域的佼佼者,但已并非望塵莫及。


o3大模型現(xiàn)身 Arc AGI測試題得分超過人類閾值


從左至右分別為Arc Prize基金會主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席執(zhí)行官山姆·奧特曼。


本次OpenAI的“收官”直播,山姆·奧特曼與OpenAI高級副總裁、研究主管Mark Chen擔任主持人,另外還有兩位解說嘉賓分兩次上場。


在“上半場”,Mark首先介紹了o3大模型的能力:在一項由現(xiàn)實世界軟件任務組成的基準測試中,o3得分71.7,超過了得分48.9的o1和得分41.3的o1 preview(預覽版)。而在一項名為Elo的競爭性編程能力測評上,o3取得了2727分,o1評分1891,o1 preview評分1258,o3的性能已經(jīng)達到了o1 preview的兩倍多。而在數(shù)學基準測試中o3的得分為96.7,也超過了前兩者的83.3分和56.7分,“這表示我們正在攀登實用性的前沿。”Mark說。


作為對比,Mark本人就是計算機專家,他還曾指導過類似的編程競賽,但他本人在編程測評上的最好成績約為2500分,這一點上他被o3擊敗了。不過他在數(shù)學競賽上的最高分是滿分,這一點上o3仍然無法達到人類頂尖水平?!斑@么說,我就安全了?!鄙侥贰W特曼對此打趣道。


事實上,在OpenAI的最后一場直播之前,有很多網(wǎng)友猜測其是否能夠再次震撼業(yè)界,如推出一款通往AGI的跨時代產(chǎn)品。而第一位嘉賓——Arc Prize基金會主席Greg Camerad的出場證實了網(wǎng)友的猜測方向。


Arc Prize是一個非營利性組織,其推出了“通用人工智能抽象和推理語料庫”(ARC-AGI)基準,來衡量AI在獲取在未知任務上的效率,該組織為AGI所下的定義為:一個可以在其訓練數(shù)據(jù)之外有效地獲得新技能的系統(tǒng)。


Greg Camerad表示,該組織的測試題旨在驗證大模型在通往AGI方向上的水平,目前o3取得了該組織經(jīng)驗證過的最高分:在低算力配置下,其準確率達到75.7%,高算力下的表現(xiàn)提升至87.5%,而人類平均水平的閾值為85%,這意味著o3在該項測評中的表現(xiàn)已經(jīng)達到了人類水平,這是一個重要的里程碑,而在o3達到這一水平之前,該測試題已經(jīng)5年未被攻克。


不過,ARC Prize組織方面也表示,這并不代表已經(jīng)實現(xiàn)了AGI,因為o3在某些簡單任務上仍有失誤,該組織會繼續(xù)舉辦大獎賽,直到出現(xiàn)一個取得85%成績的高效開源解決方案。根據(jù)ARC Prize組織透露的數(shù)據(jù),高算力下的o3模型執(zhí)行每個任務的消耗高達1000美元


o1-mini首先推出 北大畢業(yè)生任泓宇擔綱訓練任務


OpenAI研究員任泓宇(左)介紹o3-mini大模型。


雖然o3成為了OpenAI最先進的大模型,不過山姆·奧特曼也坦言,o3不會馬上對外開放,理由是該大模型仍然需要進行安全測試。不過他表示將首先開放外部安全測試申請,同時明年1月底將率先開放o3-mini大模型。


在本次直播的“下半場”,山姆·奧特曼表示“o3-mini是我們真正感到興奮的大模型,而訓練該大模型的任泓宇將加入我們。”貝殼財經(jīng)記者了解到,任泓宇本科畢業(yè)于北京大學計算機系,后在斯坦福獲得博士學位,早在o1-mini推出時,他就擔任了訓練任務。


相比o3模型,o3-mini在性能與成本平衡方面表現(xiàn)更加出色,能夠以較低成本提供高效服務。根據(jù)任泓宇的演示,o3-mini在編程上展現(xiàn)出了出色的性能,隨著思考時間的增加,o3-mini模型的表現(xiàn)不斷提升,性能超越o1-mini。


任泓宇表示,在中位思考時間下,o3-mini勝過正式版o1模型,能夠以大約一個數(shù)量級的更低成本提供相當甚至更好的代碼性能。此外,o3-mini的響應時間大大縮短,達到了o1的一半。


在實用演示中,用戶在文本框中輸入編碼請求后,模型能夠迅速將請求發(fā)送至API,并自動解決任務,生成代碼并保存至桌面,隨后自動打開終端執(zhí)行代碼。整個過程復雜且涉及大量代碼處理,但o3-mini模型在低成本模式下依然表現(xiàn)出了極快的處理效率。


最后,Mark介紹,OpenAI推出了一款被稱為審慎對齊的新技術(shù),以找到具體的安全邊界,讓大模型知道什么時候該審查或拒絕用戶提出的需求,但又不會過度拒絕。


“現(xiàn)在你可以填寫申請表,進行對o3和o3-mini的外部安全測試,有越多人進行安全測試,就能越快確保我們達到明年1月底發(fā)布o3-mini以及之后發(fā)布o3的目標?!鄙侥贰W特曼在直播最后表示。


新京報貝殼財經(jīng)記者 羅亦丹

編輯 曲筱藝

校對 趙琳