OpenAI最新模型o3展現(xiàn)強(qiáng)大推理能力

2024年12月26日 07:54　來(lái)源：科技日?qǐng)?bào)

大字體

小字體

　　12月20日，美國(guó)開(kāi)放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱，o3具備更先進(jìn)、近似人類的推理能力，在代碼編寫、數(shù)學(xué)競(jìng)賽和掌握人類博士級(jí)別的科學(xué)知識(shí)等方面，均超越了其“前輩”o1。

　　不過(guò)，英國(guó)《新科學(xué)家》網(wǎng)站在12月22日的報(bào)道中指出，盡管o3“實(shí)現(xiàn)了令人矚目的性能飛躍”，但仍未達(dá)到業(yè)內(nèi)翹首以盼的通用AI(AGI)水平。

　　多方面表現(xiàn)出色

　　OpenAI公司透露，在解決更復(fù)雜的多步驟問(wèn)題時(shí)，o3模型會(huì)花更多時(shí)間計(jì)算答案，然后再給出回應(yīng)。這一推理能力的提升，使o3在多項(xiàng)測(cè)試中表現(xiàn)出色。

　　大型語(yǔ)言模型熱衷于在各種數(shù)學(xué)基準(zhǔn)測(cè)試上瘋狂“刷分”，o3也不例外。在2024年美國(guó)數(shù)學(xué)邀請(qǐng)賽中，o3模型的準(zhǔn)確率高達(dá)96.7%，僅答錯(cuò)了一個(gè)問(wèn)題。而在OpenAI研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)測(cè)試之一——Frontier Math中，o3也解決了25.2%的問(wèn)題。盡管這一得分看似不高，但此前其他大型語(yǔ)言模型曾在此“集體翻車”，正確率均未超過(guò)2%。

　　Frontier Math測(cè)試難度極大，曾被華裔數(shù)學(xué)家、菲爾茲獎(jiǎng)得主陶哲軒評(píng)價(jià)為“可能會(huì)難住AI好幾年”。然而，o3只需思考幾分鐘便能解答其中一道題目，而人類數(shù)學(xué)家則要花費(fèi)數(shù)小時(shí)到數(shù)天。

　　在對(duì)科學(xué)知識(shí)的掌握方面，o3的表現(xiàn)也超出一般博士水平。在GPQA Diamond(衡量模型在博士級(jí)科學(xué)問(wèn)題上的表現(xiàn)，涵蓋化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí))基準(zhǔn)測(cè)試中，o3的準(zhǔn)確率達(dá)到87.7%，超過(guò)了人類博士的70%，也比之前o1表現(xiàn)高近10%。

　　此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現(xiàn)實(shí)世界軟件問(wèn)題的能力)基準(zhǔn)上，o3的準(zhǔn)確率約為71.7%，比o1高20%以上。在Codeforces編碼競(jìng)賽平臺(tái)中，o3的得分為2727，相當(dāng)于榜單上第175名人類編程員的水平，而o1得分僅為1891。

　　在展示了o3取得的這些傲人成績(jī)后，OpenAI首席執(zhí)行官奧爾特曼強(qiáng)調(diào)，o3的出現(xiàn)標(biāo)志著AI進(jìn)入了下一個(gè)發(fā)展階段，這些模型可處理需要大量推理的復(fù)雜任務(wù)。

　　與人類智能仍有差異

　　《新科學(xué)家》網(wǎng)站還報(bào)道，在被視為AGI重要衡量標(biāo)準(zhǔn)的抽象與推理語(yǔ)料庫(kù)-AGI(ARC-AGI)大賽中，o3模型也創(chuàng)下新紀(jì)錄：在低算力配置下，它以75.7%的得分登上公共排行榜前列。只因確定此項(xiàng)大獎(jiǎng)得主的測(cè)試具有更嚴(yán)格的算力限制，在該算力限制下，o3的挑戰(zhàn)以失敗告終。

　　不過(guò)，在超出官方算力限制172倍的高算力下，o3采用“蠻力”取得了87.5%的成績(jī)，達(dá)到了代表人類水平的85%門檻。

　　對(duì)于o3的表現(xiàn)，谷歌前工程師、ARC-AGI主要?jiǎng)?chuàng)建者弗朗索瓦·肖萊在博客中寫道，這是AI能力的一次驚人且重要的躍升。但o3尚未實(shí)現(xiàn)AGI，因?yàn)槠淙匀粺o(wú)法解決ARC-AGI比賽中一些非常簡(jiǎn)單的問(wèn)題，這表明其與人類智能存在根本差異。

　　AGI是一個(gè)假想中的未來(lái)系統(tǒng)，它能夠模仿人類思維、決策，擁有自我意識(shí)，并能自主行動(dòng)。然而，AGI目前主要活躍在科幻作品中，尚未走進(jìn)現(xiàn)實(shí)。

　　升級(jí)迭代并非易事

　　o3不僅是OpenAI公司的最新力作，也是AI巨頭競(jìng)逐大型語(yǔ)言模型的生動(dòng)寫照。

　　兩年前，OpenAI發(fā)布了ChatGPT，由此拉開(kāi)了AI軍備競(jìng)賽的序幕。從GPT-3.5到更準(zhǔn)確、更具創(chuàng)造性的GPT-4，再到o1，直至o3，OpenAI在不斷精進(jìn)自家產(chǎn)品。

　　其他頂級(jí)AI開(kāi)發(fā)商也在利用日益先進(jìn)的技術(shù)，推動(dòng)自家產(chǎn)品迭代升級(jí)。此前不久，谷歌推出了其旗艦?zāi)Ｐ汀半p子座”(Gemini)的新版本，據(jù)稱其速度是上一代的兩倍，并且能夠“思考、記憶、規(guī)劃，甚至替代用戶采取行動(dòng)”。元宇宙平臺(tái)公司計(jì)劃明年推出Llama 4。

　　然而，迭代之路并非坦途。包括OpenAI和谷歌在內(nèi)的幾家領(lǐng)軍企業(yè)，正面臨新模型開(kāi)發(fā)耗資巨大但回報(bào)遞減的困境。OpenAI的GPT-5模型開(kāi)發(fā)工作進(jìn)展緩慢。據(jù)悉，僅6個(gè)月的訓(xùn)練，單計(jì)算成本就高達(dá)約5億美元，而性能僅比該公司現(xiàn)有產(chǎn)品略勝一籌。

　　◎本報(bào)記者劉霞

【編輯:史詞】