陶哲軒First Proof二期結果出爐！最低8美元1題，AI燒出7道論文級解法

聞樂發自凹非寺

量子位 | 公眾號 QbitAI

陶哲軒又發成績單了論文。

由他主導的First Proof專案第二批評測結果出爐論文。

陶哲軒First Proof二期結果出爐！最低8美元1題，AI燒出7道論文級解法

本次評測延續了專案核心規則：選取10道從未在網路、期刊上公佈過解法的前沿研究級數學新題，交由AI系統作答論文。

但相比第一次評測，本次測試進一步提高了標準論文。

評測全程採用專業的雙盲同行評議機制論文，經專家評定，最終有7道題的AI解答達到學術發表標準，

其中，解得最漂亮的Problem 5——

一道關於隨機偏微分方程的問題，AI提出的解法跟人類完全不同，推導得出了比人類解法更強的中間結論論文。

展開全文

雙盲同行評議

這次的題目是來自數學家真實研究中的新問題論文。

本次的問題覆蓋了可計算理論、離散幾何、離散機率、度量幾何（本次測試裡AI全軍覆沒的難題）、隨機偏微分方程、格論、組合拓撲、擬陣與熱帶幾何、代陣列合、馮・諾依曼代數十大方向論文。

和First Proof專案第一次評測一樣，每一道問題都從未在網上或期刊上公開過證明論文。

出題人包括Larry Guth這樣的頂尖數學家論文。

第二輪測試相比此前最大的升級，是引入了雙盲同行評議機制論文。

不再讓參賽方自己測試，全部由專案組統一操作；還找了30位數學專家像期刊審稿一樣盲審打分論文。

評審只能看到提交的證明稿件，不知道作者到底是AI還是人類論文。

所有證明按照人類數學論文標準進行稽覈論文，並分為四檔：

Essentially Flawless（基本無瑕疵）：邏輯嚴謹論文，幾乎不用修改就能直接發表；

Minor Revisions（小修）：數學邏輯沒問題論文，只是寫錯引用、表述囉嗦、小筆誤；

Major Revisions（大修）：大方向沒錯論文，但核心步驟有漏洞，需要專家花大力氣補全；

Reject（拒稿）：思路錯誤、關鍵證明造假、完全答非所問論文。

Essentially Flawless（基本無瑕疵）：邏輯嚴謹論文，幾乎不用修改就能直接發表；

Minor Revisions（小修）：數學邏輯沒問題論文，只是寫錯引用、表述囉嗦、小筆誤；

Major Revisions（大修）：大方向沒錯論文，但核心步驟有漏洞，需要專家花大力氣補全；

Reject（拒稿）：思路錯誤、關鍵證明造假、完全答非所問論文。

參與本次第二輪評測的共有4套AI系統論文。

System A論文：IMProofBench

該系統以GPT-5.5 Pro作為核心底座，同時相容呼叫GPT-5.5、Gemini 3.1 Pro預覽版、Claude Opus 4.7多款大模型協同運算論文。

System B論文：UCLA Moonshot Harnes

由加州大學洛杉磯分校團隊研發，出自陶哲軒團隊之手，該系統統一基於GPT-5.5 Pro搭建論文。

System C論文：OpenAI ChatGPT 5.5 Pro

OpenAI官方原生模型，測試過程中開啟最高等級推理模式論文。

System D論文：Princeton Momus

這是普林斯頓大學團隊推出的推理系統，也是本次評測中備受關注的一套方案，其底層依託Gemini 3.1 Pro預覽版執行論文。

本輪測試採用“一題單次作答、無額外互動”的規則，所有系統在統一標準下完成答題論文。

成本最低8美元

綜合39份有效AI解答的評審結果來看，在全部10道難題裡，有7道題目出現了達到發表標準的解答，也就是拿到“近乎完美”或“小幅修改即可發表”的評級論文。

其中蘇黎世聯邦理工的System A 表現亮眼，在P5隨機偏微分方程這道難題裡，跳出人類常規思路，用全新方法完成證明，推匯出更強的結論論文。

除此之外，第三題離散機率、第九題代陣列合中，部分AI也給出了和人類解法截然不同的原創論證論文。

面對有成熟文獻參考的題目，AI 優勢更為明顯，比如和經典莫比烏斯帶猜想相關的P2離散幾何題，三套AI都沿用已有研究思路順利作答論文。

組合拓撲、格論等題型上，多套AI也交出邏輯完整的答卷，僅存在行文、格式等小問題論文。

本次評測還統計了四套AI的呼叫成本與耗時，雲伺服器總成本不足35美元，可忽略不計，但模型呼叫費用差距懸殊論文。

OpenAI原生ChatGPT 5.5 Pro價效比最高，10道題總花費117美元，最便宜的8美元，最貴的也就16美元……

該模型執行5.8小時論文，耗時最短，但原創能力偏弱；

普林斯頓團隊系統花費1014美元、執行7.8小時，投入產出比較低論文。

解題能力最強的蘇黎世聯邦理工團隊系統總費用達3186美元論文，單題最高花費951美元，執行時22.9小時；

陶哲軒所在UCLA團隊系統成本最高，共計4799美元，執行23.1小時，雖穩定性尚可，卻未實現能力突破論文。

陶哲軒自己也認為本輪整體表現未達預期，現存問題將作為後續最佳化方向論文。

同時，後續安排也已經明確，8—10月將開展First Proof專案第三批正式評測，評測規則沿用第二批次標準論文。

只能說論文，First Proof——

AI數學最嚴厲的母親……

評測報告論文：

— 歡迎AI產品從業者共建 —

📚「AI產品知識庫」是量子位智庫基於長期產品庫追蹤和使用者行為資料推出的飛書知識庫，旨在成為AI行業從業者、投資者、研究者的核心資訊樞紐與決策支援平臺論文。

陶哲軒First Proof二期結果出爐！最低8美元1題，AI燒出7道論文級解法

海之嵐財稅公司

熱門標籤

相關詞彙

分站導航