ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

機器之心編輯部

ICLR 2026 獲獎論文已經公佈論文

今年共有 2 篇論文獲得「傑出論文獎」(Outstanding Paper),另有 1 篇論文獲得「榮譽提名」(Honorable Mention);此外,還有 2 篇 ICLR 2016 論文獲得「時間檢驗獎」(Test of Time Award)論文

作為機器學習領域的頂級會議, ICLR 2026 於 2026 年 4 月 23 日至 27 日在巴西里約熱內盧舉行論文。官方今年收到了有效投稿約 19000 篇,總錄取率約為 28%,該錄取率涵蓋了所有經過同行評審的完整論文投稿,無論其是否撤稿。

以下是獲獎論文詳細資訊論文

傑出論文獎

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文 1:Transformers are Inherently Succinct

展開全文

這項理論工作提出了一個新的視角,用以解釋 Transformer 架構的強大能力:即與 RNN 等替代模型相比,它能夠以多麼簡潔的方式編碼某些概念論文。儘管存在一些批評意見,但論文傳達出的鮮明概念性觀點仍引起了評審委員會及其他專家的興趣。

該工作可能會推動後續圍繞 Transformer 及其他架構在概念表示簡潔性方面的更多理論與實證研究論文

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文作者:Pascal Bergsträßer、Ryan Cotterell、Anthony Widjaja Lin

論文連結論文

論文摘要:論文提出以簡潔性作為衡量 Transformer 在描述某一概念時表達能力的指標論文

為此,本文證明 Transformer 具有很強的表達能力:相比有限自動機和線性時序邏輯(LTL)公式等形式語言的標準表示方法,Transformer 能夠以顯著更簡潔的方式表示形式語言論文

作為這種表達能力帶來的一個副產物,研究進一步表明,驗證 Transformer 的性質在理論上是不可處理的,也就是說,該問題是 EXPSPACE-complete(指數空間完全) 的論文

論文 2論文:LLMs Get Lost In Multi-Turn Conversation

大多數用於 LLM 訓練的資料與其實際部署方式之間存在明顯的不協調:訓練資料主要是文字補全或單輪互動形式,而實際部署場景本質上往往是多輪對話論文。如何穩健地評估和訓練模型的多輪能力,仍然是一項複雜挑戰。

這篇論文設計了一種可擴充套件的方法來評估多輪能力,並發現:在非常常見的多輪互動場景中,尤其是當指令存在欠明確、資訊不充分的問題時,LLM 的能力和可靠性會顯著下降論文

該工作展現了出色的實驗設計和方法論,其發現新穎且有趣,尤其聚焦於一個更貼近真實使用場景的重要問題論文。儘管評審過程中曾討論過其使用模型相對較舊的問題,但委員會認為,該論文的結論和方法對於當前最先進的模型仍然具有相關性。

這項工作突出揭示了一個前沿模型正在努力解決的問題,並提供了一種可行且可擴充套件的診斷方法論文

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文作者:Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville

論文連結論文

論文摘要:大語言模型本質上是一種對話式介面,因此其能力不應只體現在理解和完成使用者已經充分說明的任務上,還應體現在能夠透過多輪交流,幫助使用者逐步明確、探索和細化需求論文

然而,當前大多數 LLM 評估仍主要集中在單輪、指令完整明確的任務場景中,而真實使用者互動中,指令不充分、需求未完全說明的情況十分常見論文。針對這一問題,論文透過大規模模擬實驗,對比了多個頂尖開源和閉源 LLM 在單輪與多輪場景下的表現。

實驗結果顯示,所有被測試模型在多輪對話中的表現都明顯低於單輪場景論文。在六類生成任務中,模型效能平均下降 39%。進一步基於 20 多萬次模擬對話的分析表明,這種效能退化主要來自兩個方面:一是模型能力本身出現小幅下降,二是模型可靠性顯著降低。

論文還發現,LLM 往往會在對話早期過早做出假設,並嘗試生成最終答案;一旦這些早期判斷出現偏差,模型在後續對話中容易過度依賴錯誤方向,難以及時糾正論文。換言之,當 LLM 在多輪對話中走錯一步時,往往會逐漸迷失,並難以恢復到正確軌道。

除上述兩篇傑出論文獎論文外,《The Polar Express: Optimal Matrix Sign Methods and their Application to the Muon Algorithm》 獲得了本屆榮譽提名(Honorable Mention)論文。該論文由 Noah Amsel、David Persson、Christopher Musco 和 Robert M. Gower 共同完成。

時間檢驗獎(Test of Time)

時間檢驗獎旨在表彰 2016 年 ICLR 上發表的、對該領域產生持久影響的論文論文。2026 年程式委員會審查了 2016 年 ICLR 上發表的論文,選出了以下兩篇具有代表性的論文,該論文對如今的機器學習領域產生了深遠的影響和作用。

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文 1.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

這篇論文,通常被稱為「DCGAN」,是最早成功展示基於學習的生成模型能夠合成多樣化、真實且複雜影像的論文之一,為影像生成子領域的興起奠定了基礎論文

當前,影像生成是機器學習研究中最活躍的領域之一,並且在工業界產生了許多非常成功的應用,雖然技術已經發生了變化(從 GAN 到擴散模型),但 DCGAN 依然經得起時間的考驗,是這一重要領域得以發展的關鍵一步論文

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文作者:Alec Radford、Luke Metz、Soumith Chintala

論文連結論文

論文 2.Continuous control with deep reinforcement learning

該論文可以說是那些最具代表性的,從根本上改變其領域發展軌跡的成果之一論文。在這篇論文介紹深度確定性策略梯度(DDPG)演算法發表之前,將強化學習應用於物理系統正面臨著嚴重瓶頸,工程師們被困於手工製作狀態特徵,或與由離散化複雜運動控制引起的維度災難作鬥爭。

而深度確定性策略梯度演算法是第一個成功解決這兩大侷限性的演算法,透過巧妙地將確定性 Actor-Critic 架構與 DQN 的穩定化技術結合,該演算法使神經網路能夠將原始感測器資料直接轉化為精確、連續的物理動作論文

最終,DDPG 展示了深度強化學習能夠進入連續控制領域,改變了該領域的軌跡,並引發了一場強化學習的革命論文

ICLR 2026獲獎論文揭曉:兩篇傑出論文,大神Alec Radford經典工作獲時間檢驗獎

論文作者:Timothy P. Lillicrap、Jonathan J. Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、Daan Wierstra

論文連結論文

參考連結論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://www.haizhilanhn.com/post/34549.html

🌐 /