近日,中國人工智慧公司 月之暗面(Moonshot AI)Kimi團隊發表一篇題為 Attention Residuals: Rethinking depth-wise aggregation重磅論文 , 團隊 對大模型十年沒有變化的核心結構殘差連線行重新設計, 算力效率提升了1.25倍 ,在AI界引發震動 論文。特斯拉 CEO埃隆·馬斯克 (Elon Musk) 在社交媒體上公開點贊該研究成果,評價其為 “ 來自Kimi的亮眼工作 (Impressive work) ”。
論文作者是來自月之暗面的數十名研究員,對專案貢獻最突出的三位研究員分別是陳光宇、Yu Zhang以及 Jianlin Su論文。其中,值得注意的是,第一作者陳廣宇是一名年僅 17 歲、加入團隊僅 5 個月的高三學生,他雖然還未高中畢業,但已經從“學生”變成“一線貢獻者”。
展開全文
Kimi團隊此次對大模型十年沒有變化的核心結構殘差連線行重新設計,使每一層能夠選擇性地關注此前各層輸出,而非統一求和,48B模型訓練效率提升1.25倍,被行業解讀為提前預告了下一代模型的關鍵模組論文。
論文介紹了一種名為 Attention Residuals (AttnRes) 的全新深度網路架構元件,它重構了 Transformer 模型在深度方向上的資訊流動方式 論文。傳統殘差連線採用固定權重進行資訊累加。而這種方法引入了學習到的、依賴於輸入內容的 softmax 注意力機制,這種設計賦予了神經網路在每一層動態檢索和選擇性聚合所有歷史層輸出的能力,完成了在“深度”維度上從線性迴圈向自注意力的正規化轉變。
該方法已經在 Kimi Linear 架構中得到了驗證論文。
月之暗面是2023年3月成立的AI企業,由清華校友楊植麟等創立,核心產品Kimi大模型在國際榜單上多次挑戰GPT-4/Claude等大模型,被譽為中國“AI四小虎”之一論文。
論文第一作者陳廣宇是深圳一所國際學校的高三學生,預計今年6月畢業論文。其社交媒體資訊顯示,他已擁有頂尖競技程式設計背景,參加過美國計算機奧林匹克競賽鉑金組比賽, 在Kimi內部拿下48小時“駭客馬拉松”比賽冠軍。
從2025年11月至今,陳廣宇在Kimi擔任機器學習研究員,參與中國最頂尖的開源大模型的核心研發,已經從“學生”變成“一線貢獻者”論文。
此前,陳廣宇入選羅德信託的高潛力未來領袖計劃,這是面向全球15–17歲潛力青年的選拔計劃,他還在美國頂尖小型實驗室Tilde Research做過AI研究論文。
對陳廣宇而言,17歲以第一作者身份主導Kimi這樣頂級獨角獸的核心架構論文,堪稱“矽谷震動級”事件,也讓全球AI圈注意到“中國高中生已經在做前沿架構創新”論文。
陳廣宇說,這樣的論文太可能由一個人寫出來,kimi的成員都有投入,論文署名的前三位作者做出的都是同等貢獻,希望不要只關注個人論文。
論文連結:
版權宣告
徵稿與會議通知
誠邀加入