廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

CVPR 2026全部獎項揭曉!最佳學生論文榮譽提名頒給了ChordEdit,一作和通訊都是廣東工業大學本科在讀生論文。他們用一塊7年半前的老Titan,跑完了全部實驗。

CVPR 2026頒獎了論文

今年CVPR在丹佛舉辦,共收到16092篇投稿,錄用4090篇,錄用率25.42%論文

剛剛,組委會公佈了全部獲獎名單論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

最佳論文頒給了DeepMind團隊的D4RT,最佳學生論文頒給了清華+微軟聯合團隊的TRELLIS.2論文

然後是最佳學生論文榮譽提名論文

一作Liangsi Lu,廣東工業大學論文。通訊作者Yang Shi,廣東工業大學。

兩個人都是本科在讀論文

展開全文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

最佳學生論文提名

一行公式幹翻多步推理

論文題目論文:ChordEdit: One-Step Low-Energy Transport for Image Editing

作者:盧梁司(廣東工業大學論文,一作)、Xuhang Chen(惠州學院)、Minzhe Guo(廣東工業大學)、Shichu Li(深圳大學)、Jingchao Wang(北京大學)、Yang Shi(廣東工業大學,通訊作者)

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

兩個本科生,組隊登頂會

這篇ChordEdit的一作盧梁司(Liangsi Lu)和通訊作者Yang Shi,都是廣東工業大學本科在讀生論文

盧梁司來自數學與統計學院,專業是資訊與計算科學,研究方向是表示學習和視覺生成論文

在他看來,視覺是人與世界互動的高頻寬介面,視覺表示可以捕捉到文字無法描述的規律,幫助AI與人類共同發現物理法則、學習魯棒的世界模型論文

基於這個方向,他做了RLSTG(建模真實世界非歐幾何的連續神經動力系統)和ChordEdit(高效穩定地增強生成模型抓取真實語義的編輯框架)論文

Yang Shi來自計算機學院,預計2027年畢業,研究方向是計算機視覺和資料探勘論文

兩個不同學院的本科生,組成了搭檔論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

然後他們半年內交出了這樣一張成績單論文

Yang Shi的個人主頁顯示論文,截至目前他以一作或sole通訊作者身份,入選了5個頂會:

CVPR 2026(ChordEdit論文,sole通訊,最佳學生論文提名)

ICML 2026(sole通訊論文,影像編輯語義粒度導航)

KDD 2026(一作論文,圖上的過度擠壓問題)

ACL 2026(一作論文,多模態推理錯誤檢測基準)

WWW 2026(sole通訊論文,黎曼液態時空圖網路)

CVPR 2026(ChordEdit論文,sole通訊,最佳學生論文提名)

ICML 2026(sole通訊論文,影像編輯語義粒度導航)

KDD 2026(一作論文,圖上的過度擠壓問題)

ACL 2026(一作論文,多模態推理錯誤檢測基準)

WWW 2026(sole通訊論文,黎曼液態時空圖網路)

這些工作橫跨影像編輯、圖神經網路、多模態推理、資料探勘四個完全不同的方向,從視覺生成到時空圖建模,再一路到VLM評測論文

問題有多棘手

回到CVPR 2026這篇論文論文

如今,一步式文生圖模型(SD-Turbo、SwiftBrush這類)已經把生成速度拉到了極限,但速度快的代價是,這類模型做影像編輯的時候幾乎不能用論文

現有的training-free編輯方法(FlowEdit、Direct Inversion這些),原理上都依賴多步推理來平均掉軌跡中的不穩定性論文。強行壓到一步,畫面崩掉。物體扭曲變形,背景亂飄,編輯區和非編輯區的一致性完全喪失。

總結來說就是,一步推理意味著你必須沿著一條極其粗糙的路徑,一大步邁到目標位置論文。路徑越粗糙,軌跡能量越高,結果越不可控。

這個問題不是調參能解決的,是數學層面的結構性缺陷論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

解法從哪來

盧梁司的解法,來自一套跨越兩個世紀的數學論文

最優傳輸問題最早由法國數學家Monge在1781年提出,之後經歷了Kantorovich在1940年代的線性規劃鬆弛、Brenier在1991年的二次代價求解論文

到2000年,Benamou和Brenier給出了動態最優傳輸的流體力學形式,也就是ChordEdit直接依賴的框架論文

具體來說,ChordEdit把影像編輯重新定義為源分佈(原圖+原始prompt)和目標分佈(原圖+編輯後prompt)之間的傳輸問題論文

樸素方法直接拿兩個漂移場的差值做編輯,單步推理下噪聲極大論文。ChordEdit則把這個差值場在兩個相鄰時間點的觀測做加權平均,得到一個低能量的Chord Control Field。

這個操作相當於一個時間維度上的平滑運算元論文。漂移場被平滑之後,方差被壓下來,能量降下來,天然就適合用一步積分走完全程。

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

整個方法的核心,濃縮成一個等式(Eq. 4.5),一行加權平均論文

Jensen不等式保證能量收縮,平滑後的編輯場方差更低,單步積分的離散化誤差隨之壓縮論文

不需要訓練論文。不需要反演。不需要額外的掩碼網路。不需要對模型做任何修改。

這篇論文總共33頁,光附錄就寫了25頁,全是數學證明論文。從能量為什麼會收縮、誤差界怎麼推、到單步積分為什麼能穩定收斂,一路證到底。

消融實驗部分則直接視覺化了兩種編輯場的能量分佈論文

樸素方法的編輯場能量高且不均勻,對應的就是背景被摧毀、物體變形的區域論文。ChordEdit的編輯場能量低且平穩,非編輯區域幾乎零擾動。

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

一塊消費級顯示卡跑完

ChordEdit的全部實驗,跑在一塊2018年釋出的NVIDIA Titan 24GB上論文。推理時視訊記憶體佔用僅7GB。

對比之下,同賽道的SwiftEdit需要15GB,而且還得額外訓練一個反演網路論文。ChordEdit連訓練都省了。

速度方面更誇張論文。比FlowEdit快19倍,比Direct Inversion快208倍。

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

使用者研究中,42.5%的參與者在編輯語義準確性上選擇ChordEdit,48.3%在背景保持上選擇ChordEdit,均為壓倒性優勢論文

而且這個方法是model-agnostic的,SD-Turbo能用,SwiftBrush-v2也能用,換模型不需要改程式碼、不需要重新訓練、不需要調架構論文。真正的即插即用。

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

從演示效果看,ChordEdit可以一步完成horse→unicorn、fall→spring、ground→snow等語義編輯,編輯區域跟隨prompt變化,非編輯區域保持不變論文

這就是低能量傳輸場的效果,編輯路徑足夠平滑,非編輯區域幾乎零擾動論文

從16092篇投稿裡,74篇進入最佳論文候選名單(Top 0.45%)論文

最終ChordEdit拿到了最佳學生論文提名(Top 0.03%),同時也是Oral論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

專案地址:

開源地址論文

論文地址論文

最佳論文論文:D4RT

論文題目論文:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

作者論文:Chuhan Zhang*、Guillaume Le Moing*、Skanda Koppula*°、Ignacio Rocco*、Liliane Momeni*、Junyu Xie°¹、Shuyang Sun*、Rahul Sukthankar*、Joëlle K. Barral*、Raia Hadsell*、Zoubin Ghahramani*、Andrew Zisserman*°、Junlin Zhang*、Mehdi S. M. Sajjadi*²

機構論文:*谷歌DeepMind、°倫敦大學學院、°牛津大學

獲獎理由:一種優雅且高效的方法,統一了深度估計、相機位姿、3D點追蹤和4D點雲的推斷,結果驚豔論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

傳統的4D重建方法要麼需要為每個任務單獨設計解碼器,要麼要對每一幀做密集解碼,計算量極大論文

D4RT繞開了這兩個瓶頸,設計了一個統一的解碼介面,可以獨立查詢空間和時間中任意一個點的3D位置,不需要逐幀密集處理論文

這讓整個方法既輕量又可擴充套件,在多個4D重建基準上全面超越了此前的SOTA論文

作者團隊陣容強大,Raia Hadsell是DeepMind VP級研究員,Zoubin Ghahramani是DeepMind首席科學家,Andrew Zisserman是牛津大學VGG組創始人論文。一作Chuhan Zhang此前也在DeepMind從事動態場景重建研究。

最佳學生論文論文:TRELLIS.2

論文題目論文:Native and Compact Structured Latents for 3D Generation

作者論文:Jianfeng Xiang¹²、Xiaoxue Chen¹*、Sicheng Xu²、Ruicheng Wang³²*、Zelong Lv³²*、Yu Deng²、Hongyuan Zhu⁴、Yue Dong²、Hao Zhao¹、Nicholas Jing Yuan⁴、Jiaolong Yang²

機構論文:¹清華大學、²微軟研究院、³中國科學技術大學、⁴微軟AI(*為實習期間完成)

獲獎理由:一種稀疏、無場的潛在體素表示,在一個開源流水線中統一了開放、非流形、封閉和半透明3D資產的帶紋理生成,為幾何與外觀編碼樹立了新標準論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

技術上,TRELLIS.2的核心是一種叫O-Voxel的「全能體素」結構論文。相比於傳統的3D表示方法,O-Voxel採用的是稀疏體素同時編碼幾何和外觀資訊(包括PBR材質引數),不需要依賴多視角2D影像特徵的間接監督。

在此基礎上,團隊設計了Sparse Compression VAE做高壓縮率的潛空間編碼,然後訓練了一個4B引數的flow-matching生成模型論文

一作Jianfeng Xiang來自清華大學,工作在Microsoft Research實習期間完成論文。通訊作者Jiaolong Yang是MSRA的資深研究員,長期深耕3D視覺方向。整個流水線已開源(microsoft/TRELLIS.2)。

最佳論文榮譽提名(2篇)

論文題目論文:NitroGen: An Open Foundation Model for Generalist Gaming Agents

作者論文:Loïc Magne¹*、Anas Awadalla¹²*、Guanzhi Wang¹³*†、Yinzhen Xu¹、Joshua Belofsky⁴、Fengyuan Hu¹、Joohwan Kim¹、Ludwig Schmidt²、Georgia Gkioxari³、Jan Kautz¹、Yisong Yue³†、Yejin Choi¹²†、Yuke Zhu¹⁵†、Linxi Fan¹†

機構論文:¹英偉達、²斯坦福大學、³加州理工學院、⁴芝加哥大學、⁵得克薩斯大學奧斯汀分校

獲獎理由:一個4萬小時、1000款遊戲的資料集,配套評估模擬器和視覺到動作遊戲Agent基礎模型,開啟了新的研究方向論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

作者陣容集結了多個領域的頂尖學者論文。Yejin Choi是ACL 2022主席、MacArthur天才獎得主。Jan Kautz是NVIDIA VP Research。Linxi Fan(範麟熙)是NVIDIA高階研究科學家,此前因MineDojo專案獲NeurIPS 2022 Outstanding Paper。

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

論文題目:SAM 3D: 3Dfy Anything in Images

作者論文:Xingyu Chen*、Fu-Jen Chu*、Pierre Gleize*、Kevin J Liang*、Alexander Sax*、Hao Tang*、Weiyao Wang*、Michelle Guo、Thibaut Hardin、Xiang Li、Aohan Lin、Jiawei Lin、Ziqi Ma、Anushka Sagar、Bowen Song*、Xiaodong Wang、Jianing Yang*、Bowen Zhang*、Piotr Dollár†、Georgia Gkioxari†、Matt Feiszli‡、Jitendra Malik‡⁺

機構論文:Meta超級智慧實驗室(*核心貢獻者、†專案負責人、‡同等貢獻)

獲獎理由:從雜亂的野外單張圖片中重建3D物體模型的重大進展,並提供了可擴充套件的資料採集流水線論文

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

這篇背後站著Meta超級智慧實驗室的全明星陣容論文。Jitendra Malik是UC Berkeley的CV泰斗級人物,Piotr Dollár是Meta Research的核心負責人之一,Georgia Gkioxari在今年的NitroGen中也出現了,同時入圍兩篇Best Paper候選。

時間檢驗獎

ResNet和YOLO論文,十年後回來領獎

今年的Longuet-Higgins Test of Time Award頒給了兩篇十年前的CVPR 2016經典,ResNet和YOLO論文

論文題目論文:Deep Residual Learning for Image Recognition

作者:何愷明、張祥雨、任少卿、孫劍論文,微軟研究院

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

這篇提出了殘差連線,讓深度網路的訓練成為可能論文。在此之前,網路堆到幾十層就開始退化,梯度消失是一堵牆。ResNet用一根跳線繞過了這堵牆,152層的網路跑起來比淺層網路還穩。

2015年ImageNet五項第一,錯誤率3.57%,遠低於人類水平(約5.1%)論文

十年後回頭看,ResNet的殘差連線思想已經滲透到了幾乎所有的深度學習架構裡論文。從Transformer到擴散模型,跳躍連線是最基礎的基礎設施之一。

Google Scholar上超過32萬次引用

論文題目論文:You Only Look Once: Unified, Real-Time Object Detection

作者:Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi論文,華盛頓大學

廣東工業大學兩名本科生,CVPR斬獲最佳學生論文提名

YOLO把目標檢測從兩階段流程(先提候選框再分類)壓縮成了單階段的端到端預測,一次前向傳播完成定位和分類論文。速度從秒級拉到了毫秒級,真正讓目標檢測可以即時執行。

十年過去,YOLO已經迭代到了第11代,仍然是工業界即時檢測的首選方案論文。從自動駕駛到安防監控到工廠質檢,YOLO的後代無處不在。

參考資料論文

文章來源:新智元論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://www.haizhilanhn.com/post/45547.html

🌐 /