編輯|澤南、楊文
昨晚,計算機視覺頂會 CVPR 2026 獲獎名單正式出爐論文。
其中,一篇由本科生主導完成的論文不僅成功中稿 Oral,還一舉拿下最佳學生論文提名獎,引發了大家的關注論文。
這篇名為《ChordEdit: One-Step Low-Energy Transport for Image Editing》的獲獎論文,提出了一種與模型無關、無需訓練、也無需反演、能夠實現高保真的一步式影像編輯的方法論文。
獎項公佈後,有網友發帖稱,「感覺蠻勵志的」,論文的第一作者和通訊作者均為廣東工業大學的在讀本科生,實驗甚至是在一塊古早的 NVIDIA Titan 顯示卡上跑出來的論文。
展開全文
關於算力的使用論文,在論文中作者確實是這樣論述的:
可知是一塊基於 Turing 架構的 NVIDIA Titan 24GB GPU,它是英偉達迄今正式釋出的最後一款 Titan 顯示卡,釋出時間早在 2018 年論文。也就是說比玩家們用的 RTX 4090 架構還早了兩代,效能也更原始。
還記得 CVPR 2026 頒獎活動中展示的算力消耗統計資料嗎論文?
ChordEdit 不僅用的算力少,還拿了最佳學生論文提名,可以說是一股清流論文。
作者背景
根據論文作者列表及公開資料,這篇論文共有 6 位作者,來自廣東工業大學、惠州學院、深圳大學、北京大學論文。
Liangsi Lu(盧梁司)
第一作者 Liangsi Lu(盧梁司),目前是廣東工業大學資訊與計算科學專業本科生,研究方向主要集中在表徵學習與視覺生成論文。
個人主頁:
他認為視覺作為一種高頻寬的互動介面,能夠透過連續的表示來刻畫現實世界,並捕捉到文字中未完全指明或缺失的規律,從而幫助 AI 更好地理解物理規律、構建魯棒的世界模型論文。
在具體研究上,盧梁司開發了 RLSTG,一個連續神經動力系統,用於建模真實世界背後的非歐幾里得幾何結構;並提出了 ChordEdit 視覺編輯框架論文。
其個人主頁顯示,他目前共有三篇論文收錄於頂級會議論文。
目前,他正在積極申請 2027 年秋季入學的博士專案論文。
Xuhang Chen(陳緒行)
現任惠州學院電腦科學與工程學院講師,同時兼任旭日集團研究科學家論文。
他於 2025 年在澳門大學與中國科學院深圳先進技術研究院聯合培養獲得電腦科學博士學位,導師為 Pun Chi-Man 教授和王書強教授;此前曾在賓夕法尼亞大學獲得電氣工程碩士和計算機與資訊科技碩士學位,並分別獲得中山大學電子資訊科學與技術學士、香港中文大學電子工程學士學位論文。
他的研究方向主要包括計算成像、生物醫學資料處理、通用計算機視覺與多模態建模論文。
Minzhe Guo
為廣東工業大學學生,未找到公開個人主頁,公開資料較少論文。
Shichu Li
來自深圳大學,曾參與發表論文《DWT-Net: A Medical Image Segmentation Model Incorporating Frequency Domain Information》論文。
未找到公開個人主頁,公開資料較少論文。
Jingchao Wang
目前是北京大學電腦科學學院博士生,導師為 Yunhuai Liu論文。
個人主頁:
他本科就讀於廣東工業大學電腦科學與技術學院(2021 年 - 2025 年),隨後於 2025 年進入北京大學計算機學院攻讀博士學位論文。
研究方向包括多標籤影像分類、節點分類、視覺提示調優等論文。
根據 ORCID 顯示,截至目前,Jingchao Wang 發表了 11 篇論文,其中本科階段發表至少 8 篇論文。
Yang Shi
論文通訊作者 Yang Shi,目前是廣東工業大學計算機學院本科生,預計於 2027 年畢業論文。根據其個人主頁,他的研究方向主要集中在計算機視覺和資料探勘。
從公開成果來看,他已經參與多篇頂級會議論文,研究覆蓋影像編輯、視覺語言模型評測、圖神經網路、時空圖建模等方向論文。
其中,ChordEdit 被 CVPR 2026 接收,並獲得 Best Student Paper Honorable Mention;他還以第一作者身份有論文被 SIGKDD 2026、ACL 2026 Main Conference 接收,並以唯一通訊作者身份有論文被 ICML 2026、CVPR 2026、WWW 2026 接收論文。
論文講了什麼論文?
他們提出的 ChordEdit,其核心貢獻在於解決了一步步生成模型在做「一步編輯」時容易出現的影像崩塌問題,實現了又快又穩的即時編輯論文。
論文:《ChordEdit: One-Step Low-Energy Transport for Image Editing》
連結論文:
專案頁面論文:
一步式文字生成影像(T2I)模型的出現,帶來了前所未有的生成速度論文。然而,將這類模型用於文字引導的影像編輯上時我們仍然面臨嚴重阻礙:如果強行把現有的免訓練編輯方法壓縮到單步推理中,往往會失敗。這種失敗主要表現為物體嚴重變形,以及非編輯區域一致性的明顯丟失。其根源在於,直接在模型的結構化場上做樸素的向量運算,會產生高能量、劇烈抖動的軌跡。
為解決這一問題,這項工作提出了 ChordEdit論文。這是一種與模型無關、無需訓練、也無需反演的方法,能夠實現高保真的一步式影像編輯。他們將影像編輯重新表述為一個傳輸問題:在由源文字提示詞和目標文字提示詞所定義的源分佈與目標分佈之間進行傳輸。
基於動態最優傳輸理論,研究者推匯出一種有原則的低能量控制策略論文。該策略能夠得到更平滑、方差更低的編輯場,並且天然更加穩定,使得這一編輯場可以透過一次較大的積分步長完成遍歷。
憑藉這一有理論支撐、並經過實驗驗證的方法,ChordEdit 能夠實現快速、輕量且精確的影像編輯,最終讓這類具有挑戰性的一步式模型真正具備即時編輯能力論文。
ChordEdit 在影像一致性保持和語義對齊之間取得了優異的平衡,推理時僅需 2 次網路呼叫(1 次傳輸 + 1 次可選的後處理),在一塊 NVIDIA Titan 24GB 顯示卡上僅需 0.38 秒論文。視訊記憶體佔用僅 6988 M,遠低於同類方法(如 SwiftEdit 的 15060 M)。
在 PIE-bench 資料集上,ChordEdit 的背景一致性(PSNR)、語義一致性(CLIP 分數)等多項核心指標均優於同類方法論文。與此同時,作為一個與模型無關的外掛,它相容 SD-Turbo、InstaFlow 和 SwiftBrush-v2 等主流單步生成模型。
這篇論文在技術、理論上均有亮點,展示了理論工具在解決實際工程挑戰中的獨特價值論文。
期待作者未來的更多研究論文。