刚刚，ICCV最佳论文出炉，朱俊彦团队用砖块积木摘得桂冠

排行榜 2025年10月22日 15:33 0 aa

机器之心报道

机器之心编辑部

10 月 22 日凌晨，国际计算机视觉大会 ICCV（IEEE International Conference on Computer Vision）揭幕了本年度最佳论文等奖项。

来自卡耐基梅隆大学（CMU）的研究获得了最佳论文奖，以色列理工学院（Technion）的研究获得最佳学生论文奖。

ICCV 是全球计算机视觉三大顶会之一，每两年举办一次，今年的会议在美国夏威夷举行。数据显示，今年大会共收到了 11239 份有效投稿，程序委员会推荐录用 2699 篇论文，最终录用率为 24%，相比上一届论文数量又有大幅增长。

最佳论文

最佳论文奖是来自卡耐基梅隆大学，AI 领域知名青年学者朱俊彦带领团队的论文《Generating Physically Stable and Buildable Brick Structures from Text》。

朱俊彦，清华大学校友，卡耐基梅隆大学计算机科学学院助理教授，前 Adobe 研究科学家。主要研究方向是计算机视觉、图形学、计算摄影和生成模型。

论文标题：Generating Physically Stable and Buildable Brick Structures from Text
论文链接：https://arxiv.org/pdf/2505.05469
开源代码与模型：https://avalovelace1.github.io/BrickGPT/

这篇论文提出了 BrickGPT，是首个能够根据文本提示生成物理稳定的相互连接的积木装配模型的方法。

为实现这一目标，研究团队构建了一个大规模、物理稳定的积木结构数据集，并为每个结构配备了对应的文本描述。随后，研究团队训练了一个自回归大型语言模型，通过「预测下一个 token」的方式来预测应添加的下一块积木。

为了提高生成设计的稳定性，研究者在自回归推理过程中引入了高效的有效性检查（validity check）和基于物理约束的回滚机制（physics-aware rollback），利用物理定律与装配约束来剪枝不可行的 token 预测。

实验结果表明，BrickGPT 能够生成稳定、多样且美观的积木结构，并且与输入的文本提示高度契合。我们还开发了一种基于文本的积木贴图方法，用于生成带有颜色和纹理的设计。

此外，这些设计既可以由人类手动装配，也可以由机械臂自动组装。同时，研究者公开了新的数据集 StableText2Brick，其中包含 47,000 多个积木结构、超过 28,000 个独特的三维对象及其详细描述文本。

该论文的方法流程如图所示。

首先，系统将一个积木结构离散化为一串文本 token 序列，按自下而上、逐行扫描（raster-scan）的顺序排列。

随后，研究者们构建了一个指令数据集，将积木序列与相应的文本描述配对，用于对 LLaMA-3.2-Instruct-1B 进行微调。

最后在推理阶段，BrickGPT 根据输入的文本提示，逐块预测生成积木结构。

对于每一个生成的积木，我们都会执行一系列有效性检查，以确保该积木：

格式正确；
存在于积木库中；
不与已有积木发生碰撞。

在完成整体设计后，研究者们会对其物理稳定性进行验证。若检测到结构不稳定，系统会回滚至最近的稳定状态，即删除所有不稳定的积木及其后续部分，并从该位置继续生成。

将该论文方法与多种基线模型进行对比评估，评价指标包括：有效性（validity）：是否存在超出积木库、越界或相互碰撞的积木；稳定性（stability）；基于 CLIP 的文本相似度以及基于 DINOv2 的图像相似度。其中，稳定性、CLIP 相似度和 DINO 相似度的计算仅针对有效结构进行。对于 LLaMA-Mesh ，有效性要求其生成的 OBJ 文件格式正确。

实验结果表明，该论文的方法在采用拒绝采样（rejection sampling）与回滚机制（rollback）后，在有效性与稳定性上全面优于所有基线模型及其消融设置，同时仍保持较高的文本相似度。

结果展示与基线对比。该论文方法能够根据给定的文本提示，生成高质量、多样化且具有新颖性的积木结构。其中，黑色积木表示发生碰撞的部分。

在该研究之外，同样来自 CMU 的论文《Spatially-Varying Autofocus》获得了 ICCV 2025 最佳论文提名奖。

论文地址：https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf

传统镜头只能在单一平面上成像清晰；因此，位于该焦平面之外的场景部分会因离焦而模糊。那么，能否打破这一成像规律，构建一种能够任意调整景深的「镜头」？

本研究探讨了这种具备空间选择性聚焦能力（spatially-selective focusing）的计算镜头的设计与实现。研究者采用了一种由 Lohmann 镜头与仅相位空间光调制器（phase-only SLM）组成的光学结构，使得每个像素都能聚焦在不同的深度平面上。在此基础上，我们将经典的自动对焦方法扩展到空间可变聚焦场景中，通过对比度与视差线索迭代估计深度图，从而使相机能够逐步调整景深形状以匹配场景深度分布。

通过这种方式，我们能够在光学层面上直接获得全清晰图像。与以往研究相比，本方法在两方面实现了突破：能够同时使整个场景清晰成像；能够保持最高的空间分辨率。

最佳学生论文

最佳论文奖是来自以色列理工学院（Technion）的论文《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》。

这篇论文介绍了一种名为 FlowEdit 的新型图像编辑方法。

论文地址：https://arxiv.org/abs/2412.08629
项目主页：https://matankleiner.github.io/flowedit/
Code&Data：https://github.com/fallenshock/FlowEdit
HuggingFace：https://huggingface.co/spaces/fallenshock/FlowEdit

研究者指出，使用预训练的文本到图像（T2I）扩散或流模型编辑真实图像时，通常需要将图像「反演」为其对应的噪声图。然而，单独的反演往往无法很好地保留原图的结构与细节，因此许多现有方法会在采样过程中额外进行干预。尽管这些方法提升了效果，但却无法在不同模型架构之间无缝迁移。

FlowEdit 创新地绕开了「图像 → 噪声 → 编辑后图像」的传统路径。它通过构建一个常微分方程（ODE），直接在源图像分布（由源提示词定义）与目标图像分布（由目标提示词定义）之间建立了一条直接映射路径。

这条直接路径实现了更低的传输成本，这意味着在编辑过程中能够最大程度地保留原始图像的结构和内容，从而实现更高保真度的编辑。

研究团队在 Stable Diffusion 3 和 FLUX 这两个先进的 T2I 流模型上对 FlowEdit 进行了广泛的实验验证。结果表明，该方法在各类复杂的编辑任务中均取得了 SOTA 效果，证明了其高效性和优越性。

此外，来自德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得了最佳学生论文提名奖。

论文地址：https://arxiv.org/abs/2505.00702

研究人员提出了一个名为 RayZer 的自监督多视图 3D 视觉模型。该模型最核心的特点是，它在训练时无需任何 3D 监督信息（如相机位姿或场景几何），便能学习并展现出涌现的 3D 感知能力。

具体而言，RayZer 能够处理来自未标定相机、位姿未知的图像集合，并从中恢复相机参数、重建场景的 3D 表示，以及合成全新的视角。其创新之处在于，模型在训练过程中完全依赖自我预测的相机位姿来渲染目标视图进行学习，从而摆脱了对真实位姿标注的依赖，仅需 2D 图像即可完成训练。

实验结果表明，RayZer 在新视角合成任务上的表现，与那些在训练和测试中都依赖精确位姿标注的「神谕」方法相比，性能相当甚至更优，充分证明了该方法的有效性和潜力。

其他奖项

Helmholtz Prize

测试方法奖，表彰在计算机视觉基准测试中的贡献，该奖项有两篇获奖论文。

一篇是 Ross Girshick 的《Fast R-CNN》，该论文提出了一种用于目标检测的快速区域卷积网络 (Fast R-CNN)。该方法在前人研究基础上，利用深度卷积网络高效分类候选区域，并通过多项创新显著提升了训练、测试速度和检测精度。

论文地址：https://arxiv.org/abs/1504.08083

另一篇是何恺明等人于 2015 年在 ICCV 发表的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》。这篇工作引入了后来被广泛使用的 PReLU 激活函数 和 He 初始化方法，并首次在 ImageNet 上达到了「超越人类水平」的分类性能。