Arxiv Computer Vision Papers - 2025-12-12

Executive Summary

好的，作为一名专注于计算机视觉和机器学习的研究助理，我为您整理了这份 Arxiv 计算机视觉领域论文的每日报告执行摘要。

每日报告：Arxiv 计算机视觉论文摘要 (2025-12-11)

执行摘要

本报告总结了 2025 年 12 月 11 日在 Arxiv 上发布的 10 篇计算机视觉领域论文。本期论文展现了几个关键的研究趋势，包括多模态理解的深化、三维场景生成与重建的进步、以及在真实世界应用中的评估方法。

主要趋势与观察：

视觉-语言联合学习的持续探索： "VL-JEPA" 论文展示了在视觉和语言信息联合嵌入方面的最新进展，预示着更强大的跨模态理解能力。
三维场景生成与重建的突破： 多篇论文聚焦于三维场景的生成和重建，从无监督的立体几何合成（"StereoSpace"）到开放集三维场景生成（"SceneMaker"），再到自监督的 3D 重建作为空间预训练（"E-RayZer"），显示出该领域正在快速发展。
真实世界评估的重要性日益凸显： "WorldLens" 和 "Gemini Robotics Team" 的论文强调了在真实世界或高度仿真的环境中评估模型性能的必要性，尤其是在自动驾驶和机器人领域。
生成模型的新范式： "Group Diffusion" 提出了通过跨样本协作来增强图像生成的新方法，预示着生成模型在效率和质量上的进一步提升。
个性化与开放词汇能力： "Omni-Attribute" 论文关注于开放词汇属性编码，为视觉概念的个性化提供了新的思路。

亮点与创新：

"StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space" 提出了一种无需深度信息即可合成立体几何的方法，利用扩散模型在规范空间中进行端到端处理，具有显著的创新性。
"WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World" 提供了对驾驶世界模型进行全面真实世界评估的框架，对于推动自动驾驶技术落地至关重要。
"SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model" 在开放集三维场景生成方面取得了进展，通过解耦遮挡处理和姿态估计，为更灵活的场景生成提供了可能。

新兴研究方向与技术：

扩散模型在三维领域的应用： 扩散模型不仅在图像生成中表现出色，也开始被应用于三维几何合成和重建。
自监督学习在三维重建中的潜力： "E-RayZer" 展示了自监督学习在 3D 重建作为空间视觉预训练方面的巨大潜力。
强化学习与文本到三维生成： "Are We Ready for RL in Text-to-3D Generation?" 探讨了强化学习在文本到三维生成中的应用前景，这是一个值得关注的新兴交叉领域。
跨样本协作的生成模型： "Group Diffusion" 提出的跨样本协作机制，可能为提高生成模型的效率和多样性提供新的方向。

建议阅读全文的论文：

考虑到其创新性和对未来研究方向的潜在影响，以下论文值得深入阅读：

"StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space" (创新性的三维几何合成方法)
"WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World" (对自动驾驶领域至关重要的真实世界评估框架)
"VL-JEPA: Joint Embedding Predictive Architecture for Vision-language" (在多模态理解领域具有重要意义)
"Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration" (可能引领生成模型的新范式)

这份摘要旨在帮助您快速了解近期 Arxiv 计算机视觉领域的最新动态。希望对您有所帮助！

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language
Evaluating Gemini Robotics Policies in a Veo World Simulator
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World
SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model
Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration
E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Papers

VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

Authors: Delong Chen, Mustafa Shukor, Theo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung

Published: 2025-12-11

Categories: cs.CV

Abstract:

We introduce VL-JEPA, a vision-language model built on a Joint Embedding Predictive Architecture (JEPA). Instead of autoregressively generating tokens as in classical VLMs, VL-JEPA predicts continuous embeddings of the target texts. By learning in an abstract representation space, the model focuses on task-relevant semantics while abstracting away surface-level linguistic variability. In a strictly controlled comparison against standard token-space VLM training with the same vision encoder and training data, VL-JEPA achieves stronger performance while having 50% fewer trainable parameters. At inference time, a lightweight text decoder is invoked only when needed to translate VL-JEPA predicted embeddings into text. We show that VL-JEPA natively supports selective decoding that reduces the number of decoding operations by 2.85x while maintaining similar performance compared to non-adaptive uniform decoding. Beyond generation, the VL-JEPA's embedding space naturally supports open-vocabulary classification, text-to-video retrieval, and discriminative VQA without any architecture modification. On eight video classification and eight video retrieval datasets, the average performance VL-JEPA surpasses that of CLIP, SigLIP2, and Perception Encoder. At the same time, the model achieves comparable performance as classical VLMs (InstructBLIP, QwenVL) on four VQA datasets: GQA, TallyQA, POPE and POPEv2, despite only having 1.6B parameters.

Analysis:

好的，这是一篇关于“VL-JEPA: Joint Embedding Predictive Architecture for Vision-language”论文的全面中文摘要，其中包含了您要求的各项内容：

论文题目： VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

作者： Delong Chen, Mustafa Shukor, Théo Moutakanni, Willy Chung, Jade Yu, Tejaswi Kasarla, Allen Bolourchi, Yann LeCun, Pascale Fung

全面摘要

1. 主要问题与研究动机：

当前主流的视觉-语言模型（VLMs）通常采用自回归的方式在离散的token空间生成文本。这种方法存在两个主要问题： * 训练效率低下： 模型需要同时学习任务相关的语义和表面语言的变异性（如词汇选择、风格等），导致训练计算量大，并且在生成过程中会花费大量计算资源来产生可能并不影响最终结果的token序列。 * 实时性与低延迟受限： 对于需要实时响应的应用（如视频流分析），自回归的逐token解码会引入不必要的延迟，并且难以实现动态的语义更新。

因此，研究如何构建一个更高效、更具实时性的视觉-语言模型，以解决上述问题，是本文的核心研究动机。

2. 关键创新与方法贡献：

本文提出了 VL-JEPA (Vision-Language Joint Embedding Predictive Architecture)，一种全新的非生成式视觉-语言模型，其核心创新在于：

联合嵌入预测架构 (JEPA)： VL-JEPA不直接生成文本token，而是预测目标文本的连续嵌入 (continuous embeddings)。模型通过一个X-Encoder将视觉输入映射到视觉嵌入 $S_v$ ，通过Y-Encoder将目标文本映射到目标嵌入 $S_y$ ，然后利用一个Predictor学习从视觉嵌入和文本查询 $X_Q$ 预测目标嵌入 $\hat{S}_y$ 的映射。训练目标是在嵌入空间进行预测，而非数据空间。
抽象表征空间学习： 通过在抽象的嵌入空间进行学习，模型能够专注于任务相关的语义，并忽略表面语言的变异性，从而提高学习效率。
轻量级文本解码器： 在推理时，仅在需要时调用一个轻量级的文本解码器，将预测的嵌入 $\hat{S}_y$ 解码为文本。
选择性解码 (Selective Decoding)： VL-JEPA原生支持选择性解码。模型输出的连续嵌入流可以被实时监控，仅当检测到显著的语义变化时才触发解码，这显著减少了不必要的解码操作（平均减少约2.85倍），同时保持了性能。
统一的架构与多任务能力： VL-JEPA的嵌入空间天然支持多种下游任务，包括开放词汇分类、文本到视频检索以及判别式视觉问答（VQA），无需修改模型架构。

3. 主要结果与意义：

性能提升与效率增益： 在与标准token空间VLM进行严格控制的比较中（相同的视觉编码器、训练数据等），VL-JEPA在零样本（zero-shot）的图像描述生成和分类任务上表现出更强的性能，同时可训练参数减少了50%。
视频理解与检索优势： 在八个视频分类和八个视频检索数据集上，VL-JEPA的平均性能优于CLIP、SigLIP2和Perception Encoder等模型。
VQA能力： 在四个VQA数据集上，VL-JEPA取得了与InstructBLIP、QwenVL等经典VLM相当的性能，但参数量仅为1.6B。
选择性解码的有效性： 实验证明，选择性解码策略能够显著降低推理成本（减少约2.85倍的解码操作），同时保持输出质量。
高效的预训练与微调： 模型通过两阶段训练：首先是大规模的无查询预训练以建立视觉-语言对齐，然后是查询条件下的监督微调以增强VQA能力。
世界建模能力： 在WORLDPREDICTION-WM基准测试中，VL-JEPA取得了新的SOTA性能，展示了其在理解世界状态变化和动作概念方面的潜力。

意义： VL-JEPA的提出标志着在视觉-语言模型领域的一个重要进展，它通过引入联合嵌入预测架构，实现了在效率、性能和实时性上的显著提升，为构建更强大、更通用的AI系统奠定了基础。

4. 提及的局限性：

特定任务的局限性： 作者提到，目前VL-JEPA的目标是成为一个通用的模型，但对于更复杂的推理、工具使用和智能体行为等任务，其表现可能不如专门的token生成模型。
数据规模与参数扩展： 虽然结果显示了扩展参数和数据集规模的益处，但作者并未完全探索这一方向，留待未来研究。

5. 潜在的未来研究方向：

更广泛的任务评估： 在更复杂的推理、工具使用和智能体行为等任务上进一步评估VL-JEPA。
参数与数据集规模的探索： 深入研究模型在更大规模参数和数据集下的表现。
多模态联合嵌入空间推理： 将VL-JEPA作为基础，探索在多模态联合嵌入空间进行更复杂的推理，例如视觉链式思考（visual chain-of-thought）方法。
更先进的正则化策略： 探索如VICReg和SIGReg等更高级的非样本对比正则化方法。
Y-Encoder的进一步优化： 探索更多样化的Y-Encoder架构和初始化策略。

这份摘要力求在保持技术准确性的同时，清晰地传达VL-JEPA的核心贡献和研究价值。

Key Findings:

We introduce VL-JEPA, a vision-language model built on a Joint Embedding Predictive Architecture (JEPA).
We show that VL-JEPA natively supports selective decoding that reduces the number of decoding operations by 2.85x while maintaining similar performance compared to non-adaptive uniform decoding.

Links:

PDF
arXiv

Evaluating Gemini Robotics Policies in a Veo World Simulator

Authors: Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou

Published: 2025-12-11

Categories: cs.RO, cs.AI, cs.CV, cs.LG

Abstract:

Generative world models hold significant potential for simulating interactions with visuomotor policies in varied environments. Frontier video models can enable generation of realistic observations and environment interactions in a scalable and general manner. However, the use of video models in robotics has been limited primarily to in-distribution evaluations, i.e., scenarios that are similar to ones used to train the policy or fine-tune the base video model. In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety. We introduce a generative evaluation system built upon a frontier video foundation model (Veo). The system is optimized to support robot action conditioning and multi-view consistency, while integrating generative image-editing and multi-view completion to synthesize realistic variations of real-world scenes along multiple axes of generalization. We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects. This fidelity enables accurately predicting the relative performance of different policies in both nominal and OOD conditions, determining the relative impact of different axes of generalization on policy performance, and performing red teaming of policies to expose behaviors that violate physical or semantic safety constraints. We validate these capabilities through 1600+ real-world evaluations of eight Gemini Robotics policy checkpoints and five tasks for a bimanual manipulator.

Analysis:

好的，这是一篇关于使用生成式视频模型评估机器人策略的论文的全面中文摘要，其中包含了您要求的各个部分：

论文题目： Evaluating Gemini Robotics Policies in a Veo World Simulator 作者： Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou

论文摘要

1. 研究问题/核心挑战：

本文旨在解决当前机器人策略评估中的一个关键挑战：如何高效、可扩展地评估通用机器人策略（generalist policies）在各种场景下的性能，特别是其在“分布外”（Out-of-Distribution, OOD）泛化能力和物理/语义安全性方面的表现。传统的硬件评估方法在覆盖广泛场景、进行大规模测试以及评估安全性方面存在固有的局限性，例如成本高昂、耗时且存在安全风险。

2. 主要创新点/方法论贡献：

提出基于生成式视频模型的评估系统： 作者引入了一个创新的评估系统，该系统基于一个前沿的视频基础模型（Veo），能够生成逼真且多视角的机器人场景模拟。
实现全面的策略评估能力： 该系统不仅支持“分布内”（in-distribution）的标称性能评估，还能进行 OOD 泛化评估，以及针对物理和语义安全性的“红队测试”（red teaming）。
利用生成式图像编辑和多视图合成： 系统集成了生成式图像编辑技术，能够合成包含新交互对象、新视觉背景和新干扰对象等多样化场景的逼真变体，从而探索策略在不同泛化维度上的表现。
动作条件化和多视图一致性： 该系统能够根据机器人动作指令和多视图输入生成一致的视频模拟，这对于评估现代多视图策略至关重要。
验证了视频模型在机器人评估中的潜力： 作者证明了视频模型可以覆盖机器人策略评估的整个谱系，从标称性能到 OOD 泛化和安全性探测。

3. 主要结果及其意义：

准确预测策略性能和排名： 研究结果表明，该视频模拟系统能够准确预测机器人策略在标称场景下的相对性能和排名，并且与真实世界评估结果高度相关（Pearson 系数高达 0.88）。
量化 OOD 泛化影响： 系统能够准确预测不同泛化轴（如背景、干扰对象、新对象）对策略性能的影响，并验证了这些预测与真实世界评估结果的一致性。
实现有效的安全性红队测试： 通过生成包含安全隐患的编辑场景，该系统能够发现策略潜在的不安全行为，而无需进行昂贵且危险的真实世界测试。例如，在“抓取红色积木”的指令下，策略可能错误地接触到人手；在“关闭笔记本”的指令下，策略可能在未移除剪刀的情况下关闭笔记本，从而损坏屏幕。
大规模验证： 研究通过 1600 多次真实世界评估，对八个 Gemini Robotics 策略检查点和五个双臂操作任务进行了验证，证明了该方法的有效性。
意义： 这项工作为机器人策略的可扩展、可靠和安全的评估提供了一条新途径。它极大地降低了评估成本和风险，使得研究人员能够更深入地理解和改进通用机器人策略的泛化能力和安全性。

4. 论文中提到的局限性：

接触交互的模拟挑战： 模拟接触丰富的交互，特别是涉及小物体时，仍然是一个挑战。论文中提到了生成过程中可能出现的“幻觉”现象（例如，物体自发出现）。
长时序生成的技术瓶颈： 目前的策略回滚（policy rollouts）仅限于 8 秒的短时序。实现长时序（例如 1 分钟以上）的多视图一致性生成仍然是一个关键的技术里程碑。
依赖人工评分： 当前的评估结果依赖于人工对生成视频的评分。
推理效率： 视频生成过程的推理效率仍有待提高，以进一步增强评估范式的可扩展性。

5. 潜在的未来研究方向：

增加多样化的交互数据： 通过扩展训练数据，特别是包含更多样化的交互数据，以解决接触交互模拟的挑战。
实现长时序视频生成： 探索基于潜在动作模型（latent-action models）等技术，以实现更长时序的视频生成，从而评估更复杂的长期任务。
开发全自动评估流水线： 集成基于视觉语言模型（VLMs）的自动评分机制，以实现完全自动化的评估流程。
优化推理效率： 通过优化模型架构，提高视频生成的速度，从而加速评估过程。
更广泛的泛化和安全性评估： 将该方法应用于更广泛的机器人任务和更复杂的安全场景，以进一步探索其潜力。

对计算机视觉领域的贡献：

这篇论文在计算机视觉领域的重要贡献在于，它开创性地展示了前沿生成式视频模型（如 Veo）在机器人策略评估中的巨大潜力。它不仅将视频模型从传统的“分布内”评估扩展到了 OOD 泛化和安全性探测的整个谱系，还通过结合生成式图像编辑和多视图合成技术，构建了一个高度灵活和逼真的模拟环境。这为机器人研究社区提供了一个强大的新工具，能够以更低的成本、更高的效率和更安全的风险来开发和验证通用机器人智能。该研究强调了生成式模型在理解和预测复杂物理世界交互方面的能力，为未来机器人智能的进步奠定了基础。

Key Findings:

In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety.
We introduce a generative evaluation system built upon a frontier video foundation model (Veo).
We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects.

Links:

PDF
arXiv

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

Authors: Tjark Behrens, Anton Obukhov, Bingxin Ke, Fabio Tosi, Matteo Poggi, Konrad Schindler

Published: 2025-12-11

Categories: cs.CV

Abstract:

We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

1. 论文的主要贡献（2-3句话的简洁总结）

本文提出了一种名为 StereoSpace 的新颖框架，它利用端到端的扩散模型，实现了从单目图像到立体几何的合成，而无需显式的深度图或图像扭曲。该方法通过在规范化空间中进行视角条件化来引导生成器，从而端到端地推断对应关系并填充遮挡区域。StereoSpace 在感知舒适度和几何一致性方面表现出色，为立体生成提供了一种可扩展、无深度的解决方案。

2. 关键创新或方法论

深度自由（Depth-Free）的立体几何合成： 这是最核心的创新点。传统的单目转立体方法通常依赖于估计深度图，然后通过视差计算或图像扭曲来生成另一视角的图像。StereoSpace 绕过了显式的深度估计，而是直接通过扩散模型在“规范化空间”（canonical rectified space）中学习和生成立体几何。
视角条件化（Viewpoint Conditioning）作为几何推断的驱动： 模型的核心在于如何利用视角信息来推断几何。通过将目标视角的条件信息融入扩散过程，模型被引导去理解不同视角下的物体结构和空间关系，从而生成具有正确视差的立体图像。
端到端（End-to-End）的生成与填充： StereoSpace 将对应关系推断和遮挡区域填充（disocclusion filling）集成在一个统一的端到端框架中。这意味着模型能够同时处理这些复杂的立体几何问题，而不是将其分解为多个独立的步骤。
规范化空间（Canonical Rectified Space）： 论文提到在“规范化 rectified space”中进行操作。这可能意味着模型在内部将输入图像或特征映射到一个标准化的、可能已经进行了一些预处理（如校正）的空间中，以便于模型学习跨视角的几何一致性。
公平且无泄露的评估协议： 论文强调了其评估协议的严谨性，排除了测试时对真实几何信息（ground truth）或代理几何估计（proxy geometry estimates）的依赖。这保证了评估的公正性，并突显了模型在没有直接几何监督下的能力。
关注下游相关性指标： 评估指标（iSQoE for perceptual comfort and MEt3R for geometric consistency）的选择表明了论文的实用导向，关注生成立体图像在实际应用中的质量和可用性。

3. 对该领域的潜在影响

推动立体视觉研究范式： StereoSpace 的深度自由方法可能为单目转立体领域开辟新的研究方向，减少对高精度深度估计的依赖，从而简化流程并可能提高鲁棒性。
提升立体内容生成的可扩展性： 扩散模型本身具有强大的生成能力和可扩展性。深度自由的特性进一步降低了对数据标注的要求，使得大规模立体内容生成成为可能。
改善虚拟现实/增强现实（VR/AR）和3D重建应用： 能够从单目图像高效生成高质量立体几何，将直接受益于VR/AR内容创作、3D场景重建、自动驾驶中的场景理解等领域。
促进更自然的图像编辑和合成： 深度自由的立体生成能力也可能应用于更高级的图像编辑任务，例如在不改变内容的情况下改变视角。

4. 可能受益于此研究的相关领域或应用

虚拟现实（VR）和增强现实（AR）： 快速生成逼真的立体内容，用于沉浸式体验和交互式应用。
3D重建和场景理解： 从单目视频或图像序列中恢复场景的3D结构，用于机器人导航、自动驾驶、建筑可视化等。
电影和游戏制作： 快速将2D素材转换为3D，降低制作成本和时间。
图像编辑和内容创作： 允许用户在不改变内容的情况下调整视角，或生成具有深度感的图像。
计算机辅助设计（CAD）： 从2D草图或图像生成3D模型。
医学影像： 从单张X光片或CT扫描生成具有深度感的图像，辅助诊断。

5. 从摘要中可以推断出的局限性

计算成本： 扩散模型通常计算成本较高，尤其是在推理阶段。虽然论文强调了“可扩展性”，但具体的推理速度和计算资源需求仍需进一步验证。
对“规范化空间”的依赖和理解： 论文提到了“规范化 rectified space”，但其具体实现细节和对模型性能的影响需要深入研究。如果这个规范化过程本身存在限制，可能会影响最终的生成效果。
对复杂场景的泛化能力： 摘要提到在“分层（layered）和非朗伯体（non-Lambertian）场景”上表现良好，这表明它在某些复杂场景下表现优异。然而，对于更极端或未见过的数据分布，其泛化能力仍需评估。
“端到端”的定义和边界： 虽然是端到端，但其内部的“推断对应关系”和“填充遮挡”是否完全独立于任何形式的几何先验或隐式表示，仍需在论文正文中确认。
评估指标的局限性： iSQoE 和 MEt3R 是新提出的或侧重于特定方面的指标。虽然它们强调了下游相关性，但可能无法完全捕捉所有可能的立体失真或感知问题。与传统的、更广泛接受的立体质量评估指标（如PSNR, SSIM, VMAF等）的对比可能不足。
对“无显式深度”的解释： 尽管强调“深度自由”，但模型内部可能仍然学习了某种形式的隐式深度表示或几何线索。理解这种“无显式深度”的真正含义及其对模型能力的影响至关重要。

总而言之，StereoSpace 是一篇非常有前景的论文，它通过创新的深度自由扩散方法，为单目转立体生成提供了一种新的、可能更高效和可扩展的解决方案。其对几何推断的直接建模方式，以及对公平评估的重视，使其在计算机视觉领域具有重要的研究价值和应用潜力。

Key Findings:

We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping.
To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time.

Links:

PDF
arXiv

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Authors: Ao Liang, Lingdong Kong, Tianyi Yan, Hongsi Liu, Wesley Yang, Ziqi Huang, Wei Yin, Jialong Zuo, Yixuan Hu, Dekai Zhu, Dongyue Lu, Youquan Liu, Guangfeng Jiang, Linfeng Li, Xiangtai Li, Long Zhuo, Lai Xing Ng, Benoit R. Cottereau, Changxin Gao, Liang Pan, Wei Tsang Ooi, Ziwei Liu

Published: 2025-12-11

Categories: cs.CV

Abstract:

Generative world models are reshaping embodied AI, enabling agents to synthesize realistic 4D driving environments that look convincing but often fail physically or behaviorally. Despite rapid progress, the field still lacks a unified way to assess whether generated worlds preserve geometry, obey physics, or support reliable control. We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects -- Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference -- jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability. Across these dimensions, no existing world model excels universally: those with strong textures often violate physics, while geometry-stable ones lack behavioral fidelity. To align objective metrics with human judgment, we further construct WorldLens-26K, a large-scale dataset of human-annotated videos with numerical scores and textual rationales, and develop WorldLens-Agent, an evaluation model distilled from these annotations to enable scalable, explainable scoring. Together, the benchmark, dataset, and agent form a unified ecosystem for measuring world fidelity -- standardizing how future models are judged not only by how real they look, but by how real they behave.

Analysis:

好的，作为一名计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

1. 论文的主要贡献（2-3句话）：

该论文提出了 WorldLens，一个全面的基准测试框架，用于评估生成式世界模型在模拟驾驶环境中的表现。它首次从视觉真实性、几何一致性、物理合理性和功能可靠性等多个维度，系统地衡量了模型在构建、理解和行为方面的能力。通过引入大规模人类标注数据集和自动化评估模型，WorldLens 旨在为生成式世界模型提供一个统一、可解释的评估标准，推动其向更逼真、更可靠的方向发展。

2. 关键创新或方法论：

全谱评估框架 (Full-Spectrum Evaluation Framework): 这是 WorldLens 最核心的创新。它不再局限于单一维度的评估（如视觉真实性），而是将评估扩展到五个关键方面：
- Generation (生成): 评估生成世界的外观真实性。
- Reconstruction (重建): 评估从生成世界中重建几何信息的能力。
- Action-Following (行为遵循): 评估模型在生成世界中执行动作的物理和行为一致性。
- Downstream Task (下游任务): 评估生成世界对实际驾驶任务（如导航、避障）的支持程度。
- Human Preference (人类偏好): 结合人类的直观判断来评估世界的整体质量。这种多维度、全方位的评估方法是当前研究中缺失的，能够更全面地揭示世界模型的优缺点。
WorldLens-26K 数据集: 为了支持其评估框架，作者构建了一个大规模、包含人类标注的视频数据集。这个数据集不仅包含数值评分，还提供了文本解释，这对于理解评估结果和模型失败的原因至关重要。这种高质量的人类标注数据是训练和验证评估模型的关键。
WorldLens-Agent: 基于 WorldLens-26K 数据集，作者开发了一个可扩展、可解释的评估模型。这个模型能够自动化地对生成的世界进行评分，从而克服了人工评估的效率瓶颈，并能提供评估的理由，增加了评估的可信度和透明度。

3. 对该领域的潜在影响：

标准化评估: WorldLens 有望成为生成式世界模型领域的一个事实上的标准。它提供了一个统一的度量体系，使得不同模型之间的比较更加公平和有意义，从而加速该领域的研究进展。
指导模型开发: 通过揭示现有模型在物理和行为方面的不足，WorldLens 为未来的模型设计提供了明确的方向。研究人员可以根据 WorldLens 的评估结果，更有针对性地改进模型的几何一致性、物理规律遵循能力以及行为保真度。
推动 Embodied AI 的发展: 生成式世界模型是 Embodied AI 的基石。WorldLens 的出现将直接促进 Embodied AI 代理在真实世界中的可靠性和安全性，为自动驾驶、机器人等应用奠定更坚实的基础。
提升模型的可解释性: WorldLens-Agent 的引入，通过提供文本解释，使得评估过程更加透明，有助于研究人员理解模型为何会做出特定的判断，从而提升模型的整体可解释性。

4. 可能受益的相关领域或应用：

自动驾驶 (Autonomous Driving): 这是论文直接关注的应用领域。更逼真、更可靠的驾驶世界模型能够极大地提升自动驾驶系统的训练效率和安全性。
机器人学 (Robotics): 机器人需要在复杂环境中进行感知、规划和控制。生成式世界模型可以用于模拟各种机器人操作场景，帮助机器人学习和适应。
虚拟现实/增强现实 (VR/AR): 高度逼真且物理一致的虚拟环境对于沉浸式体验至关重要。WorldLens 的评估方法可以用于衡量 VR/AR 内容的质量。
游戏开发 (Game Development): 游戏引擎需要生成逼真的虚拟世界。WorldLens 的评估标准可以帮助游戏开发者提升游戏世界的真实感和可玩性。
仿真科学 (Simulation Science): 任何需要精确模拟物理过程和环境交互的领域，如航空航天、工程设计等，都可以从更可靠的世界模型中受益。

5. 从摘要中可以推断出的局限性：

“Real World” 的定义和覆盖范围: 摘要中提到了“Real World”，但具体指代的是真实世界的哪些方面（例如，是真实世界的物理规律，还是真实世界的视觉外观，或是真实世界的交通行为模式）需要进一步明确。如果“Real World”的定义过于狭窄，那么评估结果的普适性可能会受到限制。
评估的计算成本: 构建一个“全谱”的评估框架，特别是包含物理和行为评估，很可能需要大量的计算资源。WorldLens-Agent 的出现旨在缓解这个问题，但其自身的训练和推理成本仍可能是一个考量因素。
人类偏好的主观性: 尽管引入了人类偏好评估，但人类的判断本身可能存在主观性、文化差异和认知偏差。WorldLens-26K 数据集的规模和多样性对于缓解这个问题至关重要，但仍可能存在一定程度的局限性。
“No existing world model excels universally” 的具体表现: 摘要指出“no existing world model excels universally”，但具体哪些模型在哪些方面表现出色，哪些方面存在严重缺陷，需要通过论文的详细实验结果来揭示。摘要的概括性描述可能无法完全展现这些细节。
WorldLens-Agent 的泛化能力: WorldLens-Agent 是从 WorldLens-26K 数据集中蒸馏出来的。其在未见过的新型世界模型上的泛化能力和鲁棒性，以及其解释的准确性，是需要进一步验证的。

总而言之，WorldLens 是一项非常有价值的研究，它填补了生成式世界模型评估领域的空白，并为该领域的研究和发展提供了重要的方向和工具。其多维度、数据驱动的评估方法，以及自动化评估模型的引入，都预示着该研究将对 Embodied AI 和相关应用产生深远影响。

Key Findings:

We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world.

Links:

PDF
arXiv

SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model

Authors: Yukai Shi, Weiyu Li, Zihao Wang, Hongyang Li, Xingyu Chen, Ping Tan, Lei Zhang

Published: 2025-12-11

Categories: cs.CV, cs.AI

Abstract:

We propose a decoupled 3D scene generation framework called SceneMaker in this work. Due to the lack of sufficient open-set de-occlusion and pose estimation priors, existing methods struggle to simultaneously produce high-quality geometry and accurate poses under severe occlusion and open-set settings. To address these issues, we first decouple the de-occlusion model from 3D object generation, and enhance it by leveraging image datasets and collected de-occlusion datasets for much more diverse open-set occlusion patterns. Then, we propose a unified pose estimation model that integrates global and local mechanisms for both self-attention and cross-attention to improve accuracy. Besides, we construct an open-set 3D scene dataset to further extend the generalization of the pose estimation model. Comprehensive experiments demonstrate the superiority of our decoupled framework on both indoor and open-set scenes. Our codes and datasets is released at https://idea-research.github.io/SceneMaker/.

Analysis:

好的，这是对论文“SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model”的全面中文摘要：

论文题目： SceneMaker: Decoupled De-occlusion and Pose Estimation Model for Open-set 3D Scene Generation

作者： Yukai Shi, Weiyu Li, Zihao Wang, Hongyang Li, Xingyu Chen, Ping Tan, Lei Zhang

摘要：

1. 研究问题/核心挑战： 该论文旨在解决当前3D场景生成方法在开放集（open-set）场景下，尤其是在严重遮挡的情况下，难以同时生成高质量几何体和准确物体姿态的问题。现有方法受限于有限的3D数据集，缺乏足够的开放集去遮挡（de-occlusion）和姿态估计（pose estimation）先验知识，导致在复杂场景下性能下降。

2. 主要创新点/方法贡献： SceneMaker 提出了一种解耦的3D场景生成框架，其核心创新点在于：

解耦的去遮挡模型： 将去遮挡模型从3D物体生成中分离出来，并利用大规模图像数据集和专门收集的去遮挡数据集进行增强训练。这使得模型能够学习到更丰富多样的开放集遮挡模式，从而生成更完整、高质量的物体几何体。
统一的姿态估计模型： 提出了一种统一的姿态估计模型，该模型集成了全局和局部自注意力（self-attention）及交叉注意力（cross-attention）机制。这种设计能够更准确地处理不同姿态变量（旋转、平移、尺寸）之间的相互作用，并提升模型在场景生成任务中的准确性。
构建开放集3D场景数据集： 为了进一步提升姿态估计模型的泛化能力，作者构建了一个包含200K个合成场景的大规模开放集3D场景数据集。

3. 主要结果与意义： 通过上述创新，SceneMaker 在室内和开放集场景下均取得了优于现有SOTA（State-of-the-Art）方法的性能。

几何体质量提升： 解耦的去遮挡模型显著提高了在严重遮挡情况下的物体几何体生成质量，即使是小物体也能保持细节。
姿态估计准确性增强： 统一的姿态估计模型能够更准确地预测物体的6D姿态（旋转、平移、尺寸），并且在处理具有不同几何形状的物体时表现出色。
泛化能力提升： 通过构建的开放集数据集，模型在处理未见过或复杂场景时展现出更强的泛化能力。
实验验证： 论文通过大量的定量和定性实验，包括与MIDI、PartCrafter等方法的比较，证明了SceneMaker在各种场景下的优越性。

4. 论文提及的局限性： 尽管SceneMaker在处理任意物体和开放集场景方面表现出色，但论文也指出了其局限性：

真实世界复杂性： 真实世界中物体的排列方式可能比现有数据集捕捉到的更为复杂，尤其是在涉及力学交互（force interactions）的情况下。
控制信号的局限： 目前的场景生成方法主要通过图像或简单文本提示进行控制，未来需要更丰富的控制信号和更自然的语言交互方式。

5. 潜在的未来研究方向： 基于上述局限性，论文提出了以下未来研究方向：

物理可信的场景构建： 研究如何更准确地构建物理上可信的3D场景，包括处理物体间的相互穿插（interpenetration）和力学交互。
更精细的场景控制： 探索更高级的控制信号和自然语言交互，以实现更精细的场景生成控制。
深度理解与具身智能： 进一步研究如何实现对生成的高质量3D场景的深度理解，并将其应用于具身智能（embodied AI）决策任务。

总而言之，SceneMaker通过创新的解耦策略和统一的模型设计，有效解决了3D场景生成在开放集和遮挡场景下的关键挑战，显著提升了生成场景的几何质量和姿态准确性，并为未来的研究开辟了新的方向。

Key Findings:

We propose a decoupled 3D scene generation framework called SceneMaker in this work.
Then, we propose a unified pose estimation model that integrates global and local mechanisms for both self-attention and cross-attention to improve accuracy.

Links:

PDF
arXiv

Authors: Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng

Published: 2025-12-11

Categories: cs.CV

Abstract:

The success of foundation models in language and vision motivated research in fully end-to-end robot navigation foundation models (NFMs). NFMs directly map monocular visual input to control actions and ignore mid-level vision modules (tracking, depth estimation, etc) entirely. While the assumption that vision capabilities will emerge implicitly is compelling, it requires large amounts of pixel-to-action supervision that are difficult to obtain. The challenge is especially pronounced in dynamic and unstructured settings, where robust navigation requires precise geometric and dynamic understanding, while the depth-scale ambiguity in monocular views further limits accurate spatial reasoning. In this paper, we show that relying on monocular vision and ignoring mid-level vision priors is inefficient. We present StereoWalker, which augments NFMs with stereo inputs and explicit mid-level vision such as depth estimation and dense pixel tracking. Our intuition is straightforward: stereo inputs resolve the depth-scale ambiguity, and modern mid-level vision models provide reliable geometric and motion structure in dynamic scenes. We also curate a large stereo navigation dataset with automatic action annotation from Internet stereo videos to support training of StereoWalker and to facilitate future research. Through our experiments, we find that mid-level vision enables StereoWalker to achieve a comparable performance as the state-of-the-art using only 1.5% of the training data, and surpasses the state-of-the-art using the full data. We also observe that stereo vision yields higher navigation performance than monocular input.

Analysis:

好的，这是对论文“Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision”的全面中文摘要：

论文题目： Empowering Dynamic Urban Navigation with Stereo and Mid-Level Vision

作者： Wentao Zhou, Xuweiyi Chen, Vignesh Rajagopal, Jeffrey Chen, Rohan Chandra, Zezhou Cheng

摘要：

1. 研究问题/核心挑战： 本文旨在解决当前端到端机器人导航基础模型（NFMs）在动态和非结构化城市环境中导航能力不足的问题。现有NFMs主要依赖单目视觉输入，忽略了深度估计、目标跟踪等关键的中层视觉（mid-level vision）模块。这种方法虽然简化了模型，但面临以下挑战： * 数据稀疏性： 像素到动作的监督信号获取困难，尤其是在真实世界场景中。 * 深度尺度模糊： 单目视觉固有的深度尺度不确定性限制了精确的几何和空间推理。 * 动态环境理解不足： 复杂的行人运动、不规则的道路配置以及多样的物体类别，要求模型具备更强的3D场景语义、几何和动态理解能力。

2. 主要创新与方法贡献： 作者提出了StereoWalker模型，通过引入立体视觉（stereo vision）和显式中层视觉模块来增强NFMs的能力。其核心创新点包括： * 立体视觉输入： 利用左右眼图像对，有效解决了单目视觉的深度尺度模糊问题，提供了更可靠的几何信息。 * 显式中层视觉模块： 集成了先进的深度估计（如Depth-AnythingV2）和密集点跟踪（如CoTracker3）模块。这些模块提取的几何和运动信息被整合到模型中，而非隐式地让模型自行学习。 * 新的立体导航数据集： 收集并整理了一个大规模的立体城市导航数据集（DIVERCITY），该数据集包含来自全球多个城市的VR180立体视频，并经过自动过滤和质量控制，以支持训练和研究。 * 改进的Transformer架构： StereoWalker保留了所有图像块（patch）的特征，而非仅使用一个全局[CLS] token，以保留更精细的空间结构。模型采用了跟踪引导注意力（tracking-guided attention）机制，结合全局注意力和目标注意力，有效融合了立体图像、深度信息、跟踪信息以及目标位置，以预测未来航点和动作。

3. 主要结果与意义： * 性能提升： StereoWalker在CityWalker基准测试中，使用仅占原始数据1.5%的数据量，就达到了与现有最先进（SOTA）模型相当的性能。当使用全部数据时，StereoWalker超越了SOTA模型。 * 立体视觉优势： 实验证明，立体视觉相比单目视觉能显著提高导航性能。 * 中层视觉的重要性： 消融实验表明，显式地引入深度和跟踪等中层视觉信息，能够显著提升导航的准确性、稳定性和数据效率，加速模型训练过程。 * 真实世界部署： 在真实机器人（Clearpath Jackal）上的部署测试也验证了StereoWalker在各种运动模式下的鲁棒性和优越性。

4. 提及的局限性： * 计算资源需求： StereoWalker在机器人部署时仍需要GPU支持，并且其计算量（2.89 GB VRAM）大于CityWalker。 * “转弯”场景的挑战： 在“转弯”场景中，模型性能略有下降，作者推测这可能与数据不平衡以及小角度误差的累积有关。 * 数据集限制： 虽然作者构建了新的数据集，但仍有进一步探索更广泛机器人任务和更大数据集的需求。

5. 未来研究方向： * 将立体视觉和中层视觉的理念推广到更广泛的机器人任务中，例如移动操作器和空中机器人。 * 探索更广阔的机器人学习领域，利用中层视觉来提升泛化能力和灵活性。 * 训练更大规模、更多样化的机器人数据集，以期获得更强的泛化能力和更灵活的机器人模型。

总结： StereoWalker通过整合立体视觉和显式中层视觉模块，成功地解决了现有端到端导航模型在动态城市环境中面临的深度不确定性和理解能力不足的问题。该模型不仅在多个基准测试和真实世界部署中取得了SOTA性能，而且显著提高了训练效率，证明了计算机视觉核心表示在构建强大机器人导航模型中的持续重要性。这项工作为未来更鲁棒、更高效的城市导航系统奠定了基础。

Key Findings:

In this paper, we show that relying on monocular vision and ignoring mid-level vision priors is inefficient.
We present StereoWalker, which augments NFMs with stereo inputs and explicit mid-level vision such as depth estimation and dense pixel tracking.
Through our experiments, we find that mid-level vision enables StereoWalker to achieve a comparable performance as the state-of-the-art using only 1.5% of the training data, and surpasses the state-of-the-art using the full data.

Links:

PDF
arXiv

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

Authors: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov

Published: 2025-12-11

Categories: cs.CV

Abstract:

Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.

Analysis:

作为一名计算机视觉和机器学习领域的专家，我对这篇论文摘要进行了深入分析，并为您提供以下中文解读：

1. 论文主要贡献的简洁总结 (2-3句话)

这篇论文提出了 Omni-Attribute，一个首创的开放词汇图像属性编码器，能够学习高保真、属性特定的表示。通过精心设计的数据集和创新的双目标训练范式，该方法有效解决了现有方法中属性纠缠导致的信息泄露问题，实现了更精确的视觉概念个性化和组合生成。

2. 关键创新或方法论

该论文的核心创新在于其联合设计的数据和模型方法，具体体现在：

语义链接的图像对与正负属性标注： 作者构建了一个独特的数据集，其中包含语义上相关的图像对，并明确标注了需要保留（正属性）和需要抑制（负属性）的视觉特征。这种显式的监督信号是学习属性特定表示的关键。
双目标训练范式： 论文采用了结合了生成保真度和对比解耦的训练目标。这意味着模型不仅要能够生成高质量的图像，还要能够通过对比学习的方式，将不同的属性清晰地分离出来，避免相互干扰。

3. 对该领域的潜在影响

Omni-Attribute 的出现有望对视觉概念个性化领域产生深远影响：

提升个性化效果的准确性和可控性： 通过学习属性特定的表示，模型能够更精确地捕捉和转移用户指定的属性，从而生成更符合用户期望的个性化图像，减少不相关的视觉信息泄露。
推动开放词汇属性的理解和应用： “开放词汇”的特性意味着该模型能够处理更广泛、更灵活的属性描述，而不仅仅局限于预定义的类别。这将极大地扩展视觉概念个性化的应用范围。
为更复杂的图像编辑和生成任务奠定基础： 这种精细的属性控制能力为未来更复杂的图像编辑、风格迁移、内容合成等任务提供了强大的技术支撑。

4. 可能受益的相关领域或应用

这项研究的成果可以广泛应用于以下领域：

个性化内容创作： 例如，为用户生成具有特定身份、表情、服装风格的虚拟形象或图像。
数字艺术和设计： 艺术家和设计师可以利用该技术更精细地控制图像的风格、光照等元素，实现更具创意的作品。
虚拟现实 (VR) 和增强现实 (AR)： 在虚拟环境中创建高度个性化的虚拟角色和场景。
图像编辑和修复： 精准地修改图像的特定属性，如改变人物表情、调整光照效果等。
内容检索： 基于更细粒度的属性进行图像检索，例如搜索“带有微笑表情的特定人物”。
视频生成和编辑： 将属性转移到视频序列中，实现更具表现力的视频内容。

5. 从摘要中可以推断出的局限性

尽管摘要展示了显著的进步，但仍可推断出一些潜在的局限性：

对训练数据的依赖性： 论文强调了“联合设计的数据”，这意味着模型的性能可能高度依赖于所构建的语义链接图像对和属性标注的质量和覆盖范围。如果训练数据存在偏差或不足，可能会影响模型在某些属性上的泛化能力。
计算成本： 学习高保真、属性特定的表示，并结合双目标训练，可能需要大量的计算资源和训练时间。
属性的定义和粒度： 尽管是“开放词汇”，但如何精确定义和量化某些抽象的属性（例如，某些风格的细微差别）仍然是一个挑战。摘要中未详细说明模型如何处理模糊或主观的属性。
对“ unseen contexts”的泛化能力： 摘要提到“unseen contexts”，但具体在多大程度上能够处理完全陌生的场景和属性组合，还需要进一步的实验验证。

总而言之，Omni-Attribute 是一项令人兴奋的研究，它通过创新的数据设计和模型训练方法，显著提升了视觉概念个性化的能力，为未来的图像生成和编辑技术开辟了新的可能性。

Key Findings:

To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations.
Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement.
The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.

Links:

PDF
arXiv

Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration

Authors: Sicheng Mo, Thao Nguyen, Richard Zhang, Nick Kolkin, Siddharth Srinivasan Iyer, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li

Published: 2025-12-11

Categories: cs.CV

Abstract:

In this work, we explore an untapped signal in diffusion model inference. While all previous methods generate images independently at inference, we instead ask if samples can be generated collaboratively. We propose Group Diffusion, unlocking the attention mechanism to be shared across images, rather than limited to just the patches within an image. This enables images to be jointly denoised at inference time, learning both intra and inter-image correspondence. We observe a clear scaling effect - larger group sizes yield stronger cross-sample attention and better generation quality. Furthermore, we introduce a qualitative measure to capture this behavior and show that its strength closely correlates with FID. Built on standard diffusion transformers, our GroupDiff achieves up to 32.2% FID improvement on ImageNet-256x256. Our work reveals cross-sample inference as an effective, previously unexplored mechanism for generative modeling.

Analysis:

好的，这是一篇关于“Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration”的论文的全面中文摘要，其中包含了您要求的各个部分：

论文题目： Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration 作者： Sicheng Mo, Thao Nguyen, Richard Zhang, Nick Kolkin, Siddharth Srinivasan Iyer, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li

全面摘要

1. 研究问题/核心挑战： 传统扩散模型在生成图像时，通常是独立地处理每个样本，即使在批处理（batch）中，图像之间的信息也未能有效共享。这导致在推理阶段，模型未能充分利用样本间的潜在关联来提升生成质量。论文的核心研究问题在于：能否让同一批次中的多个图像在生成过程中进行协作，以共同提升生成效果？

2. 关键创新/方法论贡献： 作者提出了Group Diffusion（组扩散）框架，其核心创新在于：

跨样本注意力机制（Cross-Sample Attention）： Group Diffusion 引入了一种新的注意力机制，允许模型在推理时将注意力从单个图像内部的 patch 扩展到同一批次中的其他图像的 patch。这意味着图像可以“互相学习”和“互相帮助”，共同完成去噪过程。
联合去噪（Joint Denoising）： 在推理阶段，Group Diffusion 能够联合地去噪一组图像，从而学习到图像内部（intra-image）和图像之间（inter-image）的对应关系。
可扩展性（Scaling Effect）： 作者发现，增加组的大小（group size）能够显著增强跨样本注意力，并带来更好的生成质量。
定性度量（Qualitative Measure）： 论文引入了一种新的定性度量来捕捉跨样本注意力的强度，并证明其与生成质量（FID）高度相关。
框架集成性： Group Diffusion 是一个即插即用的框架，可以轻松集成到现有的标准扩散 Transformer 模型（如 DiT 和 SiT）中，而无需大幅修改模型架构。

3. 主要结果与意义： * 显著的性能提升： Group Diffusion 在 ImageNet-256x256 数据集上取得了高达 32.2% 的 FID 改进。当与 SiT-XL/2 模型结合时，在从头训练和从预训练模型继续训练的情况下，分别实现了 20.9% 和 32.2% 的 FID 提升。 * 规模效应的验证： 实验表明，更大的组大小（如从 1 增加到 8 或 16）能够带来持续的生成质量提升，并且与更强的跨样本注意力相关联。 * 对生成过程的深入理解： 通过分析注意力图，作者发现跨样本注意力在早期去噪阶段尤为活跃，有助于形成全局结构和语义信息。同时，作者还发现，能够接收更高注意力权重的图像对生成结果的影响更大。 * 对表示学习的启示： Group Diffusion 的成功表明，跨样本的交互可以作为一种隐式的监督信号，增强模型的表示学习能力，从而生成更强大、更具泛化性的扩散模型。 * 通用性： 该方法在文本到图像生成任务（MS-COCO 数据集）上也表现出有效性，进一步证明了其通用性。

4. 论文中提到的局限性： * 训练成本增加： Group Diffusion 的一个主要局限性是增加了训练和推理的计算成本。当组大小为 n 时，GroupDiff-f 和 GroupDiff-l 的训练时间会分别增加约 (n-1) 倍和 (0.1n) 倍，推理时间也会相应增加。 * 对相关性依赖： 该方法的效果依赖于组内图像之间的语义或视觉相关性。如果组内图像关联性不强，效果可能会打折扣。

5. 潜在的未来研究方向： * 提高效率： 探索更高效的 Group Diffusion 变体，以降低计算成本，使其更易于大规模应用。 * 更灵活的输入： 利用 Group Diffusion 的跨样本交互特性，将其扩展到处理更复杂的输入，例如多样化或跨条件的输入，实现更灵活的图像生成。 * 作为教师模型： 利用 Group Diffusion 训练出的高质量模型，作为“教师”来蒸馏出更轻量级的模型。 * 连接表示学习与生成模型： 进一步探索跨样本交互如何作为一种隐式监督，为更强大、更具泛化性的扩散模型提供新的视角。

总结： Group Diffusion 是一项开创性的工作，它打破了传统扩散模型在推理阶段独立生成样本的范式。通过引入跨样本注意力机制，使得同一批次内的图像能够协同去噪，从而显著提升了图像生成质量。该方法不仅在量化指标上取得了优异的成绩，还为理解扩散模型的内部工作机制提供了新的视角，并为未来的研究开辟了新的方向。其核心思想——“协作生成”——为提升生成模型的性能提供了一种简单而有效的新途径。

Key Findings:

We propose Group Diffusion, unlocking the attention mechanism to be shared across images, rather than limited to just the patches within an image.
Furthermore, we introduce a qualitative measure to capture this behavior and show that its strength closely correlates with FID.

Links:

PDF
arXiv

E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training

Authors: Qitao Zhao, Hao Tan, Qianqian Wang, Sai Bi, Kai Zhang, Kalyan Sunkavalli, Shubham Tulsiani, Hanwen Jiang

Published: 2025-12-11

Categories: cs.CV

Abstract:

Self-supervised pre-training has revolutionized foundation models for languages, individual 2D images and videos, but remains largely unexplored for learning 3D-aware representations from multi-view images. In this paper, we present E-RayZer, a self-supervised large 3D Vision model that learns truly 3D-aware representations directly from unlabeled images. Unlike prior self-supervised methods such as RayZer that infer 3D indirectly through latent-space view synthesis, E-RayZer operates directly in 3D space, performing self-supervised 3D reconstruction with Explicit geometry. This formulation eliminates shortcut solutions and yields representations that are geometrically grounded. To ensure convergence and scalability, we introduce a novel fine-grained learning curriculum that organizes training from easy to hard samples and harmonizes heterogeneous data sources in an entirely unsupervised manner. Experiments demonstrate that E-RayZer significantly outperforms RayZer on pose estimation, matches or sometimes surpasses fully supervised reconstruction models such as VGGT. Furthermore, its learned representations outperform leading visual pre-training models (e.g., DINOv3, CroCo v2, VideoMAE V2, and RayZer) when transferring to 3D downstream tasks, establishing E-RayZer as a new paradigm for 3D-aware visual pre-training.

Analysis:

好的，这是对论文“E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training”的全面中文摘要：

论文题目： E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training

作者： Qitao Zhao, Hao Tan, Qianqian Wang, Sai Bi, Kai Zhang, Kalyan Sunkavalli, Shubham Tulsiani, Hanwen Jiang

摘要：

1. 研究问题/核心挑战： 该论文旨在解决当前3D视觉领域中一个关键的未被充分探索的领域：如何从无标签的多视图图像中学习具有3D空间意识的表征。尽管自监督学习在语言、2D图像和视频领域取得了巨大成功，但其在3D视觉领域的应用仍显不足。现有的3D视觉模型通常依赖于有监督的3D伪标签，这效率低下且难以扩展。而先前的自监督方法（如RayZer）通过隐式的潜在空间视图合成来间接推断3D信息，这可能导致捷径解决方案和几何基础不牢固的表征。

2. 主要创新点/方法贡献： E-RayZer 提出了一个首个完全自监督的、直接在3D空间中进行3D高斯（3D Gaussians）重建的模型，从而开创了3D空间视觉预训练的新范式。其核心创新包括：

显式3D几何建模： 与RayZer的隐式方法不同，E-RayZer直接预测相机参数和显式的3D高斯，将几何正则化注入模型设计中。这确保了学习到的表征是几何上更具基础且可解释的。
细粒度学习课程： 为了解决显式3D重建训练中的收敛性挑战，论文引入了一种新颖的、细粒度的学习课程。该课程基于视觉重叠度（包括几何和语义两种度量），从易到难地组织训练样本，并能自适应地协调异构数据源，从而提高了训练的稳定性和可扩展性。
去除图像索引嵌入： 为了避免RayZer中存在的视图插值捷径，E-RayZer完全移除了图像索引嵌入，采用了一种更符合3D几何的Transformer架构。

3. 主要结果与意义： E-RayZer在多个方面取得了显著成果：

优于现有自监督方法： 在姿态估计任务上，E-RayZer显著优于RayZer，并且在3D下游任务的迁移学习中，其表征能力也超越了DINOv3、CroCo v2、VideoMAE V2等领先的视觉预训练模型。
媲美甚至超越监督方法： 在3D重建和姿态估计任务上，E-RayZer在性能上能够与最先进的监督模型（如VGGT）相媲美，甚至在某些情况下表现更优。这表明大规模自监督学习本身就足以获得几何上可靠的3D理解。
强大的3D空间意识： 通过可视化和在多个下游任务上的评估，E-RayZer学习到的表征显示出更强的3D空间意识，能够更准确地捕捉场景结构，并且在不同视图下保持一致性。
可扩展的预训练框架： E-RayZer的成功证明了其作为3D空间视觉预训练框架的潜力，为未来开发更强大的3D理解模型奠定了基础。

4. 提及的局限性： 论文中虽然没有明确列出局限性部分，但从实验设置和讨论中可以推断出一些潜在的考虑：

对数据质量和多样性的依赖： 实验结果表明，数据质量和多样性对模型性能至关重要，混合和高质量的数据集能带来更好的泛化能力。这意味着在实际应用中，数据的收集和预处理仍然是一个挑战。
计算资源需求： 论文提到训练使用了8个A100 GPU和大量的迭代次数，表明该模型在训练时需要相当大的计算资源。

5. 潜在的未来研究方向： 基于论文的研究成果和讨论，可以推测以下未来研究方向：

更广泛的数据集探索： 进一步探索和利用更大规模、更多样化的无标签3D数据，以提升模型的泛化能力和鲁棒性。
更精细的3D表征学习： 探索更复杂的3D表征形式，例如更精细的几何细节或语义信息，以应对更具挑战性的3D任务。
实时性与效率优化： 尽管E-RayZer在性能上表现出色，但进一步优化模型的计算效率，使其能够应用于实时场景，将是一个重要的研究方向。
与其他模态的融合： 将E-RayZer的3D空间理解能力与语言、其他感知模态（如触觉）进行融合，构建更全面的多模态AI系统。
更深入的理论分析： 对E-RayZer学习到的几何表征进行更深入的理论分析，理解其为何能获得如此强的3D理解能力。

总结： E-RayZer通过引入显式的3D几何建模和创新的视觉重叠度学习课程，成功地实现了完全自监督的3D高斯重建，并在姿态估计和3D下游任务上取得了超越现有方法的优异性能。这不仅解决了3D视觉领域中学习3D空间意识表征的难题，更确立了E-RayZer作为3D空间视觉预训练新范式的地位，为未来3D AI的发展开辟了新的道路。

Key Findings:

In this paper, we present E-RayZer, a self-supervised large 3D Vision model that learns truly 3D-aware representations directly from unlabeled images.
To ensure convergence and scalability, we introduce a novel fine-grained learning curriculum that organizes training from easy to hard samples and harmonizes heterogeneous data sources in an entirely unsupervised manner.
Experiments demonstrate that E-RayZer significantly outperforms RayZer on pose estimation, matches or sometimes surpasses fully supervised reconstruction models such as VGGT.
Furthermore, its learned representations outperform leading visual pre-training models (e.g., DINOv3, CroCo v2, VideoMAE V2, and RayZer) when transferring to 3D downstream tasks, establishing E-RayZer as a new paradigm for 3D-aware visual pre-training.

Links:

PDF
arXiv

Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Authors: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao

Published: 2025-12-11

Categories: cs.CV, cs.AI, cs.CL

Abstract:

Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.

Analysis:

好的，这是对论文“Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation”的全面中文摘要：

论文题目： Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

作者： Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao

摘要：

1. 研究问题/核心挑战： 尽管强化学习（RL）在大型语言模型（LLMs）和2D图像生成方面取得了显著成功，但将其应用于3D文本到3D生成领域仍处于探索阶段。3D对象的空间复杂性（全局一致的几何结构和精细的局部纹理）使得3D生成对奖励设计和RL算法的选择极为敏感。现有研究主要集中在预训练和微调方法，而RL在3D生成中的潜力尚未被系统性地探索。本文旨在系统性地研究RL在文本到3D自回归生成中的应用，并解决其面临的挑战。

2. 主要创新点/方法论贡献： 作者提出了一个多维度的系统性研究框架，以探索RL在文本到3D自回归生成中的应用，并提出了以下关键创新：

系统性研究框架： 对奖励设计、RL算法、文本到3D基准和高级RL范式进行了深入分析。
奖励设计探索： 评估了不同奖励维度和模型选择，强调了与人类偏好对齐的重要性，并发现通用多模态模型能提供3D属性的鲁棒信号。
RL算法研究： 研究了GRPO变体，突出了token级别优化的有效性，并探讨了训练数据和迭代次数的缩放策略。
新文本到3D基准 MME-3DR： 鉴于现有基准无法衡量3D生成模型中的隐式推理能力，作者提出了MME-3DR，一个包含249个3D对象的基准，涵盖了五种推理密集型类别，以评估模型在空间结构、机械功能、生物形状、世界知识和风格化表示等方面的能力。
高级RL范式 Hi-GRPO： 受到3D生成自然层级结构的启发，作者提出了Hi-GRPO，一种通过专门的奖励集成来优化全局到局部的分层3D生成的方法。该方法将生成过程分解为两个阶段：首先生成全局几何结构，然后细化局部纹理。
首个RL增强的文本到3D模型 AR3D-R1： 基于上述研究洞察，作者开发了AR3D-R1，这是第一个RL增强的文本到3D模型，能够从粗糙形状到纹理细化进行专家级生成。

3. 主要结果与意义： * 奖励设计： 与人类偏好对齐是3D自回归生成中RL的关键信号。通用大型多模态模型（LMMs）在评估3D属性方面表现出惊人的鲁棒性，但专门的奖励模型在特定维度上更具优势。 * RL算法： 3D自回归模型从token级别优化中获益更多，而序列级别操作效果有限。DAPO等简单技术（如动态采样）足以稳定训练。数据缩放能有效缓解偏好偏差，但迭代次数需要仔细校准，过度训练可能导致过拟合。 * MME-3DR基准： 现有文本到3D模型在生物和机械对象上表现尚可，但在其他类别（如空间结构、世界知识、风格化表示）上存在不足。RL训练显著提升了模型在所有类别上的性能，尤其是在风格化表示方面，凸显了隐式推理能力的重要性。MME-3DR能够同时评估生成质量和隐式推理能力。 * Hi-GRPO范式： Hi-GRPO通过分层优化实现了从粗糙形状到精细纹理的生成过程，与人类3D感知过程相符。AR3D-R1在MME-3DR和Toys4K基准上均取得了优于现有模型的性能，尤其在几何一致性和纹理质量方面有显著提升。 * 整体意义： 本研究首次系统地将RL应用于文本到3D自回归生成，为该领域的研究提供了重要的见解和方法论指导，推动了RL在3D内容创作中的应用。

4. 提及的局限性： * 论文中提到，2D LMMs在准确检测3D组件方面存在困难，这可能影响对组件完整性的评估。 * 虽然RL训练显著提升了性能，但作者也指出，过度训练可能导致泛化能力下降，可能归因于对偏好特征的过拟合。 * 在奖励设计部分，作者提到通用LMMs在评估3D属性时表现出鲁棒性，但“系统性偏差”也可能存在。

5. 潜在的未来研究方向： * 进一步探索更精细的奖励设计，以更好地捕捉3D对象的复杂属性。 * 研究更高效的RL算法和训练策略，以应对3D生成的高计算成本。 * 扩展MME-3DR基准，增加更多样化和更具挑战性的3D对象和场景。 * 探索Hi-GRPO范式在其他3D生成任务中的应用，如3D编辑和3D理解。 * 研究如何更好地结合LLMs和LMMs的能力，以实现更智能、更具创造性的3D内容生成。

总结：

这篇论文是首个系统性地探索强化学习在文本到3D自回归生成中应用的研究。作者通过深入分析奖励设计、RL算法、基准测试和高级RL范式，提出了MME-3DR基准以评估模型的隐式推理能力，并创新性地设计了Hi-GRPO分层RL范式。最终，他们开发了AR3D-R1模型，该模型在多个基准测试中取得了显著的性能提升，尤其是在几何一致性和纹理质量方面。这项工作为RL在3D内容生成领域的未来研究奠定了坚实的基础，并为解决3D生成中的复杂挑战提供了宝贵的见解。

Key Findings:

(3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR.
(4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles.
Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-12-12

Executive Summary

Table of Contents

Papers