Arxiv Computer Vision Papers - 2025-11-18

Executive Summary

好的，这是一份针对2025年11月17日ArXiv计算机视觉论文的每日执行摘要，旨在帮助您快速了解关键发展。

每日ArXiv计算机视觉论文执行摘要 (2025-11-17)

概述： 今日ArXiv论文主要围绕多模态大语言模型 (MLLMs) 在视觉理解和推理方面的应用展开，特别关注其在空间智能和3D感知领域的扩展。同时，基础模型的优化和特定任务的基准测试构建也是重要主题。

主要主题和趋势：

多模态大语言模型 (MLLMs) 的深化与扩展： 多篇论文探讨了MLLMs在视觉推理、3D感知和特定应用（如文档检索、交通感知）中的能力。趋势是让MLLMs不仅仅停留在感知层面，而是深入到更复杂的推理和决策。
空间智能与3D感知： 这是一个突出主题，多篇论文直接或间接关注模型对空间关系、3D结构和场景理解的能力。这包括3D MLLMs、无人机导航的空间智能基准，以及3D重建技术。
基础模型与生成模型： 有论文回归基础，探讨生成模型（特别是去噪模型）的本质优化，以及如何利用多模态基础模型扩展空间智能。
基准测试与评估： 为了更好地评估新模型和新方法，多篇论文提出了新的基准测试，涵盖了跨镜头分割、交通感知问答、无人机导航空间智能等。

特别重要或创新的论文：

1. "From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models" by Wenxin Zhu et al.
- 重要性： 这篇论文代表了MLLMs发展的一个关键方向——从简单的感知任务转向更深层次的“深度思考”和复杂推理。它可能为未来MLLMs的设计和评估提供新的范式。
2. "Back to Basics: Let Denoising Generative Models Denoise" by Tianhong Li, Kaiming He
- 重要性： Kaiming He团队的这篇论文通常意味着对基础原理的深刻洞察和潜在的范式转变。它可能重新审视去噪生成模型的本质，并提出更有效或更简洁的训练和应用方法，对整个生成模型领域有广泛影响。
3. "Scaling Spatial Intelligence with Multimodal Foundation Models" by Zhongang Cai et al.
- 重要性： 这篇论文将多模态基础模型与空间智能相结合，预示着未来AI系统在理解和操作物理世界方面将取得重大进展。它可能为机器人、自动驾驶等领域提供强大的通用能力。
5. "Part-X-MLLM: Part-aware 3D Multimodal Large Language Model" by Chunshi Wang et al.
- 重要性： 这是MLLMs向3D领域深度扩展的一个重要例子，特别强调了“部分感知”能力，这对于精细的3D理解和交互至关重要。

新兴研究方向或技术：

深度思考/推理型MLLMs： MLLMs不再仅仅是“看图说话”，而是被赋予更强的逻辑推理和问题解决能力。
3D MLLMs： 将MLLMs的能力从2D图像扩展到3D点云、网格等数据，实现对三维世界的语义理解和交互。
特定领域空间智能基准： 针对无人机导航、交通感知等实际应用场景，开发更具挑战性和实用性的空间智能评估标准。
3D Gaussian Splatting在重建中的应用： SF-Recon利用3D Gaussian Splatting进行轻量级建筑重建，表明这种新兴技术在实际应用中的潜力。

建议阅读全文的论文：

"From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models" (Wenxin Zhu et al.) - 如果您关注MLLMs的未来发展和推理能力，这篇是必读。
"Back to Basics: Let Denoising Generative Models Denoise" (Tianhong Li, Kaiming He) - 如果您对生成模型的基础理论和潜在的效率提升感兴趣，这篇值得深入研究。
"Scaling Spatial Intelligence with Multimodal Foundation Models" (Zhongang Cai et al.) - 如果您对通用AI在物理世界的应用（如机器人、自动驾驶）感兴趣，这篇提供了宏观视角。
"Part-X-MLLM: Part-aware 3D Multimodal Large Language Model" (Chunshi Wang et al.) - 如果您专注于3D视觉理解和MLLMs在3D领域的应用，这篇提供了具体的技术方向。
"Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation" (Lingfeng Zhang et al.) - 如果您从事无人机、机器人导航或对VLM在实际复杂环境中的鲁棒性感兴趣，这个基准提供了宝贵的评估工具。

这份摘要希望能帮助您高效地筛选和理解今日ArXiv计算机视觉领域的重要进展。

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models
Back to Basics: Let Denoising Generative Models Denoise
Scaling Spatial Intelligence with Multimodal Foundation Models
Segment Anything Across Shots: A Method and Benchmark
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
Attention Grounded Enhancement for Visual Document Retrieval
Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)
Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space
SF-Recon: Simplification-Free Lightweight Building Reconstruction via 3D Gaussian Splatting
Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation

Papers

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models

Authors: Wenxin Zhu, Andong Chen, Yuchen Song, Kehai Chen, Conghui Zhu, Ziyan Chen, Tiejun Zhao

Published: 2025-11-17

Categories: cs.CL, cs.CV

Abstract:

With the remarkable success of Multimodal Large Language Models (MLLMs) in perception tasks, enhancing their complex reasoning capabilities has emerged as a critical research focus. Existing models still suffer from challenges such as opaque reasoning paths and insufficient generalization ability. Chain-of-Thought (CoT) reasoning, which has demonstrated significant efficacy in language models by enhancing reasoning transparency and output interpretability, holds promise for improving model reasoning capabilities when extended to the multimodal domain. This paper provides a systematic review centered on "Multimodal Chain-of-Thought" (MCoT). First, it analyzes the background and theoretical motivations for its inception from the perspectives of technical evolution and task demands. Then, it introduces mainstream MCoT methods from three aspects: CoT paradigms, the post-training stage, and the inference stage, while also analyzing their underlying mechanisms. Furthermore, the paper summarizes existing evaluation benchmarks and metrics, and discusses the application scenarios of MCoT. Finally, it analyzes the challenges currently facing MCoT and provides an outlook on its future research directions.

Analysis:

好的，这是一篇关于“从感知到推理：深度思考赋能多模态大语言模型”论文的摘要，内容涵盖了您要求的所有要点：

论文摘要：从感知到推理：深度思考赋能多模态大语言模型

1. 主要问题或研究问题： 该论文旨在解决多模态大语言模型（MLLMs）在复杂推理任务中存在的显著局限性。尽管MLLMs在感知任务（如图像理解和生成）上取得了巨大成功，但它们在处理需要逻辑推导、因果推理和多步推理的复杂任务时，仍面临推理路径不透明和泛化能力不足的挑战。核心研究问题是：如何通过引入“多模态思维链”（MCoT）机制，增强MLLMs的复杂推理能力、透明度和可解释性。

2. 关键创新或方法论贡献： 该论文的核心贡献在于对“多模态思维链”（MCoT）进行了系统性综述和深入分析，并从以下几个方面阐述了其创新性： * MCoT范式分析： 论文详细介绍了MCoT的背景和理论动机，将其视为解决MLLMs推理瓶颈的有效方案。MCoT通过将复杂问题分解为一系列明确的中间推理步骤，模拟人类的认知过程，从而提高模型的逻辑严谨性和可解释性。 * 训练阶段策略： 论文探讨了MCoT在后训练阶段的关键实现策略，包括监督微调（SFT）和强化学习（RL）。这些方法旨在引导模型学习CoT风格的推理模式和输出格式，并优化多步推理过程，将模型从依赖模式匹配的“黑箱”转变为能够进行显式逻辑推理的“白箱”。 * 推理阶段策略： 论文总结了推理阶段的多种策略，如CoT提示、搜索策略（如Beam Search、MCTS）、自我完善和知识增强，以及Agent辅助技术。这些策略无需更新模型参数，通过巧妙的引导激活模型潜在的推理能力，使其遵循最优计算路径。 * 理论机制分析： 论文深入分析了MCoT增强推理能力的内在机制，包括信息表示（通过生成中间文本弥合模态间隙）、结构化推理（将复杂任务分解为可控子步骤）和过程监督（在训练和推理过程中对中间推理步骤进行监督）。

3. 主要结果及其意义： 该论文通过系统回顾和分析，揭示了MCoT在以下方面的显著意义： * 增强推理能力： MCoT通过引入显式推理链，显著提升了MLLMs在数学、逻辑、时空、多图像和多模态集成推理等复杂任务上的性能。 * 提高可解释性与透明度： MCoT使模型的推理过程变得透明和可解释，有助于理解模型决策的依据，减少“黑箱”预测问题。 * 广泛的应用潜力： MCoT在具身智能、自动驾驶、医疗保健、多模态生成、机器翻译和情感计算等领域展现出巨大的应用潜力，推动了这些领域智能系统向更高层次认知推理发展。 * 促进研究发展： 论文为CoT-MLLMs这一新兴研究方向提供了结构化的参考和理论基础，有助于促进该领域的持续发展。

4. 局限性： 论文也坦诚地指出了当前MCoT面临的挑战： * 幻觉问题： 尽管CoT在一定程度上缓解了幻觉，但仍可能引入“过度思考”等副作用，且模态间对齐不足可能引发幻觉。 * 推理链长度控制： 推理链过短可能导致思考不足，过长则可能导致信息遗忘和过度思考，影响推理鲁棒性。 * 安全与伦理问题： MLLMs的跨模态对齐和显式推理特性使其更容易受到恶意攻击和生成有害信息。 * 模态覆盖有限： 当前MCoT主要集中于文本-图像等双模态组合，对更复杂、更通用的全模态推理场景覆盖有限。 * 效率问题： 尽管System 2推理能提高性能，但计算成本高昂，如何在性能和计算资源之间取得平衡是一个关键挑战。 * 数据集和基准建设不足： 高质量多模态推理数据集和全面的评估基准仍然稀缺，现有研究缺乏统一的标准化评估框架。

5. 潜在的未来研究方向： 论文展望了MCoT未来的研究方向，包括： * 鲁棒推理： 探索更细粒度的优化方法，例如在步骤级别进行幻觉缓解和错误检测，以及开发更有效的推理链长度控制机制。 * 安全推理： 构建多层次、协调的防御系统，整合数据、模型和推理，以全面提升模型的安全性和鲁棒性。 * 全模态推理： 扩展MCoT的统一处理能力至更多模态（如视频、音频、点云等），实现跨模态信息融合和推理支持。 * 高效推理： 进一步研究推理经济性，平衡模型性能和计算资源，开发更高效的推理策略和评估基准。 * 数据集和基准建设： 建设高质量、多维度、多层次的多模态推理数据集，并建立统一的标准化评估框架，以更全面地评估模型能力。 * 跨模态对齐机制： 深入研究如何构建更有效的跨模态对齐机制，以减少视觉干扰导致的推理偏差。

这份摘要全面概括了论文的核心内容，突出了其在多模态推理领域的重要贡献和未来发展方向。

Key Findings:

Furthermore, the paper summarizes existing evaluation benchmarks and metrics, and discusses the application scenarios of MCoT.
Finally, it analyzes the challenges currently facing MCoT and provides an outlook on its future research directions.

Links:

PDF
arXiv

Back to Basics: Let Denoising Generative Models Denoise

Authors: Tianhong Li, Kaiming He

Published: 2025-11-17

Categories: cs.CV

Abstract:

Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than " $\textbf{Just image Transformers}$ ", or $\textbf{JiT}$ , as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将对这篇论文摘要进行深入分析。

论文摘要分析：Back to Basics: Let Denoising Generative Models Denoise

1. 论文主要贡献的简洁总结 (2-3 句话)

这篇论文的核心贡献在于挑战了当前去噪扩散模型中预测噪声或噪声量的主流范式，并提出了一种回归“经典”去噪方法的新范式：直接预测干净数据。作者认为，基于流形假设，直接预测干净数据能让网络在处理高维数据时更有效，并展示了仅使用大型补丁（large-patch）的像素级Transformer（JiT）就能在没有分词器、预训练或额外损失的情况下，实现具有竞争力的生成性能。

2. 关键创新或方法论

范式转变： 从预测噪声或噪声量转向直接预测干净数据。这是对当前扩散模型设计哲学的一个根本性改变。
流形假设的应用： 强调自然数据位于低维流形上，而噪声量则不然。这一理论基础支撑了直接预测干净数据能让“容量不足”的网络在高维空间中有效运行的观点。
“Just image Transformers” (JiT)： 提出了一种极简的Transformer架构。它直接在像素上操作，使用大型补丁（例如16x16或32x32），无需分词器（tokenizer）、预训练（pre-training）或额外的损失函数（extra loss）。这简化了模型设计，并强调了Transformer在原始数据上的强大能力。
在高维空间中的鲁棒性： 论文指出，在256x256和512x512分辨率的ImageNet上，当预测高维噪声量可能“灾难性失败”时，JiT仍能报告具有竞争力的结果，这突出了其方法的鲁棒性。

3. 对领域潜在影响

简化扩散模型设计： 如果JiT的性能和效率得到进一步验证，它可能会极大地简化未来扩散模型的架构和训练流程，减少对复杂组件（如分词器、预训练模型）的依赖。
重新审视基础理论： 论文重新强调了流形假设在生成模型中的重要性，可能会促使研究人员重新思考生成模型与数据内在结构之间的关系。
推动Transformer在原始数据上的应用： 证明了纯粹的像素级Transformer在生成任务上的强大潜力，可能会鼓励更多研究探索Transformer在其他原始数据（如音频、视频）上的直接应用。
提高高分辨率生成效率： 解决了在高分辨率下预测噪声量可能失败的问题，为高分辨率图像生成提供了一条更有效和鲁棒的路径。
“自包含”范式的潜力： 追求一种自包含的Transformer扩散范式，可能为未来的生成模型研究提供一个新的方向，即在不依赖外部知识或复杂预处理的情况下，从原始数据中学习。

4. 相关领域或应用可能受益于这项研究

高分辨率图像生成： 电影制作、游戏开发、医学影像等需要生成高质量、高分辨率图像的领域。
图像修复与超分辨率： 直接预测干净数据的方法可能在这些任务中表现出更强的鲁棒性和准确性。
无监督/自监督学习： 简化模型和训练过程的特性，使其成为探索更高效无监督或自监督生成模型的基础。
计算资源受限环境： 如果JiT确实能以更少的复杂性达到竞争性性能，那么在计算资源有限的设备上部署生成模型将变得更加可行。
科学数据生成： 在物理、化学、生物等领域，生成模拟数据或补充实验数据。

5. 从摘要中可以推断出的任何局限性

“容量不足”的定义： 摘要中提到“apparently under-capacity networks”，但没有明确定义这种“容量不足”的程度，以及它与传统扩散模型中使用的网络相比的具体差异。
性能的绝对水平： 摘要中提到“competitive results”，但没有给出具体的量化指标（如FID、IS等）来与SOTA模型进行直接比较。虽然在高分辨率下表现出色，但其在其他指标上是否能全面超越现有复杂模型仍需验证。
训练效率和资源： 尽管模型设计简化，但大型补丁Transformer在像素级别操作，其训练时间和计算资源消耗（尤其是对于非常大的图像和模型）仍是一个需要关注的问题。
泛化能力： 结果主要在ImageNet上报告，其在更复杂、多样化的数据集（如LAION-5B）上的泛化能力和稳定性有待进一步验证。
理论深度： 摘要强调了流形假设，但没有深入阐述如何通过直接预测干净数据来“利用”流形结构，以及这种利用在数学上如何优于预测噪声。
“无额外损失”的含义： 尽管声称没有额外损失，但扩散模型本身通常包含一个重建损失（例如L1或L2），这里可能指的是没有额外的感知损失、对抗损失等。这需要通过阅读全文来澄清。

总的来说，这篇论文提出了一种大胆且具有启发性的方法，挑战了当前扩散模型的主流范式。如果其主张得到充分验证，它可能会对生成模型领域产生深远的影响，推动研究回归更简洁、更基础的原理。

Key Findings:

We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss.
Our approach is conceptually nothing more than " $\textbf{Just image Transformers}$ ", or $\textbf{JiT}$ , as we call it.

Links:

PDF
arXiv

Scaling Spatial Intelligence with Multimodal Foundation Models

Authors: Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

Published: 2025-11-17

Categories: cs.CV, cs.AI, cs.LG, cs.MM, cs.RO

Abstract:

Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.

Analysis:

好的，这是一篇关于Zhongang Cai等人撰写的论文“Scaling Spatial Intelligence with Multimodal Foundation Models”的全面摘要：

论文题目： Scaling Spatial Intelligence with Multimodal Foundation Models 作者： Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

摘要：

1. 主要问题或研究问题： 尽管多模态基础模型取得了显著进展，但在空间智能方面仍存在不足。本研究旨在探索如何通过扩展多模态基础模型来培养空间智能，以解决现有模型在理解、推理和操作三维空间方面的局限性，这对于具身通用人工智能（AGI）至关重要。

2. 关键创新或方法论贡献： * SenseNova-SI 系列模型： 论文引入了SenseNova-SI系列多模态基础模型，该模型建立在Qwen3-VL、InternVL3等视觉理解模型和Bagel等统一理解与生成模型之上。 * SenseNova-SI-8M 数据集： 采用系统性方法，根据严格的空间能力分类，精心策划了包含八百万（8M）多样化数据样本的SenseNova-SI-8M数据集，以构建高性能且鲁棒的空间智能模型。该数据集特别关注了以往被忽视的透视（Perspective-taking）任务。 * 数据驱动的扩展策略： 论文强调数据扩展和训练策略在提升空间理解能力中的核心作用，而非仅仅依赖模型架构的改变。通过对InternVL3、Qwen3-VL和Bagel等基础模型进行持续训练，验证了数据扩展对空间智能的积极影响。 * 多模态基础模型的公开： 所有新训练的多模态基础模型都已公开，以促进该方向的进一步研究。

3. 主要结果及其意义： * 卓越的空间智能性能： SenseNova-SI在多项空间智能基准测试中展现出前所未有的性能，包括VSI-Bench（68.7%）、MMSI（43.3%）、MindCube（85.6%）、ViewSpatial（54.6%）和SITE（50.1%）。 * 保持通用多模态理解能力： 在提升空间智能的同时，SenseNova-SI在通用多模态理解基准MMBench-En上仍保持了强大的性能（84.9%），表明大规模空间智能训练不会损害模型的通用能力。 * 数据扩展的影响： 研究分析了数据扩展对空间能力的影响，发现性能增益随着训练数据量的增加而逐渐减小，但仍持续提升。 * 涌现的泛化能力： 观察到早期涌现的泛化能力迹象，模型在训练数据多样性的支持下，能够将所学知识迁移到看似不相关的任务，并能外推到训练分布之外的更长空间上下文。 * 鲁棒性分析： 通过受控实验和循环测试设计，验证了SenseNova-SI真正获得了空间能力，而非利用记忆、标注偏差或训练数据中的意外捷径。在VSI-Debiased和MindCube上的测试表明，模型较少依赖文本启发式和语言捷径，更多地依赖空间接地理解。 * 下游应用潜力： SenseNova-SI在具身机器人操作任务（EmbodiedBench）中无需微调即可实现显著性能提升，展示了其作为具身AI基础模型的潜力。

4. 论文中提及的局限性： * 链式思考（CoT）的局限性： 初步研究发现，文本链式思考范式（CoT）对空间推理的提升有限，不足以弥补其计算开销，这表明基于文本的推理可能不是空间智能最有效或最高效的范式，可能需要根本不同的推理机制。 * 数据饱和趋势： 性能增益随着训练数据量的增加而逐渐减小，可能预示着数据扩展本身难以达到人类水平的空间智能，未来的进步可能需要范式转变。 * 涌现能力的初步性： 论文中讨论的涌现泛化能力迹象仍处于早期阶段，需要进一步深入研究。

5. 潜在的未来研究方向： * 算法创新： 鉴于数据饱和趋势，未来的研究应侧重于算法创新，以突破SenseNova-SI所建立的强大空间能力基础。 * 空间链式思考的范式转变： 探索超越传统文本链式思考的新范式，以更有效、高效地实现空间智能推理。 * 具身AI应用： 进一步探索SenseNova-SI在具身机器人操作等下游任务中的应用，并将其作为具身AI的强大基础。 * 持续更新与研究： SenseNova-SI是一个正在进行的项目，报告将持续更新，鼓励社区在此方向上进行进一步研究。

总而言之，这篇论文通过大规模、多样化的数据扩展策略，成功构建了SenseNova-SI系列多模态基础模型，显著提升了模型在多项空间智能基准上的性能，并验证了其在通用能力保持、泛化能力涌现以及下游应用方面的潜力。同时，论文也指出了当前空间智能研究的局限性，为未来的研究方向提供了宝贵的见解。

Key Findings:

All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.

Links:

PDF
arXiv

Segment Anything Across Shots: A Method and Benchmark

Authors: Hengrui Hu, Kaining Ying, Henghui Ding

Published: 2025-11-17

Categories: cs.CV

Abstract:

This work focuses on multi-shot semi-supervised video object segmentation (MVOS), which aims at segmenting the target object indicated by an initial mask throughout a video with multiple shots. The existing VOS methods mainly focus on single-shot videos and struggle with shot discontinuities, thereby limiting their real-world applicability. We propose a transition mimicking data augmentation strategy (TMA) which enables cross-shot generalization with single-shot data to alleviate the severe annotated multi-shot data sparsity, and the Segment Anything Across Shots (SAAS) model, which can detect and comprehend shot transitions effectively. To support evaluation and future study in MVOS, we introduce Cut-VOS, a new MVOS benchmark with dense mask annotations, diverse object categories, and high-frequency transitions. Extensive experiments on YouMVOS and Cut-VOS demonstrate that the proposed SAAS achieves state-of-the-art performance by effectively mimicking, understanding, and segmenting across complex transitions. The code and datasets are released at https://henghuiding.com/SAAS/.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Hengrui Hu, Kaining Ying, Henghui Ding撰写的论文“Segment Anything Across Shots: A Method and Benchmark”的全面摘要。

论文摘要：Segment Anything Across Shots: A Method and Benchmark

1. 主要问题或研究问题： 该论文主要关注多镜头半监督视频目标分割 (MVOS) 任务。现有的视频目标分割 (VOS) 方法主要针对单镜头视频，在处理视频中的镜头不连续性时表现不佳，这严重限制了它们在真实世界应用中的实用性。MVOS任务的挑战在于，如何在视频中跨越多个镜头，持续准确地分割由初始掩码指示的目标对象，尤其是在目标外观、空间位置和背景发生显著变化时。此外，MVOS任务缺乏高质量的标注数据集。

2. 关键创新或方法论贡献： 为了解决上述问题，论文提出了以下关键创新：

过渡模仿数据增强 (Transition Mimicking Data Augmentation, TMA) 策略： 针对MVOS任务中多镜头标注数据稀缺的问题，TMA通过模拟多样化的镜头过渡（如强变换、不同视频片段间的切换、随机复制和渐进平移等），利用现有的单镜头数据集合成高质量的多镜头训练样本。这使得模型能够在不依赖原生多镜头标注的情况下进行有效训练，显著缓解了数据稀缺性。
Segment Anything Across Shots (SAAS) 模型： SAAS是首个专门针对多镜头视频的半监督VOS方法。它包含：
- 过渡检测模块 (Transition Detection Module, TDM)： 轻量级模块，用于有效检测视频序列中的镜头过渡。
- 过渡理解模块 (Transition Comprehension Module, TCH)： 在检测到过渡时，TCH进一步理解过渡，生成压缩的过渡状态表示，并利用辅助训练目标（存在预测和边界框回归）进行指导，以细化先前的记忆。
- 局部记忆库 (Local Memory Bank, Blocal)： 一种无需训练的记忆细化机制，用于存储细粒度的对象特征，通过构建最小生成树（MST）将目标对象无监督地划分为语义连贯的子区域，以增强跨过渡的分割质量。
Cut-VOS 基准数据集： 为了公平评估跨镜头分割性能并更好地反映真实世界多镜头视频的复杂性，论文引入了一个新的MVOS基准数据集。Cut-VOS包含10.2K实例掩码，涵盖100个视频中的174个独特对象，具有比现有YouMVOS数据集高1.6倍的镜头过渡频率和3倍多的对象类别，并对过渡类型进行了手动筛选，以确保多样性和难度。

3. 主要结果及其意义： * 最先进的性能： 在YouMVOS和Cut-VOS基准测试上进行的广泛实验表明，所提出的SAAS方法在J&F（区域相似性）和It（跨镜头分割性能）指标上均实现了最先进的性能，显著优于现有的VOS方法（如XMem, DEVA, Cutie, SAM2）。例如，SAAS-B+在YouMVOS上达到73.5% J&F和68.9% It，在Cut-VOS上达到60.7% J&F和53.1% It。 * TMA策略的有效性： TMA策略显著提升了模型在多镜头场景下的泛化能力，证明了通过模拟过渡进行数据增强的有效性。 * SAAS模块的鲁棒性： SAAS模型通过其过渡检测和理解模块，能够有效地处理复杂的镜头过渡，并在拥挤场景和目标外观剧烈变化时保持一致的分割性能。 * Cut-VOS的挑战性： Cut-VOS数据集的引入揭示了现有VOS方法在处理复杂多镜头视频时的显著性能下降，特别是对于“延迟切入”、“特写视图”和“场景变化”等过渡类型，现有模型表现不佳，凸显了Cut-VOS的挑战性。

4. 论文中提到的局限性： * 极端外观变化： SAAS方法在处理目标对象外观发生极端变化（例如，同一个人穿着不同服装、发型不同）的场景时仍然存在困难。TMA策略无法有效模拟此类场景，且局部视觉线索可能不足以提供帮助。 * 对视觉特征匹配的依赖： SAAS仍然依赖于视觉特征匹配，缺乏鲁棒的长期推理能力，这导致在目标外观完全改变的过渡中出现分割错误。 * 数据分布偏差： TMA策略在复制过程中直接将对象放置在顶层，缺乏针对遮挡场景的专门设计，且训练数据集中遮挡实例的代表性不足，可能导致F（轮廓质量）指标下降。

5. 潜在的未来研究方向： * 增强长期推理能力： 针对极端外观变化和相似干扰物区分的挑战，未来的研究需要减少对纯视觉特征匹配的依赖，并要求更强的推理能力。 * 改进TMA策略： 探索更有效的TMA策略，以模拟更复杂的场景，例如目标外观的极端变化，从而进一步提升模型的泛化能力。 * 解决遮挡问题： 改进数据增强策略和模型设计，以更好地处理遮挡场景，减少数据分布偏差。 * 多模态融合： 结合更多模态信息（如音频、文本）来辅助理解复杂的视频内容和过渡，可能有助于提升模型在更具挑战性场景下的性能。

这篇论文在MVOS领域做出了重要贡献，不仅提出了创新的数据增强策略和模型架构，还发布了高质量的基准数据集，为未来该领域的研究奠定了坚实基础。

Key Findings:

We propose a transition mimicking data augmentation strategy (TMA) which enables cross-shot generalization with single-shot data to alleviate the severe annotated multi-shot data sparsity, and the Segment Anything Across Shots (SAAS) model, which can detect and comprehend shot transitions effectively.
To support evaluation and future study in MVOS, we introduce Cut-VOS, a new MVOS benchmark with dense mask annotations, diverse object categories, and high-frequency transitions.
Extensive experiments on YouMVOS and Cut-VOS demonstrate that the proposed SAAS achieves state-of-the-art performance by effectively mimicking, understanding, and segmenting across complex transitions.

Links:

PDF
arXiv

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Authors: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo

Published: 2025-11-17

Categories: cs.CV

Abstract:

We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/

Analysis:

以下是Chunshi Wang等人撰写的论文“Part-X-MLLM: Part-aware 3D Multimodal Large Language Model”的全面摘要：

1. 解决的主要问题或研究问题

该论文旨在解决当前3D多模态大语言模型（MLLMs）在处理3D资产时存在的“结构不透明性”问题。现有的模型通常将3D形状视为静态、整体的形式，缺乏对细粒度语义理解、组合编辑和程序化动画所需的部件结构进行推理和操作的能力。具体来说，Part-X-MLLM致力于开发一个能够理解和命名部件、将引用与持久性边界框（BBox）关联、并编译可执行的添加/删除/修改程序，同时将几何合成任务委托给强大的几何引擎的语言原生工具。

2. 关键创新或方法论贡献

Part-X-MLLM引入了以下关键创新和方法论贡献：

Part-X-MLLM框架： 提出了一种原生的3D部件感知多模态大语言模型，将多样化的3D任务（生成、编辑、推理）统一为一种结构化、可执行的部件语法程序。模型接收RGB点云和自然语言提示，自动生成包含部件级边界框、语义描述和编辑命令的连贯token序列。
双编码器架构： 提出了一种双编码器架构，将结构（XYZ+法线）与外观（RGB）解耦。这避免了在单一编码器中处理这两种信息时可能出现的表示冲突，并在边界框列表、多部件接地和部件问答等任务上取得了持续的性能提升。
结构化规划语言和自回归解码器： 模型采用一个从预训练LLM初始化的解码器，将融合后的结构、语义和文本token作为输入，自回归地生成遵循结构化规划语言的程序化输出。这种语言定义了用于部件表示（如<boxs>...<boxe>）和编辑操作（如<adds>、<dels>、<mods>）的特殊token。
语义粒度控制： 通过使用文本语义（CLIP嵌入）对部件边界框进行聚类，模型能够动态控制语义粒度，实现从粗略组件到细粒度部件的无缝过渡，无需手动干预。
UniPart-Bench基准： 建立了包含3万个条目的部件中心基准数据集，涵盖11个任务家族，并采用几何和语言指标，用于严格评估模型生成的规划质量和下游性能。
多阶段指令微调： 采用两阶段训练课程，首先预训练一个结构感知编码器以实现鲁棒的几何理解，然后进行全面的指令微调，整合语义编码器并将强大的LLM与专门的任务语法对齐。

3. 主要结果及其意义

实验结果表明，Part-X-MLLM在多项任务上取得了最先进的性能：

边界框生成： 在边界框生成任务上，Part-X-MLLM在Voxel Recall、Voxel IoU和Bbox IoU指标上均优于基线模型（如PartField和OmniPart），显著提升了几何准确性。
部件理解问答（Part QA）： 在UniPart-Bench上，Part-X-MLLM在SBERT、SimCSE、BLEU-1、ROUGE-L和METEOR等所有指标上均取得了显著提升，表明其强大的部件级接地和推理能力。
整体3D对象描述： 在整体对象描述任务上，模型也超越了现有最佳分数，在所有指标上均有显著改进，生成了更准确和详细的描述。
定性结果： 定性结果展示了模型在部件感知编辑（如替换、添加、删除特定部件）和语义粒度控制方面的卓越能力，能够生成高质量、结构化的规划，并保持原始对象的完整性。
消融研究： 双编码器架构在所有评估任务上均持续优于单一编码器基线，验证了结构和语义解耦的有效性。

这些结果的意义在于，Part-X-MLLM提供了一个统一的、语言原生的接口，能够对3D资产进行语义精确的部件感知生成和编辑，极大地推动了3D多模态理解和生成领域的发展。

4. 论文中提到的局限性

论文也提到了以下局限性：

推理速度： 较长的token序列会减慢推理速度。论文建议通过简单的压缩和分层分组来缓解延迟问题。
分割质量： 基于置信度的边界框分割仍然相对较浅，整合更强大的特征可以提高分割质量。
LLM通用语言能力： 在3D任务上进行微调可能会降低基础LLM的通用语言能力。

5. 潜在的未来研究方向

虽然论文没有明确列出未来的研究方向，但从其局限性和贡献中可以推断出一些潜在方向：

优化推理速度： 探索更高效的token序列压缩和分层分组方法，以提高模型在处理长序列时的推理速度。
提升分割质量： 整合更先进的特征和分割技术，以提高基于置信度的边界框分割的精度和鲁棒性。
平衡通用性与专业性： 研究如何更好地平衡模型在3D任务上的专业能力与基础LLM的通用语言能力，例如通过更精细的微调策略或模块化设计。
更复杂的3D交互： 扩展模型的程序化语法，以支持更复杂、更精细的3D交互和操作，例如物理模拟、动画控制等。
多模态数据融合： 探索除了RGB点云和文本之外的其他3D多模态数据（如纹理、材质、运动数据）的有效融合方法。
用户反馈与迭代： 结合用户反馈机制，使模型能够进行迭代式优化，以更好地满足用户在3D生成和编辑中的需求。

Key Findings:

We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar.
By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend.
Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface.

Links:

PDF
arXiv

Attention Grounded Enhancement for Visual Document Retrieval

Authors: Wanqing Cui, Wei Huang, Yazhi Guo, Yibo Hu, Meiguang Jin, Junfeng Ma, Keping Bi

Published: 2025-11-17

Categories: cs.IR, cs.CL, cs.CV

Abstract:

Visual document retrieval requires understanding heterogeneous and multi-modal content to satisfy information needs. Recent advances use screenshot-based document encoding with fine-grained late interaction, significantly improving retrieval performance. However, retrievers are still trained with coarse global relevance labels, without revealing which regions support the match. As a result, retrievers tend to rely on surface-level cues and struggle to capture implicit semantic connections, hindering their ability to handle non-extractive queries. To alleviate this problem, we propose a \textbf{A}ttention-\textbf{G}rounded \textbf{RE}triever \textbf{E}nhancement (AGREE) framework. AGREE leverages cross-modal attention from multimodal large language models as proxy local supervision to guide the identification of relevant document regions. During training, AGREE combines local signals with the global signals to jointly optimize the retriever, enabling it to learn not only whether documents match, but also which content drives relevance. Experiments on the challenging ViDoRe V2 benchmark show that AGREE significantly outperforms the global-supervision-only baseline. Quantitative and qualitative analyses further demonstrate that AGREE promotes deeper alignment between query terms and document regions, moving beyond surface-level matching toward more accurate and interpretable retrieval. Our code is available at: https://anonymous.4open.science/r/AGREE-2025.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供论文“Attention Grounded Enhancement for Visual Document Retrieval”的全面摘要。

论文摘要：Attention Grounded Enhancement for Visual Document Retrieval

作者： Wanqing Cui, Wei Huang, Yazhi Guo, Yibo Hu, Meiguang Jin, Junfeng Ma, Keping Bi

1. 主要问题或研究问题： 视觉文档检索（Visual Document Retrieval, VDR）旨在根据文本查询找到语义相关的文档页面。现有方法虽然通过基于截图的文档编码和细粒度晚期交互显著提高了检索性能，但仍面临一个核心问题：检索器通常仅使用粗粒度的全局相关性标签进行训练，这导致它们无法识别文档中哪些具体区域支持匹配。因此，检索器倾向于依赖表面线索，难以捕捉隐式语义连接，尤其在处理非抽取式查询时表现不佳。这限制了检索的准确性和可解释性。

2. 关键创新或方法论贡献： 为了解决上述问题，作者提出了Attention-\textbf{G}rounded \textbf{RE}triever \textbf{E}nhancement (AGREE) 框架，其核心创新点包括：

利用多模态大型语言模型（MLLM）注意力作为代理局部监督： AGREE利用预训练MLLM的跨模态注意力机制，生成查询条件下的补丁级显著性注意力分数，作为细粒度的局部监督信号。这使得模型能够识别文档中与查询相关的具体区域。
空间保留注意力下采样： 为了弥合MLLM高分辨率注意力与下游检索器补丁网格之间的分辨率不匹配，AGREE采用自适应最大池化（adaptive max pooling）对注意力图进行下采样。这确保了关键区域的峰值注意力值在下采样后仍能保持突出，从而实现可扩展的细粒度知识迁移。
注意力引导的检索器训练： 检索器采用双重目标进行联合优化：
- 全局对比学习（Lglobal）： 优化查询与整个文档页面之间的全局相关性。
- 局部对齐损失（Llocal）： 将检索器的补丁相似性分数与MLLM注意力模式对齐。值得注意的是，局部监督仅应用于正向查询-页面对，因为只有在文档相关时，MLLM的注意力模式才具有语义意义。论文比较了KL散度、Top-K显著性对比和余弦相似度三种局部对齐损失，发现余弦相似度表现最佳，因为它更侧重于显著区域的方向性一致性。

3. 主要结果及其意义： * 显著的性能提升： 在具有挑战性的ViDoRe V2基准测试上，AGREE显著优于仅使用全局监督的基线模型。例如，AGREEQwen2.5在平均nDCG@1上取得了+7.03%的绝对增益，在平均nDCG@5上取得了+2.95%的绝对增益，这表明其在处理需要语义推理的非抽取式检索任务方面的强大能力。 * 更深层次的对齐和可解释性： 定量和定性分析表明，AGREE促进了查询词与文档区域之间更深层次的对齐，超越了表面级匹配，实现了更准确和可解释的检索。检索器能够捕捉隐式语义对应关系，并突出支持匹配的特定内容。 * 注意力质量与性能的相关性： 实验证明，MLLM注意力与人类判断的对齐程度越高，注意力引导训练的效果越好。使用“query-token attention”策略的7B模型与人类标注的对齐度最高，并在V1和V2上取得了最大的性能提升。 * 选择性注意力监督的有效性： 即使在训练数据子集上应用注意力监督，AGREE也能取得显著改进，尤其是在“不匹配优先”采样策略下，通过关注检索器与MLLM注意力模式最不一致的样本，可以在减少标注成本的同时保持性能。

4. 论文中提及的局限性： * MLLM注意力信号的噪声： MLLM的注意力信号不可避免地包含噪声，过强的注意力目标可能导致模型对噪声过拟合。 * “不匹配优先”采样的局限性： 尽管“不匹配优先”采样可以减少标注成本，但它需要为所有样本计算注意力以识别困难实例。此外，在不完整的标注训练集下，基于检索性能的困难实例挖掘可能不可靠，因为低性能实例可能包含大量未标注的正例，引入噪声而非有用的监督。

5. 潜在的未来研究方向： * 更精确的接地形式： 未来研究可以探索更精确的接地形式，例如目标检测风格的标注，以进一步改善细粒度对齐，从而构建更可解释的视觉文档检索系统。 * 利用更准确的标注数据： 随着未来方法能够生成更准确的代理标签，AGREE可以直接利用它们实现进一步的性能提升。 * 改进困难实例挖掘： 探索更可靠的基于检索性能的困难实例挖掘方法，以实现真正的注意力标注成本降低。

总而言之，AGREE框架通过将MLLM的细粒度注意力作为局部监督信号，成功地解决了视觉文档检索中现有方法对粗粒度全局标签的过度依赖问题。它不仅提高了检索性能，特别是在处理非抽取式查询时，还使得检索结果更具可解释性，能够揭示文档中驱动相关性的具体区域。这为未来构建更智能、更透明的文档理解系统奠定了基础。

Key Findings:

To alleviate this problem, we propose a \textbf{A}ttention-\textbf{G}rounded \textbf{RE}triever \textbf{E}nhancement (AGREE) framework.
Experiments on the challenging ViDoRe V2 benchmark show that AGREE significantly outperforms the global-supervision-only baseline.

Links:

PDF
arXiv

Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)

Authors: Nikos Theodoridis, Tim Brophy, Reenu Mohandas, Ganesh Sistu, Fiachra Collins, Anthony Scanlan, Ciaran Eising

Published: 2025-11-17

Categories: cs.CV, cs.AI

Abstract:

The remarkable progress of Vision-Language Models (VLMs) on a variety of tasks has raised interest in their application to automated driving. However, for these models to be trusted in such a safety-critical domain, they must first possess robust perception capabilities, i.e., they must be capable of understanding a traffic scene, which can often be highly complex, with many things happening simultaneously. Moreover, since critical objects and agents in traffic scenes are often at long distances, we require systems with not only strong perception capabilities at close distances (up to 20 meters), but also at long (30+ meters) range. Therefore, it is important to evaluate the perception capabilities of these models in isolation from other skills like reasoning or advanced world knowledge. Distance-Annotated Traffic Perception Question Answering (DTPQA) is a Visual Question Answering (VQA) benchmark designed specifically for this purpose: it can be used to evaluate the perception systems of VLMs in traffic scenarios using trivial yet crucial questions relevant to driving decisions. It consists of two parts: a synthetic benchmark (DTP-Synthetic) created using a simulator, and a real-world benchmark (DTP-Real) built on top of existing images of real traffic scenes. Additionally, DTPQA includes distance annotations, i.e., how far the object in question is from the camera. More specifically, each DTPQA sample consists of (at least): (a) an image, (b) a question, (c) the ground truth answer, and (d) the distance of the object in question, enabling analysis of how VLM performance degrades with increasing object distance. In this article, we provide the dataset itself along with the Python scripts used to create it, which can be used to generate additional data of the same kind.

Analysis:

好的，这是一篇关于Nikos Theodoridis等人撰写的论文“Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)”的全面摘要，使用中文撰写：

论文摘要：Distance-Annotated Traffic Perception Question Answering (DTPQA)

1. 主要问题或研究问题： 该论文旨在解决自动驾驶领域中视觉-语言模型（VLMs）感知能力评估的不足。现有基准通常无法在复杂的交通场景中，特别是在不同距离下，独立且鲁棒地评估VLMs的感知能力，而这对于自动驾驶的安全至关重要。具体来说，研究问题是如何创建一个能够评估VLM在交通场景中对关键物体和代理的感知能力，并能分析其性能随距离增加而下降的基准，同时排除推理或高级世界知识等其他技能的干扰。

2. 关键创新或方法论贡献： 该论文的主要创新是引入了Distance-Annotated Traffic Perception Question Answering (DTPQA)，这是一个专门用于评估VLM在交通场景中感知系统的视觉问答（VQA）基准。其关键贡献包括： * 专注于感知能力评估： DTPQA设计了琐碎但对驾驶决策至关重要的感知型问题，避免了需要复杂推理或高级世界知识的问题，从而孤立地评估VLMs的感知能力。 * 距离标注： 每个DTPQA样本都包含被提问对象与摄像头的距离标注。这使得研究人员能够分析VLM的性能如何随着对象距离的增加而下降，这是自动驾驶中一个关键的挑战。 * 双重基准设计： DTPQA包含两部分： * DTP-Synthetic： 使用CARLA模拟器创建的合成基准，允许精确控制交通场景、对象距离和环境条件，从而生成高度可控和可重复的数据。 * DTP-Real： 基于nuScenes数据集的真实世界图像构建，通过添加距离和特定感知问题标注来扩展现有数据。 * 平衡的样本分布： 基准确保每个距离和每个答案类别的样本数量平衡，以防止模型因语言偏差而获得优势。 * 多类别感知任务： 涵盖了多种与驾驶相关的感知任务，例如识别行人存在、行人方向、行人数量、车辆转向灯状态、交通灯颜色和交通标志识别。

3. 主要结果及其重要性： * DTPQA已成功用于评估最先进（SOTA）的小型VLM在交通场景中的感知能力。 * 评估结果（如论文图4所示）表明，SOTA小型VLM在DTPQA任务上的表现显著低于人类水平，尤其是在需要空间感知的任务上（例如，Cat.2-Synth、Cat.4-Synth、Cat.2-Real）。 * 这种显著的性能差距证明了DTPQA能够有效挑战现有模型，并作为评估VLM在交通场景中感知能力的宝贵基准。 * 数据集的可用性（包括Python脚本）使得研究人员能够生成更多类似数据，进一步推动该领域的研究。

4. 论文中提及的局限性： * DTP-Synthetic的模拟器限制： 尽管CARLA是优秀的模拟器，但模拟数据仍可能存在与真实世界不符的误差，需要手动审查和清理。 * DTP-Real对nuScenes的依赖： DTP-Real的质量继承自nuScenes数据集，虽然nuScenes是高质量数据集，但并非完美无瑕。 * 距离精确度： 在DTP-Real中，由于真实世界数据的性质，无法像合成数据那样精确控制对象距离，而是使用距离区间进行分类。 * 特定场景限制： 例如，在DTP-Synthetic的交通灯和交通标志类别中，由于对象位置固定和摄像头视野限制，某些距离（如5米）的样本难以捕获。

5. 潜在的未来研究方向： * VLM性能与问题措辞/提示结构的关系： DTPQA可用于研究VLM在简单视觉任务上的性能如何受问题措辞或提示结构微小变化的影响。 * 利用额外标注进行研究： * 天气依赖性研究： DTP-Synth中的天气标注可用于研究VLM感知能力对天气条件的依赖性。 * 计数能力研究： Cat.3-Real中包含的场景中多人距离方差的标注，可用于研究VLM在恒定距离下计数能力的方差依赖性。 * 城镇标注： DTP-Synth中的城镇标注也可用于其他分析。 * VLM的微调和训练： DTPQA数据集可用于微调VLM，或作为更大训练数据集的一部分，以提升其在自动驾驶感知任务中的表现。

Key Findings:

More specifically, each DTPQA sample consists of (at least): (a) an image, (b) a question, (c) the ground truth answer, and (d) the distance of the object in question, enabling analysis of how VLM performance degrades with increasing object distance.
In this article, we provide the dataset itself along with the Python scripts used to create it, which can be used to generate additional data of the same kind.

Links:

PDF
arXiv

Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space

Authors: Kaiwen Wang, Kaili Zheng, Yiming Shi, Chenyi Guo, Ji Wu

Published: 2025-11-17

Categories: cs.CV

Abstract:

Multi-person human mesh recovery from a single image is a challenging task, hindered by the scarcity of in-the-wild training data. Prevailing in-the-wild human mesh pseudo-ground-truth (pGT) generation pipelines are single-person-centric, where each human is processed individually without joint optimization. This oversight leads to a lack of scene-level consistency, producing individuals with conflicting depths and scales within the same image. To address this, we introduce Depth-conditioned Translation Optimization (DTO), a novel optimization-based method that jointly refines the camera-space translations of all individuals in a crowd. By leveraging anthropometric priors on human height and depth cues from a monocular depth estimator, DTO solves for a scene-consistent placement of all subjects within a principled Maximum a posteriori (MAP) framework. Applying DTO to the 4D-Humans dataset, we construct DTO-Humans, a new large-scale pGT dataset of 0.56M high-quality, scene-consistent multi-person images, featuring dense crowds with an average of 4.8 persons per image. Furthermore, we propose Metric-Aware HMR, an end-to-end network that directly estimates human mesh and camera parameters in metric scale. This is enabled by a camera branch and a novel relative metric loss that enforces plausible relative scales. Extensive experiments demonstrate that our method achieves state-of-the-art performance on relative depth reasoning and human mesh recovery. Code and data will be released publicly.

Analysis:

好的，这是一篇关于Kaiwen Wang等人撰写的论文“Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space”的全面摘要，重点突出其主要贡献、结果和局限性。

论文摘要：Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space

1. 主要问题或研究问题 该论文旨在解决从单张图像中进行多人人体网格恢复（HMR）的挑战。现有方法通常以单人中心的方式处理，独立优化每个人体，导致场景缺乏一致性，例如深度冲突和尺度不一致。这限制了端到端HMR模型在学习复杂人际和人-环境关系方面的潜力。核心问题是如何在相机空间中实现多人场景的度量一致性重建。

2. 关键创新或方法论贡献

深度条件平移优化（DTO）框架： 论文引入了一种新颖的、基于优化的DTO方法，用于联合优化人群中所有个体在相机空间中的平移。DTO利用人体身高的人体测量学先验和单目深度估计器提供的深度线索，在一个最大后验（MAP）框架内，解决所有主体在场景中一致的放置问题。这确保了场景级别的连贯性，解决了现有方法中深度和尺度不一致的问题。
DTO-Humans数据集： 通过将DTO应用于4D-Humans数据集，作者构建了一个新的大规模伪真值（pGT）数据集，名为DTO-Humans。该数据集包含0.56M高质量、场景一致的多人图像，具有平均每张图像4.8人的密集人群，为训练更鲁棒的多人模型提供了关键的、物理上合理的监督。
度量感知HMR（MA-HMR）网络： 论文提出了一个端到端网络MA-HMR，可以直接估计度量尺度下的人体网格和相机参数。该网络包含一个专门的相机分支，用于预测相机的视场（FoV），并引入了一种新颖的相对度量损失，明确惩罚个体之间不合理的真实世界尺寸关系，从而实现真正的度量尺度网格恢复。

3. 主要结果及其意义

DTO的有效性： DTO框架显著提高了伪真值数据的质量。在Relative Human数据集上，DTO将基线CHMR模型的PCDR0.2（all）分数从60.43提高到74.16，超越了所有微调的SOTA方法。在MuPoTS数据集上，DTO实现了最低的MPJPE，证明了其在不同人群密度场景中的一致性和度量准确性。
MA-HMR的性能： MA-HMR在Relative Human数据集上取得了75.35的PCDR0.2（all）新SOTA，证明了端到端微调在处理复杂深度线索和年龄分布方面的优势。在3DPW、CMU Panoptic和Hi4D等经典基准测试上，MA-HMR也取得了最先进的性能，例如在3DPW上实现了58.5毫米的MPJPE和36.3毫米的PA-MPJPE，并在CMU Panoptic上实现了最低的平均误差76.3毫米。
度量准确性： MA-HMR通过相对度量损失有效地学习了合理的人体尺度，显著降低了身高误差，进一步验证了其在度量尺度恢复方面的能力。

4. 论文中提及的局限性

对上游深度估计模型的依赖： DTO框架的局限性在于其对上游相对深度估计模型的准确性。深度图中存在的错误或模糊性可能会传播，导致不合理的场景重建。例如，严重的遮挡可能导致深度模型将前景深度值分配给背景人物，从而导致DTO错误地缩小其尺度。
模糊深度线索： 在深度线索模糊的场景中（例如运动员跳跃），深度模型可能会依赖有缺陷的启发式方法，导致人物在场景中放置错误。
部分可见性： 在没有清晰地平面且部分可见的场景中，深度模型可能会混淆，导致其错误地扁平化多个人的相对深度，DTO随后继承了这些错误。

5. 潜在的未来研究方向

改进单目深度估计： 论文明确指出，未来单目深度估计的进步将直接提高DTO框架的准确性和鲁棒性，从而带来更好的3D人体场景理解。
更复杂的场景理解： 解决深度估计模型在遮挡、模糊深度线索和部分可见性等挑战性场景中的局限性，将是未来研究的关键方向。
扩展到动态场景： 尽管论文主要关注单张图像，但将度量一致性扩展到视频或动态场景中的多人重建，将是重要的未来工作。

总而言之，这篇论文通过引入DTO框架和DTO-Humans数据集，以及创新的MA-HMR网络，在多人人体网格恢复领域取得了显著进展，有效地弥合了相对场景理解和绝对度量重建之间的鸿沟。

Key Findings:

To address this, we introduce Depth-conditioned Translation Optimization (DTO), a novel optimization-based method that jointly refines the camera-space translations of all individuals in a crowd.
Applying DTO to the 4D-Humans dataset, we construct DTO-Humans, a new large-scale pGT dataset of 0.56M high-quality, scene-consistent multi-person images, featuring dense crowds with an average of 4.8 persons per image.
Furthermore, we propose Metric-Aware HMR, an end-to-end network that directly estimates human mesh and camera parameters in metric scale.
This is enabled by a camera branch and a novel relative metric loss that enforces plausible relative scales.
Extensive experiments demonstrate that our method achieves state-of-the-art performance on relative depth reasoning and human mesh recovery.

Links:

PDF
arXiv

SF-Recon: Simplification-Free Lightweight Building Reconstruction via 3D Gaussian Splatting

Authors: Zihan Li, Tengfei Wang, Wentian Gan, Hao Zhan, Xin Wang, Zongqian Zhan

Published: 2025-11-17

Categories: cs.CV

Abstract:

Lightweight building surface models are crucial for digital city, navigation, and fast geospatial analytics, yet conventional multi-view geometry pipelines remain cumbersome and quality-sensitive due to their reliance on dense reconstruction, meshing, and subsequent simplification. This work presents SF-Recon, a method that directly reconstructs lightweight building surfaces from multi-view images without post-hoc mesh simplification. We first train an initial 3D Gaussian Splatting (3DGS) field to obtain a view-consistent representation. Building structure is then distilled by a normal-gradient-guided Gaussian optimization that selects primitives aligned with roof and wall boundaries, followed by multi-view edge-consistency pruning to enhance structural sharpness and suppress non-structural artifacts without external supervision. Finally, a multi-view depth-constrained Delaunay triangulation converts the structured Gaussian field into a lightweight, structurally faithful building mesh. Based on a proposed SF dataset, the experimental results demonstrate that our SF-Recon can directly reconstruct lightweight building models from multi-view imagery, achieving substantially fewer faces and vertices while maintaining computational efficiency. Website:https://lzh282140127-cell.github.io/SF-Recon-project/

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Zihan Li等人撰写的论文“SF-Recon: Simplification-Free Lightweight Building Reconstruction via 3D Gaussian Splatting”的全面摘要。

SF-Recon: 基于3D高斯泼溅的免简化轻量级建筑重建

1. 主要问题或研究问题

该论文旨在解决传统多视角几何（multi-view geometry）流水线在生成轻量级建筑表面模型时所面临的挑战。传统方法通常涉及密集的重建、网格化和随后的简化步骤，这些步骤不仅繁琐、计算成本高昂，而且其质量高度依赖于中间高复杂度网格的保真度，导致鲁棒性和可复现性差。具体来说，研究问题是如何直接从多视角图像重建轻量级、结构忠实的建筑表面模型，而无需耗时的后处理网格简化步骤。

2. 关键创新或方法贡献

SF-Recon提出了一种新颖的框架，通过以下关键创新直接从多视角图像重建轻量级建筑表面模型：

直接重建，免除简化： SF-Recon是首个利用3D高斯泼溅（3DGS）直接从多视角图像重建轻量级建筑表面网格的方法，消除了传统流水线中复杂的后处理网格简化需求。
法线梯度引导的高斯优化（Normal-Gradient-Guided Gaussian Optimization）： 为了确保高斯场准确捕捉建筑框架，该方法引入了法线梯度引导的优化。它通过在训练过程中估计表面法线并计算图像梯度来提取边缘掩码，然后将这些掩码整合到损失函数中，引导高斯基元集中在结构边界（如屋脊和墙壁边界），同时抑制非边缘区域的占用。
多视角边缘一致性剪枝策略（Multi-View Edge-Consistency Pruning Strategy）： 在后续训练迭代中，该策略系统地移除对结构边界支持很少或没有支持的高斯基元。通过计算每个高斯基元在不同视角下投影到建筑边缘的一致性得分，低得分基元被剪枝，从而产生一个更稀疏、边界对齐的高斯场，提高结构清晰度并减少冗余。
多视角深度约束的Delaunay三角剖分重建（Multi-View Depth-Constrained Delaunay Triangulation Reconstruction）： 该方法利用训练期间渲染的深度图，建立可靠的3D点云到2D图像的可见性对应关系。随后，通过可见性驱动的Delaunay图割（graph cut）提取表面，生成一个轻量级、结构忠实的建筑网格。这确保了即使在采样密度变化和遮挡情况下也能保持几何细节和表面平滑度。

3. 主要结果及其意义

性能优越： 在作者提出的SF数据集上（包含10个手动重建的建筑模型），SF-Recon在保持计算效率的同时，能够直接从多视角图像重建轻量级建筑模型，显著减少了面数和顶点数。
结构保真度高： 与PGSR、2DGS和Metashape等基线方法相比，SF-Recon生成的网格在保持轻量化的同时，更好地保留了建筑的关键结构特征（如屋脊和墙壁边界），避免了过度平滑和结构完整性丧失。
鲁棒性强： 实验结果表明，SF-Recon对输入图像分辨率的变化不敏感，在不同分辨率下均表现出一致的良好性能，优于传统方法（如Metashape）在低分辨率下的性能下降问题。
效率提升： 通过消除后处理网格简化步骤，SF-Recon简化了整个重建流水线，提高了效率和可复现性。

4. 论文中提及的局限性

顶点和面数： 尽管SF-Recon能够生成高质量的轻量级模型，但与传统劳动密集型简化流水线相比，它在边缘处仍保留了过多的顶点，导致面数冗余和网格简化不足。
纹理稀疏区域的性能： 当多视角图像覆盖范围广且纹理丰富时，从法线中提取边界掩码是有效的。但在纹理稀疏的区域，其性能会下降。
计算效率： 尽管论文强调了计算效率，但仍有进一步改进的空间。

5. 潜在的未来研究方向

提高效率和鲁棒性： 未来的工作将专注于进一步提高SF-Recon的计算效率和在纹理稀疏区域的鲁棒性。
优化顶点和面数： 探索新的策略以进一步减少边缘处的冗余顶点和面数，从而实现更极致的轻量化。
结合语义信息： 进一步整合语义信息，以更好地引导高斯基元的分布和剪枝，从而在复杂场景中实现更精确和结构化的重建。

这份摘要旨在全面概括SF-Recon论文的核心内容，突出其在计算机视觉和3D重建领域的贡献。

Key Findings:

Based on a proposed SF dataset, the experimental results demonstrate that our SF-Recon can directly reconstruct lightweight building models from multi-view imagery, achieving substantially fewer faces and vertices while maintaining computational efficiency.
Website:https://lzh282140127-cell.github.io/SF-Recon-project/

Links:

PDF
arXiv

Authors: Lingfeng Zhang, Yuchen Zhang, Hongsheng Li, Haoxiang Fu, Yingbo Tang, Hangjun Ye, Long Chen, Xiaojun Liang, Xiaoshuai Hao, Wenbo Ding

Published: 2025-11-17

Categories: cs.CV

Abstract:

Vision-Language Models (VLMs), leveraging their powerful visual perception and reasoning capabilities, have been widely applied in Unmanned Aerial Vehicle (UAV) tasks. However, the spatial intelligence capabilities of existing VLMs in UAV scenarios remain largely unexplored, raising concerns about their effectiveness in navigating and interpreting dynamic environments. To bridge this gap, we introduce SpatialSky-Bench, a comprehensive benchmark specifically designed to evaluate the spatial intelligence capabilities of VLMs in UAV navigation. Our benchmark comprises two categories-Environmental Perception and Scene Understanding-divided into 13 subcategories, including bounding boxes, color, distance, height, and landing safety analysis, among others. Extensive evaluations of various mainstream open-source and closed-source VLMs reveal unsatisfactory performance in complex UAV navigation scenarios, highlighting significant gaps in their spatial capabilities. To address this challenge, we developed the SpatialSky-Dataset, a comprehensive dataset containing 1M samples with diverse annotations across various scenarios. Leveraging this dataset, we introduce Sky-VLM, a specialized VLM designed for UAV spatial reasoning across multiple granularities and contexts. Extensive experimental results demonstrate that Sky-VLM achieves state-of-the-art performance across all benchmark tasks, paving the way for the development of VLMs suitable for UAV scenarios. The source code is available at https://github.com/linglingxiansen/SpatialSKy.

Analysis:

以下是Lingfeng Zhang等人撰写的论文“Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation”的摘要：

1. 主要问题或研究问题 该论文旨在解决现有视觉-语言模型（VLMs）在无人机（UAV）导航场景中空间智能能力未被充分探索的问题。当前的VLM评估基准主要关注人类视角，而非无人机视角，导致在复杂、动态的无人机环境中，VLM在导航和环境解释方面的有效性存在不确定性。

2. 关键创新或方法论贡献 * SpatialSky-Bench基准的引入： 论文提出了一个全面的基准SpatialSky-Bench，专门用于评估VLM在无人机导航中的空间智能能力。该基准分为两大类（环境感知和场景理解）和13个细分子类别，涵盖了从边界框识别、颜色、距离、高度到着陆安全分析等任务。 * SpatialSky-Dataset数据集的构建： 为了支持基准评估和模型训练，论文构建了一个包含100万个样本的大规模数据集SpatialSky-Dataset，其中包含多样化的标注（包括RGB图像、语义掩码、LiDAR深度数据、姿态信息和边界框标注），并通过自动化流程生成了问答对。 * Sky-VLM模型的开发： 论文引入了Sky-VLM，这是一个专门为无人机空间推理设计的VLM，采用两阶段训练方法：首先在SpatialSky-Dataset上进行监督微调（SFT）以获取无人机特定的空间推理能力；然后通过基于群相对策略优化（GRPO）的强化微调（RFT）进一步提升模型在关键空间推理任务上的决策准确性。

3. 主要结果及其重要性 * 对主流开源和闭源VLM的广泛评估显示，它们在复杂的无人机导航场景中表现不佳，凸显了其空间能力的显著不足。 * Sky-VLM在所有基准任务上均实现了最先进的性能（SOTA），平均得分达到53.30，比最佳基线模型（GPT-5）提高了139.6%。这表明Sky-VLM在无人机场景中的空间智能能力显著优于现有模型。 * 消融研究证实，两阶段训练方法，特别是强化微调，对提升模型在空间推理任务上的性能至关重要，尤其是在需要像素级准确度的任务中。 * 数据规模扩展研究表明，随着训练数据量的增加，模型性能持续提升，且强化学习阶段能有效增强空间推理能力。

4. 论文中提及的局限性 论文主要强调了现有VLM在处理无人机视角下的空间智能方面的显著局限性，例如：物体尺度变化、俯视遮挡、深度信息缺乏以及复杂的地面理解要求。这些是SpatialSky-Bench和SpatialSky-Dataset旨在解决的挑战，但论文并未明确提及Sky-VLM自身的具体局限性。

5. 潜在的未来研究方向 论文为开发适用于无人机场景的空间感知VLM铺平了道路。未来的研究可以进一步探索： * 优化Sky-VLM模型以适应更广泛的无人机导航任务和更复杂的动态环境。 * 将Sky-VLM的空间智能能力与其他无人机系统集成，以实现更高级别的自主导航和决策。 * 探索更高效的数据生成方法和训练策略，以进一步提升VLM在无人机场景中的鲁棒性和泛化能力。 * 研究如何将VLM的空间智能与其他感知模态（如雷达、惯性测量单元等）更紧密地融合，以应对更具挑战性的无人机导航场景。

Key Findings:

To bridge this gap, we introduce SpatialSky-Bench, a comprehensive benchmark specifically designed to evaluate the spatial intelligence capabilities of VLMs in UAV navigation.
To address this challenge, we developed the SpatialSky-Dataset, a comprehensive dataset containing 1M samples with diverse annotations across various scenarios.
Leveraging this dataset, we introduce Sky-VLM, a specialized VLM designed for UAV spatial reasoning across multiple granularities and contexts.
Extensive experimental results demonstrate that Sky-VLM achieves state-of-the-art performance across all benchmark tasks, paving the way for the development of VLMs suitable for UAV scenarios.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-11-18

Executive Summary

Table of Contents

Papers

论文摘要分析：Back to Basics: Let Denoising Generative Models Denoise

论文摘要：Segment Anything Across Shots: A Method and Benchmark

论文摘要：Attention Grounded Enhancement for Visual Document Retrieval

SF-Recon: 基于3D高斯泼溅的免简化轻量级建筑重建