Arxiv Computer Vision Papers - 2025-10-06

Executive Summary

好的，这是一份针对2025年10月3日Arxiv计算机视觉论文的每日报告执行摘要：

每日Arxiv计算机视觉论文执行摘要 (2025-10-03)

概述与主要趋势： 今天的论文集展示了计算机视觉领域在多模态理解、生成和编辑方面的持续快速发展。核心趋势包括：

多模态融合与统一模型： 显著关注于整合文本、图像、视频和运动等多种模态，以实现更强大的检索、生成和理解能力。
生成模型的高级控制与一致性： 文本到图像/视频生成模型正在努力解决长提示对齐、时空一致性以及减少幻觉等挑战。
3D内容生成与编辑： 3D场景和内容的可扩展、一致性编辑和生成是另一个重要方向。
鲁棒性与可靠性： 针对VLM在复杂场景（如自动驾驶）中的鲁棒性以及大型视觉语言模型（LVLM）幻觉的缓解策略受到关注。
效率与优化： 视频理解中的关键帧采样以及运动生成中的意图理解旨在提高效率和质量。

特别显著或创新的论文：

"MonSTeR: a Unified Model for Motion, Scene, Text Retrieval" (Luca Collorone et al.)：这份论文因其提出一个统一模型来处理运动、场景和文本检索而显得尤为突出。这种跨模态的统一方法在信息检索领域具有巨大的潜力，可能为未来的多模态搜索引擎奠定基础。
"TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency" (Juntong Wang et al.)：在文本到图像生成日益复杂、长提示成为常态的背景下，提出一个新的评估指标来衡量长提示对齐度至关重要。TIT-Score通过“文本-图像-文本”的一致性来评估，提供了一种更全面和可靠的度量方法，对生成模型的研究和开发具有直接指导意义。
"MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding" (Jingyuan Deng, Yujiu Yang)：随着LVLM的广泛应用，幻觉问题是其可靠性的主要障碍。MaskCD提出了一种新颖的解码策略来缓解这一问题，这对于提升LVLM在实际应用中的可信度具有重要意义。

新兴研究方向或技术：

“文本-图像-文本”一致性评估： TIT-Score的提出表明，对生成模型输出质量的评估正从单一模态或简单对齐转向更复杂的循环一致性验证。
基于意图的运动生成： MoGIC通过理解意图来提升运动生成，预示着未来生成模型将更深入地理解用户或环境的潜在目标。
时空记忆机制： Memory Forcing在Minecraft场景生成中引入时空记忆，强调了在长序列或复杂场景生成中保持一致性和连贯性的重要性。
统一的多模态检索架构： MonSTeR代表了将多种模态（运动、场景、文本）整合到单一检索框架中的趋势，旨在实现更全面的信息访问。

建议阅读全文的论文：

"MonSTeR: a Unified Model for Motion, Scene, Text Retrieval"：对于对多模态信息检索和统一模型架构感兴趣的研究人员，这篇论文提供了潜在的突破性方法。
"TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency"：任何从事文本到图像生成模型开发或评估的人都应该深入阅读，因为它提供了一个关键的评估工具。
"MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding"：对于关注大型视觉语言模型可靠性、幻觉问题及其解决方案的研究人员来说，这篇论文是必读的。
"Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction"：对于视频生成和多模态交互感兴趣的团队，这篇论文展示了如何通过高级条件控制来提升视频生成质量。

这份摘要旨在帮助您快速把握今日Arxiv计算机视觉领域的关键进展，并识别出对您研究最有价值的论文。

MonSTeR: a Unified Model for Motion, Scene, Text Retrieval
Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction
Towards Scalable and Consistent 3D Editing
TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency
One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
Work Zones challenge VLM Trajectory Planning: Toward Mitigation and Robust Autonomous Driving
MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding
AdaRD-key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding
MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context
Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft

Papers

MonSTeR: a Unified Model for Motion, Scene, Text Retrieval

Authors: Luca Collorone, Matteo Gioia, Massimiliano Pappa, Paolo Leoni, Giovanni Ficarra, Or Litany, Indro Spinelli, Fabio Galasso

Published: 2025-10-03

Categories: cs.CV

Abstract:

Intention drives human movement in complex environments, but such movement can only happen if the surrounding context supports it. Despite the intuitive nature of this mechanism, existing research has not yet provided tools to evaluate the alignment between skeletal movement (motion), intention (text), and the surrounding context (scene). In this work, we introduce MonSTeR, the first MOtioN-Scene-TExt Retrieval model. Inspired by the modeling of higher-order relations, MonSTeR constructs a unified latent space by leveraging unimodal and cross-modal representations. This allows MonSTeR to capture the intricate dependencies between modalities, enabling flexible but robust retrieval across various tasks. Our results show that MonSTeR outperforms trimodal models that rely solely on unimodal representations. Furthermore, we validate the alignment of our retrieval scores with human preferences through a dedicated user study. We demonstrate the versatility of MonSTeR's latent space on zero-shot in-Scene Object Placement and Motion Captioning. Code and pre-trained models are available at github.com/colloroneluca/MonSTeR.

Analysis:

好的，这是一篇关于“MonSTeR: a Unified Model for Motion, Scene, Text Retrieval”论文的全面摘要：

论文摘要：MonSTeR: 运动、场景、文本统一检索模型

1. 主要问题或研究问题： 人类在复杂环境中的运动受意图驱动，但其实现必须依赖周围环境的支持。现有研究缺乏有效工具来评估骨骼运动（运动）、意图（文本）和周围环境（场景）三者之间的一致性。这导致了在人类运动生成和检索中，环境上下文未能被充分利用，以及人类场景交互模型缺乏全局一致性评估。

2. 关键创新或方法论贡献： * 首次提出统一的运动-场景-文本检索模型（MonSTeR）： MonSTeR是第一个能够在一个统一的潜在空间中评估文本、运动和场景三模态之间一致性的模型。 * 建模高阶关系： 受拓扑深度学习的启发，MonSTeR通过建模超越成对关系的更高阶交互来捕捉模态间的复杂依赖。它通过对单模态和跨模态表示进行对齐，构建了一个统一的潜在空间。具体来说，它不仅对齐单模态项（t, s, m），还对齐成对的跨模态项（ts, sm, mt），以捕捉三模态交互。 * 灵活且鲁棒的检索能力： 这种建模方式使得MonSTeR能够灵活且鲁棒地执行各种检索任务，包括给定一个模态检索另一个模态，或给定两个模态的表示检索一个模态。 * 人类场景交互模型评估工具： MonSTeR可作为评估文本条件人类场景交互模型（HSI）的工具，能够评估运动路径的合理性、与场景的符合度，并与人类偏好高度一致。

3. 主要结果及其意义： * 卓越的检索性能： MonSTeR在HUMANISE+和TRUMANS+数据集上的检索任务中，显著优于仅依赖单模态表示的三模态模型。在“All”协议的st2m任务中，MonSTeR相对于最佳场景感知模型性能提升了209%。 * 与人类偏好对齐： 通过用户研究验证，MonSTeR的检索分数与人类偏好高度一致（66.5%的对齐率），证明了其评估结果的可靠性。 * 多功能性： MonSTeR的潜在空间在零样本场景内物体放置（In-Scene Object Placement）和运动描述（Motion Captioning）等下游任务中展现出强大的通用性。在零样本物体放置任务中，平均误差仅为18cm，在运动描述任务中，MonSTeR+GPT2在多项指标上超越了MotionGPT。 * 场景-运动接地能力： MonSTeR能够区分与场景和文本意图一致的运动路径与不一致的路径，并能识别出穿透场景物体的运动，表明其潜在空间内化了自然运动不应穿透场景的知识。

4. 论文中提及的局限性： * 计算成本： 跨模态编码器仅在对齐的模态对上进行训练，因为在未配对数据上进行训练的计算成本过高。 * 静态场景： 当前模型假设场景是静态的，即人类动作不会改变场景布局。这限制了其在动态场景中的应用。

5. 潜在的未来研究方向： * 动态场景编码器： 探索和开发能够处理动态场景的编码器，以扩展MonSTeR在更复杂、交互性更强的环境中的应用。 * 更复杂的模态交互： 进一步研究和建模更复杂的高阶模态交互，以捕捉更细致的依赖关系。

Key Findings:

In this work, we introduce MonSTeR, the first MOtioN-Scene-TExt Retrieval model.
Our results show that MonSTeR outperforms trimodal models that rely solely on unimodal representations.
We demonstrate the versatility of MonSTeR's latent space on zero-shot in-Scene Object Placement and Motion Captioning.

Links:

PDF
arXiv

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

Authors: Kaisi Guan, Xihua Wang, Zhengfeng Lai, Xin Cheng, Peng Zhang, XiaoJiang Liu, Ruihua Song, Meng Cao

Published: 2025-10-03

Categories: cs.CV, cs.SD

Abstract:

This study focuses on a challenging yet promising task, Text-to-Sounding-Video (T2SV) generation, which aims to generate a video with synchronized audio from text conditions, meanwhile ensuring both modalities are aligned with text. Despite progress in joint audio-video training, two critical challenges still remain unaddressed: (1) a single, shared text caption where the text for video is equal to the text for audio often creates modal interference, confusing the pretrained backbones, and (2) the optimal mechanism for cross-modal feature interaction remains unclear. To address these challenges, we first propose the Hierarchical Visual-Grounded Captioning (HVGC) framework that generates pairs of disentangled captions, a video caption, and an audio caption, eliminating interference at the conditioning stage. Based on HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer, which employs a Dual CrossAttention (DCA) mechanism that acts as a robust ``bridge" to enable a symmetric, bidirectional exchange of information, achieving both semantic and temporal synchronization. Extensive experiments on three benchmark datasets, supported by human evaluations, demonstrate that our method achieves state-of-the-art results on most metrics. Comprehensive ablation studies further validate the effectiveness of our contributions, offering key insights for the future T2SV task. All the codes and checkpoints will be publicly released.

Analysis:

这篇论文《通过高级模态条件和交互驯服文本到有声视频生成》解决了文本到有声视频（T2SV）生成这一具有挑战性的任务。T2SV的目标是根据文本条件生成具有同步音频的视频，同时确保视频和音频模态都与文本对齐。

1. 主要问题或研究问题： 尽管在联合音视频训练方面取得了进展，但T2SV生成仍面临两个关键挑战： 1. 模态干扰： 单一共享文本描述（视频文本等于音频文本）常常导致模态干扰，混淆预训练的骨干网络。 2. 跨模态特征交互机制： 最佳的跨模态特征交互机制尚不明确。

2. 关键创新或方法论贡献： 为了解决上述挑战，论文提出了两项主要创新： 1. 分层视觉接地字幕（HVGC）框架： 该框架生成一对解耦的字幕——一个视频字幕（Tv）和一个音频字幕（TA），从而在条件阶段消除了模态干扰。HVGC通过三阶段管道实现：首先，VLLM生成详细的视频描述；其次，LLM从视频描述中提取相关的听觉事件标签；最后，LLM利用视频描述和听觉标签生成纯音频字幕。这种方法确保了字幕的模态纯度和准确性。 2. BridgeDiT模型： 一种新颖的双塔扩散Transformer，采用双重交叉注意力（DCA）机制。DCA充当一个强大的“桥梁”，实现了视频和音频塔之间的对称、双向信息交换，从而实现了语义和时间上的同步。

3. 主要结果及其意义： 论文在三个基准数据集上进行了广泛的实验，并辅以人工评估，结果表明： * BridgeDiT模型在大多数指标上均优于所有基线方法，达到了最先进的性能，包括视频质量（FVD、KVD）、音频质量（FAD、KL）、文本对齐（CLIPSIM、CLAP）和时间同步（AV-Align）。 * HVGC框架在零样本和全训练设置下始终表现最佳，验证了其在消除模态干扰方面的鲁棒性。 * DCA融合机制在训练过程中始终优于其他融合机制，表明其在实现卓越的时间和语义同步方面的优越性。这些结果的意义在于，该方法有效地解决了T2SV任务中的核心挑战，为生成高质量、同步的文本到有声视频提供了新的范式。

4. 论文中提及的局限性： * 数据稀缺： T2SV领域面临大规模、高质量、标注良好的音视频数据稀缺的挑战。 * 模型依赖性： 模型的性能高度依赖于数据质量，不稳定或低分辨率视频会降低预训练骨干网络的能力，而嘈杂的音频或画外音则会使精确同步复杂化。 * 功能限制： 当前版本的BridgeDiT主要专注于生成音效，尚不支持语音和复杂的音乐乐谱。 * 基础模型限制： 模型的整体性能受限于所选的基础T2V和T2A模型的性能。

5. 潜在的未来研究方向： * 数据集扩展： 收集更大、更高质量的音视频数据集，并改进数据处理管道以进行清洗、过滤和字幕生成。 * 功能扩展： 将BridgeDiT扩展到支持语音和音乐，包括集成专门的唇形同步模块和捕捉音乐输入节奏与情绪的技术。 * 后训练优化： 探索后训练优化技术，例如应用带有专门设计奖励的人类反馈强化学习（RLHF），以进一步提高模型的时空连贯性。

总而言之，这篇论文通过引入HVGC框架和BridgeDiT模型（特别是其DCA机制），为文本到有声视频生成领域做出了重要贡献，有效解决了模态干扰和跨模态特征交互的难题，并取得了显著的性能提升。

Key Findings:

Based on HVGC, we further introduce BridgeDiT, a novel dual-tower diffusion transformer, which employs a Dual CrossAttention (DCA) mechanism that acts as a robust ``bridge" to enable a symmetric, bidirectional exchange of information, achieving both semantic and temporal synchronization.
Extensive experiments on three benchmark datasets, supported by human evaluations, demonstrate that our method achieves state-of-the-art results on most metrics.
Comprehensive ablation studies further validate the effectiveness of our contributions, offering key insights for the future T2SV task.

Links:

PDF
arXiv

Towards Scalable and Consistent 3D Editing

Authors: Ruihao Xia, Yang Tang, Pan Zhou

Published: 2025-10-03

Categories: cs.CV

Abstract:

3D editing - the task of locally modifying the geometry or appearance of a 3D asset - has wide applications in immersive content creation, digital entertainment, and AR/VR. However, unlike 2D editing, it remains challenging due to the need for cross-view consistency, structural fidelity, and fine-grained controllability. Existing approaches are often slow, prone to geometric distortions, or dependent on manual and accurate 3D masks that are error-prone and impractical. To address these challenges, we advance both the data and model fronts. On the data side, we introduce 3DEditVerse, the largest paired 3D editing benchmark to date, comprising 116,309 high-quality training pairs and 1,500 curated test pairs. Built through complementary pipelines of pose-driven geometric edits and foundation model-guided appearance edits, 3DEditVerse ensures edit locality, multi-view consistency, and semantic alignment. On the model side, we propose 3DEditFormer, a 3D-structure-preserving conditional transformer. By enhancing image-to-3D generation with dual-guidance attention and time-adaptive gating, 3DEditFormer disentangles editable regions from preserved structure, enabling precise and consistent edits without requiring auxiliary 3D masks. Extensive experiments demonstrate that our framework outperforms state-of-the-art baselines both quantitatively and qualitatively, establishing a new standard for practical and scalable 3D editing. Dataset and code will be released. Project: https://www.lv-lab.org/3DEditFormer/

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Ruihao Xia, Yang Tang, Pan Zhou撰写的论文“Towards Scalable and Consistent 3D Editing”的全面摘要。

论文《Towards Scalable and Consistent 3D Editing》摘要

1. 主要问题或研究问题： 该论文旨在解决3D编辑领域的核心挑战：如何实现对3D资产的精确、局部化编辑，同时保持跨视图一致性、结构保真度和精细控制，且无需手动创建3D掩码。现有的2D编辑工具已非常直观和易用，但3D编辑仍面临速度慢、易产生几何失真以及对不准确3D掩码的依赖等问题，这限制了其在沉浸式内容创作、数字娱乐和AR/VR等实际应用中的可扩展性和实用性。

2. 关键创新或方法论贡献： 为了解决上述挑战，论文在数据和模型两方面都进行了创新：

数据方面：3DEditVerse数据集。 论文引入了迄今为止最大的配对3D编辑基准数据集3DEditVerse，包含116,309个高质量训练对和1,500个精心策划的测试对。该数据集通过互补的管道构建，包括：
- 姿态驱动的几何编辑： 生成捕获动画角色多样化姿态和几何变化的“前后”资产。
- 基础模型引导的外观编辑： 利用文本指令和一系列基础模型（如DeepSeek-R1、Flux、Qwen-VL、Trellis）进行外观修改，确保编辑的局部性、多视图一致性和语义对齐。
- 一致性保留的3D提升： 采用掩码引导的重绘策略，显式定位3D编辑区域，并融合源和目标潜在表示，以确保编辑的保真度。
- 后编辑一致性过滤： 通过DINOv2特征相似性过滤，进一步保证全局一致性。
模型方面：3DEditFormer。 论文提出了一个3D结构保持的条件Transformer模型3DEditFormer，它通过以下机制增强了图像到3D的生成能力：
- 双重引导注意力块（Dual-Guidance Attention Block）： 引入两个并行的交叉注意力路径，在不同扩散阶段注入源资产的多阶段特征，从而将可编辑区域与保留结构分离。
- 多阶段特征提取： 从冻结的Trellis模型中提取细粒度结构特征（在晚期扩散步骤）和语义转换特征（在早期扩散步骤），以捕捉互补的结构信息。
- 时间自适应门控机制（Time-Adaptive Gating）： 动态平衡细粒度结构特征和语义转换特征的影响，在早期阶段强调语义编辑，在后期阶段强调结构保真度。

这些创新使得3DEditFormer无需辅助3D掩码即可实现精确、一致且结构保持的3D编辑。

3. 主要结果及其意义： * 性能超越SOTA： 广泛的实验表明，3DEditFormer在定量和定性上均优于现有最先进的基线方法（如EditP23、Instant3dit和VoxHammer）。 * 无需3D掩码： 3DEditFormer无需任何辅助3D掩码，简化了编辑流程，同时实现了卓越的编辑质量和一致性。与依赖精确3D掩码的VoxHammer相比，3DEditFormer在3D指标上平均提高了13%。 * 高保真度与实用性： 该框架能够实现高质量的局部修改，同时保持结构保真度，解决了现有方法中常见的几何失真和不一致性问题。 * 建立新标准： 论文的工作为实用和可扩展的3D编辑设定了新标准，为该领域的系统性进展奠定了基础。

4. 论文中提及的局限性： 论文指出，3DEditFormer依赖于潜在空间编辑，虽然效率高，但在处理高分辨率3D资产时可能会引入精度损失。在潜在转换过程中，细粒度的几何细节可能会被降级。

5. 潜在的未来研究方向： 未来的工作可以探索直接在原始3D域中进行无损编辑，以更好地保留细粒度的网格保真度。

这份摘要突出了论文在解决3D编辑挑战方面的创新性、技术贡献和重要成果，同时也指出了其当前方法的局限性以及未来可能的研究方向。

Key Findings:

On the data side, we introduce 3DEditVerse, the largest paired 3D editing benchmark to date, comprising 116,309 high-quality training pairs and 1,500 curated test pairs.
On the model side, we propose 3DEditFormer, a 3D-structure-preserving conditional transformer.
Extensive experiments demonstrate that our framework outperforms state-of-the-art baselines both quantitatively and qualitatively, establishing a new standard for practical and scalable 3D editing.

Links:

PDF
arXiv

TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency

Authors: Juntong Wang, Huiyu Duan, Jiarui Wang, Ziheng Jia, Guangtao Zhai, Xiongkuo Min

Published: 2025-10-03

Categories: cs.CV

Abstract:

With the rapid advancement of large multimodal models (LMMs), recent text-to-image (T2I) models can generate high-quality images and demonstrate great alignment to short prompts. However, they still struggle to effectively understand and follow long and detailed prompts, displaying inconsistent generation. To address this challenge, we introduce LPG-Bench, a comprehensive benchmark for evaluating long-prompt-based text-to-image generation. LPG-Bench features 200 meticulously crafted prompts with an average length of over 250 words, approaching the input capacity of several leading commercial models. Using these prompts, we generate 2,600 images from 13 state-of-the-art models and further perform comprehensive human-ranked annotations. Based on LPG-Bench, we observe that state-of-the-art T2I alignment evaluation metrics exhibit poor consistency with human preferences on long-prompt-based image generation. To address the gap, we introduce a novel zero-shot metric based on text-to-image-to-text consistency, termed TIT, for evaluating long-prompt-generated images. The core concept of TIT is to quantify T2I alignment by directly comparing the consistency between the raw prompt and the LMM-produced description on the generated image, which includes an efficient score-based instantiation TIT-Score and a large-language-model (LLM) based instantiation TIT-Score-LLM. Extensive experiments demonstrate that our framework achieves superior alignment with human judgment compared to CLIP-score, LMM-score, etc., with TIT-Score-LLM attaining a 7.31% absolute improvement in pairwise accuracy over the strongest baseline. LPG-Bench and TIT methods together offer a deeper perspective to benchmark and foster the development of T2I models. All resources will be made publicly available.

Analysis:

以下是Juntong Wang等人撰写的论文“TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency”的摘要：

1. 主要问题或研究问题： 该论文旨在解决当前文本到图像（T2I）模型在处理长而详细的提示时，难以有效理解和遵循指令，导致生成图像与长提示之间一致性差的问题。现有的T2I对齐评估指标在长提示图像生成方面与人类偏好的一致性较差。

2. 关键创新或方法贡献： * LPG-Bench基准测试： 论文引入了一个名为LPG-Bench的综合基准测试，专门用于评估基于长提示的T2I生成。该基准包含200个精心制作的提示，平均长度超过250字，并从13个最先进的模型生成了2600张图像，进行了全面的人工排名标注。 * TIT评估框架： 论文提出了一种新颖的零样本评估指标，称为TIT（Text-to-Image-to-Text consistency），用于评估长提示生成的图像。TIT的核心概念是通过直接比较原始提示与大型多模态模型（LMM）对生成图像的描述之间的一致性来量化T2I对齐。 * TIT的两种实例化： TIT框架包括两种互补的实例化： * TIT-Score： 一种高效的基于嵌入的实例化，使用先进的文本嵌入模型（Qwen3-Embedding）将文本编码为特征向量，并通过计算余弦相似度来衡量一致性。 * TIT-Score-LLM： 一种基于大型语言模型（LLM）的实例化，利用前沿LLM（如Gemini 2.5 Pro）直接评估两个文本之间的语义相似度。

3. 主要结果及其意义： * 现有指标的局限性： LPG-Bench上的实验表明，现有最先进的T2I对齐评估指标（如CLIP-score、LMM-score等）在长提示图像生成方面与人类偏好的一致性较差。 * TIT的优越性： TIT框架，特别是TIT-Score-LLM，在与人类判断的对齐方面表现出卓越的性能，其配对准确率比最强的基线（LMM4LMM）绝对提高了7.31%，达到了66.51%。标准的TIT-Score也达到了接近最先进的性能，同时具有更高的效率和可访问性。 * 解耦设计的有效性： 消融研究证实了其解耦设计的有效性，即视觉感知与文本语义对齐的分离，这解决了端到端LMM评分固有的不稳定性问题。

4. 论文中提及的局限性： * LLM评分的稳定性问题： 论文指出，直接使用LMM进行端到端评分存在固有的缺陷，LMM缺乏稳定的、经过校准的“评分参考框架”，导致结果不一致且重现性差。 * VLM骨干选择的局限性： 尽管TIT框架表现出色，但分析显示VLM骨干模型的参数量并不一定保证更好的性能，例如Qwen2.5vl系列中，7B模型比32B模型取得了更高的准确率，这表明原始模型规模并非VLM有效性的唯一决定因素。 * 排名相关性指标的解释： SRCC和KRCC等排名相关性指标在LPG-Bench背景下应谨慎解释，因为待排名项目数量较少（13个）以及地面真实数据中存在大量平局可能会限制其稳定性。

5. 潜在的未来研究方向： * T2I模型的发展： LPG-Bench和TIT方法共同为T2I模型的基准测试和发展提供了更深入的视角，特别是在长文本理解和内容创作方面。 * VLM和嵌入模型的优化： 进一步研究VLM和文本嵌入模型的选择和优化，以在性能和计算资源之间取得更好的平衡，从而提高TIT框架的实用性和可访问性。 * 更复杂的文本理解： 论文强调了高级文本理解是许多T2I系统的关键瓶颈，未来的研究可以专注于开发能够更好地处理长、详细和叙事风格指令的模型。

Key Findings:

To address this challenge, we introduce LPG-Bench, a comprehensive benchmark for evaluating long-prompt-based text-to-image generation.
Using these prompts, we generate 2,600 images from 13 state-of-the-art models and further perform comprehensive human-ranked annotations.
Based on LPG-Bench, we observe that state-of-the-art T2I alignment evaluation metrics exhibit poor consistency with human preferences on long-prompt-based image generation.
To address the gap, we introduce a novel zero-shot metric based on text-to-image-to-text consistency, termed TIT, for evaluating long-prompt-generated images.

Links:

PDF
arXiv

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

Authors: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi

Published: 2025-10-03

Categories: cs.CV

Abstract:

Zero-shot captioners are recently proposed models that utilize common-space vision-language representations to caption images without relying on paired image-text data. To caption an image, they proceed by textually decoding a text-aligned image feature, but they limit their scope to global representations and whole-image captions. We present \frameworkName{}, a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision. Instead of relying on global image representations, we treat individual patches as atomic captioning units and aggregate them to describe arbitrary regions, from single patches to non-contiguous areas and entire images. We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework. Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks. Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .

Analysis:

好的，这是一篇关于“One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework”论文的全面摘要，用中文写成，并涵盖了您要求的所有要点。

论文摘要：One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

1. 主要问题或研究问题 当前零样本图像字幕生成器（zero-shot captioners）主要依赖全局图像表示来生成整个图像的字幕，这限制了它们对图像任意局部区域进行细粒度描述的能力，且需要区域级别的监督数据。本文旨在解决如何在零样本设置下，对图像的任意区域（从单个图像块到非连续区域乃至整个图像）生成高质量、细粒度的字幕，而无需区域级别的监督。

2. 关键创新或方法贡献 论文提出了一个名为 Patch-ioner 的统一零样本字幕生成框架，其核心创新在于： * 范式转变：从图像中心到图像块中心（patch-centric）的字幕生成。 传统的字幕方法以整个图像为处理单元，而Patch-ioner将单个图像块视为原子字幕生成单元。 * 任意区域的字幕生成： 通过聚合选定图像块的特征，该框架能够灵活地为任意形状和大小的区域（包括单个图像块、边界框、鼠标轨迹指定的区域、非连续区域以及整个图像）生成字幕，而无需区域级别的监督。 * 解耦的零样本解码器： 框架将图像编码和文本解码解耦。视觉语言模型（VLM）用于提取语言对齐的密集图像块嵌入，然后通过一个参数无关的图像块聚合机制生成区域表示，最后由一个仅在文本数据上训练的零样本文本解码器生成字幕。 * 模态间隙缓解策略： 论文分析并采用了两种模态间隙缓解策略：基于记忆的潜在投影（memory-based latent projection）和训练时注入噪声（noise injection），以使文本解码器能够处理视觉嵌入。 * 视觉骨干网络的重要性分析： 论文深入研究了不同预训练视觉语言骨干网络（特别是DINO系列模型）在生成有意义的密集视觉特征方面的作用，发现DINOv2-based模型在局部语义表示方面表现出色。 * 引入新的任务：轨迹字幕生成（Trace Captioning）。 为了展示框架的灵活性，论文引入了根据用户鼠标轨迹生成字幕的新任务。

3. 主要结果及其意义 * 卓越的性能： Patch-ioner在零样本密集字幕（dense captioning）、区域集字幕（region-set captioning）以及新引入的轨迹字幕生成任务上，均显著优于现有基线和最先进的竞争模型。 * 全局任务的竞争力： 在整个图像字幕生成任务上，Patch-ioner也表现出与最先进的零样本图像字幕生成器相当的竞争力。 * 骨干网络的关键作用： 实验证明，能够生成有意义、密集的视觉特征的骨干网络（如DINO）对于在多区域字幕任务中实现最先进的性能至关重要。 * 高效性： 该方法只需对视觉骨干网络进行一次前向传播即可提取整个图像的图像块特征，这些特征可以重复用于对多个区域进行字幕生成，提高了实际应用的效率。 * 统一性： 框架成功地弥合了局部和全局理解之间的鸿沟，为多粒度字幕任务提供了一个统一的零样本解决方案。

4. 论文中提及的局限性 * 与全监督方法的差距： 尽管在零样本设置下表现强劲，但模型性能仍落后于全监督、任务特定的方法。 * 上下文范围固定： 每个图像块的上下文范围由骨干网络决定，无法根据用户意图进行调整。 * 模态跳跃引入噪声： 模态间隙可能引入噪声，导致幻觉（hallucinations）。

5. 潜在的未来研究方向 * 弱监督的整合： 未来工作可以考虑整合弱监督，例如图像级别的字幕损失，以改进对比学习表示中的图像块级别语义。 * 优化图像块到文本的投影： 进一步优化图像块到文本的投影机制，以进一步减少零样本设置下的模态间隙。

总而言之，这篇论文通过提出Patch-ioner框架，成功地将零样本字幕生成的焦点从整个图像转移到图像块，从而实现了对图像任意区域进行细粒度描述的能力，并在多个区域级字幕任务中取得了显著进展，为该领域开辟了新的研究方向。

Key Findings:

We present \frameworkName{}, a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision.
We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework.
Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks.
Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation.

Links:

PDF
arXiv

Work Zones challenge VLM Trajectory Planning: Toward Mitigation and Robust Autonomous Driving

Authors: Yifan Liao, Zhen Sun, Xiaoyun Qiu, Zixiao Zhao, Wenbing Tang, Xinlei He, Xinhu Zheng, Tianwei Zhang, Xinyi Huang, Xingshuo Han

Published: 2025-10-03

Categories: cs.RO, cs.AI, cs.CV

Abstract:

Visual Language Models (VLMs), with powerful multimodal reasoning capabilities, are gradually integrated into autonomous driving by several automobile manufacturers to enhance planning capability in challenging environments. However, the trajectory planning capability of VLMs in work zones, which often include irregular layouts, temporary traffic control, and dynamically changing geometric structures, is still unexplored. To bridge this gap, we conduct the \textit{first} systematic study of VLMs for work zone trajectory planning, revealing that mainstream VLMs fail to generate correct trajectories in $68.0%$ of cases. To better understand these failures, we first identify candidate patterns via subgraph mining and clustering analysis, and then confirm the validity of $8$ common failure patterns through human verification. Building on these findings, we propose REACT-Drive, a trajectory planning framework that integrates VLMs with Retrieval-Augmented Generation (RAG). Specifically, REACT-Drive leverages VLMs to convert prior failure cases into constraint rules and executable trajectory planning code, while RAG retrieves similar patterns in new scenarios to guide trajectory generation. Experimental results on the ROADWork dataset show that REACT-Drive yields a reduction of around $3\times$ in average displacement error relative to VLM baselines under evaluation with Qwen2.5-VL. In addition, REACT-Drive yields the lowest inference time ( $0.58$ s) compared with other methods such as fine-tuning ( $17.90$ s). We further conduct experiments using a real vehicle in 15 work zone scenarios in the physical world, demonstrating the strong practicality of REACT-Drive.

Analysis:

好的，这是一篇关于Yifan Liao等人撰写的论文“Work Zones challenge VLM Trajectory Planning: Toward Mitigation and Robust Autonomous Driving”的全面摘要，用中文写成：

论文摘要：工作区对VLM轨迹规划的挑战：缓解与鲁棒自动驾驶

1. 主要问题或研究问题： 该论文旨在解决视觉语言模型（VLMs）在自动驾驶中，特别是在复杂且动态变化的工作区（work zones）进行轨迹规划时所面临的挑战。尽管VLMs在多模态推理方面表现出色，但其在工作区这种包含不规则布局、临时交通管制和动态几何结构的环境中的轨迹规划能力尚未得到充分探索。研究发现，主流VLMs在68.0%的情况下无法生成正确的轨迹。

2. 关键创新或方法论贡献： 为了解决上述问题，作者提出了一个名为REACT-Drive的轨迹规划框架，该框架将VLMs与检索增强生成（RAG）相结合。其主要创新点包括： * 首次系统性研究： 对VLMs在工作区轨迹规划中的表现进行了首次系统性研究，并揭示了其显著的失败率。 * 失败模式分析： 通过子图挖掘和聚类分析，识别并人工验证了8种常见失败模式，深入理解了VLM失败的根本原因。 * REACT-Drive框架： * 离线阶段： 将历史失败案例转化为约束规则和可执行的轨迹缓解代码，并通过自验证机制确保其可用性，构建了一个可搜索的失败案例缓解代码数据库。 * 在线阶段： 利用RAG从数据库中检索与新场景相似的失败模式，并执行相应的缓解代码来指导轨迹生成，确保轨迹符合安全要求和交通规则。 * 效率优化： REACT-Drive通过重用缓解代码，显著降低了推理时间。

3. 主要结果及其意义： * 显著降低误差： 在ROADWork数据集上的实验结果表明，REACT-Drive相较于使用Qwen2.5-VL评估的VLM基线，平均位移误差（ADE）降低了约3倍。 * 推理时间优势： REACT-Drive实现了最低的推理时间（0.58秒），远低于其他方法（如微调的17.90秒），这对于实时自动驾驶至关重要。 * 物理世界验证： 在15个真实世界工作区场景中进行的实车实验进一步证明了REACT-Drive的强大实用性和鲁棒性，碰撞率（CR）降至0.0。 * 模式覆盖的重要性： 实验表明，模式多样性在实现泛化方面起着关键作用，覆盖的失败模式越多，模型处理未知工作区案例的能力越强。

4. 论文中提及的局限性： * 有限的场景覆盖： 本研究未能系统性地涵盖所有长尾场景，例如极端天气或夜间驾驶下的工作区。 * 有限的数据集： 评估主要基于ROADWork数据集和作者收集的物理数据，未包含其他工作区数据集，这主要是由于可访问数据稀缺。 * 缺乏实车部署： REACT-Drive尚未在真实的自动驾驶车辆上部署，因为在工作区进行此类实验存在极高风险。

5. 潜在的未来研究方向： * 构建更大规模、更多样化的工作区场景数据集，以进一步提升模型的泛化能力。 * 探索将REACT-Drive部署到真实自动驾驶车辆上的安全可行方案，以弥合仿真与现实世界之间的差距。 * 继续研究VLMs在长尾和极端工作区场景下的轨迹规划能力。

总而言之，这篇论文首次系统性地揭示了VLMs在工作区轨迹规划中的不足，并通过提出REACT-Drive框架，有效地利用历史失败经验和RAG机制，显著提升了自动驾驶系统在复杂工作区环境中的鲁棒性和效率，为未来自动驾驶系统的安全性和可靠性提供了有价值的解决方案。

Key Findings:

Building on these findings, we propose REACT-Drive, a trajectory planning framework that integrates VLMs with Retrieval-Augmented Generation (RAG).
Specifically, REACT-Drive leverages VLMs to convert prior failure cases into constraint rules and executable trajectory planning code, while RAG retrieves similar patterns in new scenarios to guide trajectory generation.

Links:

PDF
arXiv

MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

Authors: Jingyuan Deng, Yujiu Yang

Published: 2025-10-03

Categories: cs.CV, cs.AI, cs.CL, cs.MM

Abstract:

Large vision-language models (LVLMs) have shown remarkable performance in visual-language understanding for downstream multimodal tasks. While their capabilities are improving, problems emerge simultaneously. Among those problems, the hallucinations have attracted much attention, which stands for the phenomenon where LVLMs generate contradictory content to their input visual and text contents. Many approaches have been proposed to deal with this issue, such as contrastive decoding and attention manipulation. However, contrastive decoding methods struggle in constructing appropriate contrastive samples, and attention manipulation methods are highly sensitive, lacking stability. In this work, we propose image head Masked Contrastive Decoding (MaskCD). Our approach utilizes the "image heads" in LVLMs, masking them to construct contrastive samples for contrastive decoding. We evaluated MaskCD on LLaVA-1.5-7b and Qwen-VL-7b, using various benchmarks such as CHAIR, POPE, AMBER and MME. The results demonstrate that MaskCD effectively alleviates the phenomenon of hallucinations and retains the general capabilities of LVLMs. Corresponding resources could be found at: https://github.com/Deng-Jingyuan/MaskCD .

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Jingyuan Deng和Yujiu Yang撰写的论文“MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding”的全面摘要。

MaskCD: 通过图像头掩蔽对比解码缓解LVLM幻觉现象

1. 主要问题或研究问题： 该论文旨在解决大型视觉-语言模型（LVLMs）中普遍存在的“幻觉”现象。幻觉指的是LVLMs生成与其输入视觉和文本内容相矛盾的信息，例如生成不存在的物体、错误描述属性或产生无意义的句子。现有的缓解方法，如对比解码（CD）和注意力操作，存在各自的局限性：CD方法难以构建合适的对比样本，而注意力操作方法则高度敏感且缺乏稳定性。

2. 关键创新或方法论贡献： 论文提出了图像头掩蔽对比解码（MaskCD）方法，其核心创新点在于： * 识别“图像头”： 通过分析LVLMs中注意力机制的内部工作原理，作者发现并识别出模型中那些倾向于对图像token分配高注意力的“图像头”。这些图像头被认为是处理视觉信息的关键部分。 * 构建对比样本： MaskCD利用这些识别出的“图像头”来构建“坏样本”。具体来说，在生成坏样本的推理阶段，通过掩蔽（将注意力输出设置为零）这些图像头，从而阻止坏样本访问有用的视觉信息。这种方法确保了减去的样本只包含需要抵消的无效信息。 * 结合对比解码： MaskCD将这种图像头掩蔽机制与对比解码相结合。通过从原始样本的输出logits中减去坏样本的输出logits，模型能够更精确地利用真正有用的视觉和文本信息，从而缓解幻觉。

3. 主要结果及其意义： MaskCD在多个基准测试（CHAIR、POPE、AMBER和MME）上对LLaVA-1.5-7b和Qwen-VL-7b模型进行了评估，取得了显著成果： * 有效缓解幻觉： MaskCD在CHAIR评估中显著降低了幻觉率（LLaVA-1.5-7b的CHAIR_s和CHAIR_i分别降低了19.12%和29.87%），优于VCD、M3ID和OPERA等现有方法。 * 保持通用能力： 在POPE和MME等评估通用能力的基准测试中，MaskCD表现出与OPERA相当或更优的性能，同时保留了LVLMs的通用能力，甚至在某些子集上有所提升。 * 稳定性与实用性： 消融实验表明，MaskCD对超参数（如阈值T和对比强度α）具有良好的稳定性，即使在较大值下也能有效缓解幻觉，证明了其作为CD方法的可靠性。 * 图像头选择的合理性： 实验证实，掩蔽“图像头”比随机掩蔽其他头更有效，这表明图像头确实包含了更关键的视觉信息。

4. 论文中提及的局限性： 论文也坦诚了MaskCD的几个局限性： * 推理前图像处理： MaskCD需要提前使用图像进行推理以获取图像头的掩码，这会占用一定的计算资源。 * 模型依赖性： 获取到的掩码仅适用于相同家族的LLM骨干网络。对于新的LLM基础模型，需要重新获取相应的掩码。

5. 潜在的未来研究方向： 基于上述局限性，论文鼓励未来的研究探索： * 动态掩码构建： 如何在模型操作过程中动态构建掩码，以摆脱对预先获取掩码的限制。 * 更广泛的适用性： 寻找能够跨不同LLM骨干网络通用的幻觉缓解策略。

总而言之，MaskCD通过创新性地识别并利用LVLM中的“图像头”来构建高质量的对比样本，有效缓解了模型的幻觉现象，同时保持了其通用能力。这项工作为LVLM幻觉缓解提供了一个稳定且高效的新视角。

Key Findings:

In this work, we propose image head Masked Contrastive Decoding (MaskCD).
Our approach utilizes the "image heads" in LVLMs, masking them to construct contrastive samples for contrastive decoding.

Links:

PDF
arXiv

AdaRD-key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding

Authors: Xian Zhang, Zexi Wu, Zinuo Li, Hongming Xu, Luqi Gong, Farid Boussaid, Naoufel Werghi, Mohammed Bennamoun

Published: 2025-10-03

Categories: cs.CV

Abstract:

Understanding long-form videos remains a significant challenge for vision--language models (VLMs) due to their extensive temporal length and high information density. Most current multimodal large language models (MLLMs) rely on uniform sampling, which often overlooks critical moments, leading to incorrect responses to queries. In parallel, many keyframe selection approaches impose rigid temporal spacing: once a frame is chosen, an exclusion window suppresses adjacent timestamps to reduce redundancy. While effective at limiting overlap, this strategy frequently misses short, fine-grained cues near important events. Other methods instead emphasize visual diversity but neglect query relevance. We propose AdaRD-Key, a training-free keyframe sampling module for query-driven long-form video understanding. AdaRD-Key maximizes a unified Relevance--Diversity Max-Volume (RD-MV) objective, combining a query-conditioned relevance score with a log-determinant diversity component to yield informative yet non-redundant frames. To handle broad queries with weak alignment to the video, AdaRD-Key employs a lightweight relevance-aware gating mechanism; when the relevance distribution indicates weak alignment, the method seamlessly shifts into a diversity-only mode, enhancing coverage without additional supervision. Our pipeline is training-free, computationally efficient (running in real time on a single GPU), and compatible with existing VLMs in a plug-and-play manner. Extensive experiments on LongVideoBench and Video-MME demonstrate state-of-the-art performance, particularly on long-form videos. Code available at https://github.com/Xian867/AdaRD-Key.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Xian Zhang等人撰写的论文“AdaRD-key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding”的全面摘要。

论文摘要：AdaRD-Key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding

1. 主要问题或研究问题： 该论文旨在解决长视频理解中的关键挑战。现有的视觉-语言模型（VLMs）和多模态大语言模型（MLLMs）在处理长视频时，通常采用均匀采样或基于固定时间间隔的关键帧选择方法。这些方法往往会忽略视频中的关键时刻，导致对查询的响应不准确，或者在追求视觉多样性时忽视了查询相关性。具体来说，均匀采样可能错过与查询相关的重要内容，而基于固定时间间隔的方法虽然减少了冗余，但可能遗漏短时、细粒度的重要事件。因此，核心问题是如何在长视频中高效、准确地选择既与查询高度相关又具有视觉多样性的关键帧，以提升视频理解模型的性能。

2. 关键创新或方法论贡献： AdaRD-Key提出了一个无需训练、查询驱动的关键帧采样模块，其主要创新点包括：

联合相关性-多样性最大化体积（RD-MV）目标： AdaRD-Key引入了RD-MV目标函数，这是首个联合优化查询相关性和嵌入空间多样性的关键帧采样方法。它结合了查询条件下的相关性分数和对数行列式多样性分量，以选择既信息丰富又非冗余的帧。这种方法通过最大化所选帧特征向量的Gram矩阵的对数行列式来几何地表示多样性，确保了所选帧在语义上具有区分度。
变异性-预算缩放（VB-Scale）： 为了适应不同视频长度和分数分布的查询特性，AdaRD-Key引入了VB-Scale机制。该机制根据相关性分数的变异性（“峰值”或“平坦”）和帧预算比（即每选择槽位的候选帧数量）动态调整相关性与多样性之间的权衡参数λ。当相关性分布较尖锐时，模型更侧重相关性；当分布较平坦或分散时，多样性变得更重要。
轻量级相关性感知门控机制（Lightweight Relevance-Aware Gating）： 为处理与视频对齐较弱的宽泛查询，AdaRD-Key采用了一个轻量级的相关性感知门控机制。当相关性分布表明与视频对齐较弱时（例如，最大相关性分数低于阈值），该方法会无缝切换到仅多样性模式，从而在无需额外监督的情况下增强覆盖范围，避免放大噪声。
即插即用部署与高效性： 整个流程无需训练，计算效率高（在单个GPU上实时运行），并且可以即插即用地兼容现有VLMs，无需微调或架构修改，便于跨数据集、领域和任务的无缝集成。

3. 主要结果及其意义： AdaRD-Key在LongVideoBench和Video-MME等长视频理解基准测试上取得了最先进的性能，尤其在长视频上表现突出。

LongVideoBench上的性能提升： 在32帧预算下，AdaRD-Key将Qwen2-VL的整体准确率提升至60.8%，比M-LL Selector高出3.8个百分点，比AKS高出0.3个百分点。在64帧预算下，AdaRD-Key的准确率达到62.9%，比MAXINFO高出1.4个百分点，比AKS高出0.2个百分点。在3-10分钟视频类别中，AdaRD-Key比AKS提升了1.3%。
Video-MME上的鲁棒增益： 在32帧预算下，AdaRD-Key将Qwen2-VL的整体分数提升至60.7%，比基线高3.1个百分点，比Q-Frame高2.4个百分点，比AKS高0.8个百分点。在长视频（30-60分钟）中，准确率提升至51.9%，比基线高4.5个百分点，比Q-Frame高3.6个百分点，比AKS高0.8个百分点。
视频字幕任务的改进： 在VCapsBench上，AdaRD-Key也显著提升了视频字幕的性能。在4帧采样下，Qwen-2.5VL结合AdaRD-Key后，准确率（AR）从44.86提升至52.41（+7.55），不一致率（IR）降低9.51，覆盖率（CR）提升2.25。
消融研究： 逐步添加相关性、多样性、轻量级相关性感知门控和变异性-预算缩放模块，均带来了性能的持续提升，尤其在长视频上效果更显著。这表明AdaRD-Key的各个组件都对提升性能做出了贡献。

这些结果表明，AdaRD-Key能够有效地从长视频中提取出与查询相关且具有多样性的关键信息，显著提升了下游VLM在视频问答和字幕任务中的性能。

4. 论文中提及的局限性： 论文中并未明确指出AdaRD-Key方法的具体局限性。然而，从其设计和上下文可以推断出一些潜在的方面：

BLIP-2特征的依赖性： AdaRD-Key依赖于BLIP-2提取帧级语义特征和查询相关性分数。如果底层VLM（如BLIP-2）的特征提取能力有限或存在偏差，可能会影响AdaRD-Key选择关键帧的质量。
超参数敏感性： 尽管VB-Scale机制旨在自适应地调整多样性权重λ，但Amin、Amax、α和Pcap等超参数的设置仍可能影响性能，尤其是在特定或极端视频场景下。
“弱对齐”的定义： 轻量级相关性感知门控机制依赖于“弱对齐”的判断（例如，基于最大相关性分数阈值τ）。这个阈值的设置可能需要根据具体应用进行调整，不当的设置可能导致在某些情况下错误地切换到仅多样性模式。
计算成本： 尽管论文强调其计算效率高（实时运行在单个GPU上），但对于超长视频或需要处理大量视频的场景，帧特征的缓存和Gram矩阵的更新仍然可能带来一定的内存和计算开销。

5. 潜在的未来研究方向： 基于论文的贡献和潜在局限性，未来研究可以探索以下方向：

更先进的特征提取器： 探索使用更先进的、针对长视频优化的视觉-语言模型作为特征提取器，以获取更丰富、更鲁棒的帧级语义表示，从而进一步提升关键帧选择的准确性。
自适应超参数优化： 开发更智能的机制，能够根据视频内容、查询类型或特定任务，自动优化VB-Scale中的超参数，减少对人工经验设置的依赖。
多模态融合： 尽管论文主要关注视觉帧，但长视频通常包含音频、文本（如字幕）等多模态信息。未来的工作可以探索如何将AdaRD-Key扩展到多模态关键信息采样，以更全面地理解视频内容。
实时性与边缘部署： 进一步优化算法的计算效率和内存占用，使其能够更好地适应资源受限的边缘设备或对实时性要求更高的应用场景。
用户反馈集成： 探索将用户反馈（例如，用户对所选关键帧的满意度）集成到关键帧选择过程中，以实现更个性化和用户驱动的视频理解。
更复杂的查询类型： 针对更复杂、更抽象的查询类型，例如涉及推理、预测或情感分析的查询，进一步提升AdaRD-Key在这些场景下的性能。

Key Findings:

We propose AdaRD-Key, a training-free keyframe sampling module for query-driven long-form video understanding.
Extensive experiments on LongVideoBench and Video-MME demonstrate state-of-the-art performance, particularly on long-form videos.

Links:

PDF
arXiv

MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context

Authors: Junyu Shi, Yong Sun, Zhiyuan Zhang, Lijiang Liu, Zhengjie Zhang, Yuxin He, Qiang Nie

Published: 2025-10-03

Categories: cs.CV

Abstract:

Existing text-driven motion generation methods often treat synthesis as a bidirectional mapping between language and motion, but remain limited in capturing the causal logic of action execution and the human intentions that drive behavior. The absence of visual grounding further restricts precision and personalization, as language alone cannot specify fine-grained spatiotemporal details. We propose MoGIC, a unified framework that integrates intention modeling and visual priors into multimodal motion synthesis. By jointly optimizing multimodal-conditioned motion generation and intention prediction, MoGIC uncovers latent human goals, leverages visual priors to enhance generation, and exhibits versatile multimodal generative capability. We further introduce a mixture-of-attention mechanism with adaptive scope to enable effective local alignment between conditional tokens and motion subsequences. To support this paradigm, we curate Mo440H, a 440-hour benchmark from 21 high-quality motion datasets. Experiments show that after finetuning, MoGIC reduces FID by 38.6\% on HumanML3D and 34.6\% on Mo440H, surpasses LLM-based methods in motion captioning with a lightweight text head, and further enables intention prediction and vision-conditioned generation, advancing controllable motion synthesis and intention understanding. The code is available at https://github.com/JunyuShi02/MoGIC

Analysis:

作为计算机视觉和机器学习领域的专家，我对Junyu Shi等人撰写的论文“MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context”进行了全面分析。以下是该论文的摘要：

论文摘要：MoGIC：通过意图理解和视觉上下文提升运动生成

1. 主要问题或研究问题： 现有的文本驱动运动生成方法通常将合成视为语言和运动之间的双向映射，但未能有效捕捉动作执行的因果逻辑和驱动行为的人类意图。此外，缺乏视觉基础限制了生成的精确性和个性化，因为仅凭语言难以指定细粒度的时空细节。这导致生成的运动缺乏真实感、可控性差，并且难以泛化到更广泛的任务。

2. 关键创新或方法论贡献： * MoGIC统一框架： 论文提出了MoGIC，一个统一的框架，将意图建模和视觉先验整合到多模态运动合成中。通过联合优化多模态条件运动生成和意图预测，MoGIC能够揭示潜在的人类目标，利用视觉先验增强生成，并展现多功能的多模态生成能力。 * 意图预测头（IPH）与运动生成头（MGH）解耦： MoGIC通过解耦的生成头（意图预测头输出离散的意图描述，运动生成头生成连续轨迹）来明确建模人类意图，避免了语义混淆。 * 混合注意力机制（Mixture-of-Attention）： 引入了具有自适应范围的混合注意力机制，以实现条件令牌和运动子序列之间有效的局部对齐，从而处理部分对应关系和时间错位问题。 * Mo440H基准数据集： 论文策划并自动标注了Mo440H，一个包含440小时高质量运动数据（来自21个数据集）的大规模基准，涵盖单人活动、人机交互和人-物交互，支持三模态学习。

3. 主要结果及其意义： * 显著提升运动生成质量： 在HumanML3D和Mo440H数据集上，经过微调后，MoGIC的FID（Fréchet Inception Distance）分别降低了38.6%和34.6%，表明其生成的运动更具真实感和多样性。 * 超越LLM基线： 在运动描述任务中，MoGIC凭借轻量级文本头超越了基于LLM的方法，证明了其在参数较少的情况下仍能保持竞争力。 * 实现意图预测和视觉条件生成： MoGIC不仅能生成运动，还能预测潜在意图，并支持视觉条件下的运动生成（如图像到运动合成、视觉条件运动补全），极大地提升了运动合成的可控性和意图理解能力。 * 混合注意力机制的有效性： 消融实验表明，混合注意力机制显著提升了检索性能，并使模型能够生成更精确的局部运动响应。

4. 论文中提及的局限性： 论文中没有明确提及MoGIC模型的具体局限性。然而，从其强调意图理解和视觉上下文来解决现有方法的不足（如缺乏因果逻辑、精确性、个性化）来看，可以推断出这些是现有方法的普遍局限，而MoGIC旨在克服它们。

5. 潜在的未来研究方向： * 更精确、自适应和意图感知的运动合成： MoGIC为未来研究奠定了基础，可以进一步探索如何实现更精确、自适应和意图感知的运动合成。 * 扩展到更复杂的交互和场景： 鉴于Mo440H数据集涵盖了人机交互和人-物交互，未来工作可以进一步探索MoGIC在更复杂、多主体、多对象场景中的应用。 * 实时推理的优化： 尽管MoGIC在少量采样步数下仍能保持竞争力，但进一步优化实时推理速度以满足更严格的应用需求仍是一个方向。 * 更深入的因果结构建模： 尽管MoGIC通过意图预测捕捉了部分因果逻辑，但未来可以探索更深层次的因果结构建模，以更好地理解和预测人类行为。

总而言之，MoGIC通过整合意图建模和视觉先验，显著推动了多模态运动生成领域的发展，为实现更智能、更可控的人类运动合成和理解提供了新的视角和强大的工具。

Key Findings:

We propose MoGIC, a unified framework that integrates intention modeling and visual priors into multimodal motion synthesis.

Links:

PDF
arXiv

Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft

Authors: Junchao Huang, Xinting Hu, Boyao Han, Shaoshuai Shi, Zhuotao Tian, Tianyu He, Li Jiang

Published: 2025-10-03

Categories: cs.CV

Abstract:

Autoregressive video diffusion models have proved effective for world modeling and interactive scene generation, with Minecraft gameplay as a representative application. To faithfully simulate play, a model must generate natural content while exploring new scenes and preserve spatial consistency when revisiting explored areas. Under limited computation budgets, it must compress and exploit historical cues within a finite context window, which exposes a trade-off: Temporal-only memory lacks long-term spatial consistency, whereas adding spatial memory strengthens consistency but may degrade new scene generation quality when the model over-relies on insufficient spatial context. We present Memory Forcing, a learning framework that pairs training protocols with a geometry-indexed spatial memory. Hybrid Training exposes distinct gameplay regimes, guiding the model to rely on temporal memory during exploration and incorporate spatial memory for revisits. Chained Forward Training extends autoregressive training with model rollouts, where chained predictions create larger pose variations and encourage reliance on spatial memory for maintaining consistency. Point-to-Frame Retrieval efficiently retrieves history by mapping currently visible points to their source frames, while Incremental 3D Reconstruction maintains and updates an explicit 3D cache. Extensive experiments demonstrate that Memory Forcing achieves superior long-term spatial consistency and generative quality across diverse environments, while maintaining computational efficiency for extended sequences.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Junchao Huang等人撰写的论文“Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft”的全面摘要。

论文摘要：“Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft”

1. 主要问题或研究问题： 该论文旨在解决自回归视频扩散模型在Minecraft等开放世界环境中进行场景生成时面临的核心挑战。具体来说，模型需要： * 在探索新场景时生成自然内容。 * 在重新访问已探索区域时保持空间一致性。 * 在有限的计算预算下，有效压缩和利用历史信息。

现有方法存在一个权衡：仅依赖时间记忆的模型缺乏长期空间一致性，而过度依赖空间记忆（在空间上下文不足时）可能损害新场景的生成质量。因此，核心问题是如何在探索灵活性和重访一致性之间取得平衡，并有效管理有限上下文窗口内的时空记忆。

2. 关键创新或方法论贡献： 论文提出了“Memory Forcing”框架，通过以下创新解决了上述问题：

几何索引空间记忆（Geometry-indexed Spatial Memory）： 引入了一种新的空间记忆机制，通过流式3D重建维护显式3D缓存。它将当前可见点映射回其源帧，从而实现高效的“点到帧检索（Point-to-Frame Retrieval）”，以选择紧凑且与姿态相关的历史视图。这种方法比基于外观的检索更鲁棒，并且检索复杂度与可见空间覆盖范围而非序列长度成比例，从而提高了计算效率和存储效率。
混合训练（Hybrid Training）： 设计了一种训练协议，通过模拟不同的游戏玩法模式（探索和重访），指导模型在探索新场景时依赖时间记忆，在重访时结合空间记忆以保持一致性。
链式前向训练（Chained Forward Training）： 扩展了自回归训练，引入了模型推演。在这种训练中，模型逐步用自己的预测替换真实的时间上下文，从而产生更大的姿态变化，鼓励模型依赖空间记忆来维持一致性，并减少自回归推理中常见的累积误差。
记忆增强架构： 在Diffusion Transformer (DiT)骨干中集成了空间记忆提取和记忆交叉注意力模块，利用几何索引的空间记忆提供长期空间上下文。

3. 主要结果及其意义： 通过在Minecraft基准测试上进行的大量实验，Memory Forcing展示了卓越的性能：

长期空间一致性： 在重新访问已探索区域时，模型表现出优越的长期空间一致性和场景连贯性，显著优于仅依赖时间记忆和现有空间记忆基线。
生成质量： 在新环境中，模型在生成性能方面也优于所有基线，生成内容更自然、更具响应性，并能更好地泛化到未见过的地形。
计算效率： 几何索引空间记忆在检索速度上比WorldMem快7.3倍，同时减少了98.2%的内存存储，证明了其在处理扩展序列时的计算效率。
消融研究： 证明了混合训练和链式前向训练策略以及3D几何检索机制对模型性能的贡献。

这些结果表明，Memory Forcing成功解决了生成质量和长期记忆一致性之间的核心权衡，并在保持计算效率的同时，在多样化环境中实现了卓越的性能。

4. 论文中提及的局限性： 论文也指出了当前方法的局限性：

领域特异性： 当前实现主要在Minecraft游戏场景中验证，可能无法直接泛化到其他环境，需要进行领域特定的适应。
固定分辨率： 模型以固定的384 × 224像素分辨率运行，这可能限制了在需要更高保真度的应用中的视觉细节。

5. 潜在的未来研究方向： 作者提出了以下未来研究方向：

扩展到多样化游戏环境和真实世界场景： 将框架扩展到更广泛的交互式场景和更高分辨率。
领域适应技术： 探索保留核心记忆机制同时适应不同视觉特征的领域适应技术。
集成高级加速技术： 结合先进的加速技术，进一步提高在多样化交互场景中的效率和性能。

总而言之，这篇论文为自回归视频生成模型在复杂开放世界环境中的时空记忆管理提供了一个新颖且高效的解决方案，通过创新的训练协议和几何索引空间记忆，成功平衡了探索灵活性和重访一致性，为未来的世界模型研究奠定了基础。

Key Findings:

To faithfully simulate play, a model must generate natural content while exploring new scenes and preserve spatial consistency when revisiting explored areas.
Under limited computation budgets, it must compress and exploit historical cues within a finite context window, which exposes a trade-off: Temporal-only memory lacks long-term spatial consistency, whereas adding spatial memory strengthens consistency but may degrade new scene generation quality when the model over-relies on insufficient spatial context.
We present Memory Forcing, a learning framework that pairs training protocols with a geometry-indexed spatial memory.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-10-06

Executive Summary

Table of Contents

Papers

论文《Towards Scalable and Consistent 3D Editing》摘要

论文摘要：One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

MaskCD: 通过图像头掩蔽对比解码缓解LVLM幻觉现象

论文摘要：AdaRD-Key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding

论文摘要：“Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft”