Arxiv Computer Vision Papers - 2025-12-01

Executive Summary

好的，作为一名专注于计算机视觉和机器学习的研究助理，我将为您提供一份关于近期 Arxiv 计算机视觉领域论文的简明执行摘要。

执行摘要：2025年11月28日 Arxiv 计算机视觉论文精选

主要主题与趋势：

本期 Arxiv 论文集主要聚焦于多模态理解与生成，特别是视频相关的任务，以及模型的可解释性与可控性。我们观察到以下几个关键趋势：

视频理解与推理的深化： 多篇论文致力于提升模型对视频内容的理解能力，包括细粒度的推理、交互式操作以及与语言模型的结合。
生成模型的进步与控制： 在图像和视频生成领域，研究人员在提升生成质量、实现精细化编辑以及引入新的生成范式（如自回归生成）方面取得了进展。
模型的可解释性与优化： 关注如何理解和优化多模态模型的内部工作机制，以提高其性能和可靠性。
大规模数据与模拟的应用： 利用大规模数据集和逼真的模拟环境来训练更强大的模型，尤其是在游戏和自动驾驶等领域。

亮点与创新：

Video-R2 和 Video-CoM 均在视频多模态理解方面展现了创新，前者强调一致性和接地气的推理，后者则聚焦于交互式视频推理。这表明视频理解正从静态分析走向动态、交互式的认知。
Visual Generation Tuning 和 DEAL-300K 代表了在图像生成和编辑领域的显著进步。前者通过“视觉生成调优”来提升生成质量，后者则在扩散模型编辑方面取得了突破，并引入了大规模数据集。
Hunyuan-GameCraft-2 和 SimScale 突显了在指令遵循和大规模模拟方面的应用价值，分别在游戏世界模型和自动驾驶领域展现了强大的潜力。
Markovian Scale Prediction 提出了视觉自回归生成的新范式，预示着在生成模型领域可能出现新的发展方向。

新兴研究方向与技术：

交互式视频推理： 模型不再仅仅是被动地理解视频，而是能够与视频内容进行交互，进行更深层次的推理。
基于注意力机制的可解释性： 利用注意力机制来理解多模态模型决策过程，为模型优化提供指导。
量化自编码器在多模态任务中的应用： VQRAE 探索了量化自编码器在多模态理解、生成和重建中的潜力。
开放世界运动迁移： DisMo 提出的解耦运动表示为在不同场景下进行更灵活的运动迁移提供了可能。
频率域的提示工程： DEAL-300K 中提出的“频率提示”为扩散模型编辑提供了新的思路。

建议阅读全文的论文：

为了快速了解当前研究热点和潜在突破，建议重点阅读以下论文：

Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models (深入理解视频多模态推理的最新进展)
Video-CoM: Interactive Video Reasoning via Chain of Manipulations (探索视频交互式推理的创新方法)
DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline (了解扩散模型编辑的最新技术和大规模数据集的应用)
Markovian Scale Prediction: A New Era of Visual Autoregressive Generation (关注视觉生成领域的新范式和潜在的未来方向)
Optimizing Multimodal Language Models through Attention-based Interpretability (对于理解和优化多模态模型至关重要)

这份摘要旨在为忙碌的研究人员提供一个快速了解 Arxiv 计算机视觉领域最新动态的窗口。希望它能帮助您高效地把握该领域的最新发展。

Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models
Video-CoM: Interactive Video Reasoning via Chain of Manipulations
Visual Generation Tuning
Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
DisMo: Disentangled Motion Representations for Open-World Motion Transfer
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline
Optimizing Multimodal Language Models through Attention-based Interpretability
SimScale: Learning to Drive via Real-World Simulation at Scale
Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Papers

Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models

Authors: Muhammad Maaz, Hanoona Rasheed, Fahad Shahbaz Khan, Salman Khan

Published: 2025-11-28

Categories: cs.CV

Abstract:

Reasoning over dynamic visual content remains a central challenge for multimodal large language models. Recent thinking models generate explicit reasoning traces for interpretability; however, their reasoning often appears convincing while being logically inconsistent or weakly grounded in visual evidence. We identify and formalize these issues through two diagnostic metrics: Think Answer Consistency (TAC), which measures the alignment between reasoning and answers, and Video Attention Score (VAS), which captures the extent to which reasoning depends on visual versus textual cues. Analysis across 11 video reasoning benchmarks shows that current models rely heavily on linguistic priors rather than visual content. To address this, we propose a reinforcement learning approach that enhances both temporal precision and reasoning consistency. Our approach combines timestamp aware supervised fine tuning with Group Relative Policy Optimization (GRPO) guided by a novel Temporal Alignment Reward (TAR). This dual step post training stage encourages temporally aligned and causally coherent video reasoning. The resulting model, Video R2, achieves consistently higher TAC, VAS, and accuracy across multiple benchmarks, demonstrating that improvements in temporal alignment and reasoning coherence lead to more accurate and trustworthy video understanding. Our code, dataset, and model will be open sourced.

Analysis:

好的，作为一名计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models

1. 论文的主要贡献（2-3句话）：

这篇论文指出了当前多模态大语言模型在视频推理中存在逻辑不一致和视觉证据不足的问题。为了解决这些问题，作者提出了一个基于强化学习的方法，通过引入时间对齐奖励（TAR）来增强模型的时间精度和推理一致性，从而提升视频理解的准确性和可信度。

2. 关键创新或方法论：

诊断指标的提出与量化： 作者首先识别并形式化了当前模型在视频推理中的两个核心问题：
- Think Answer Consistency (TAC)： 衡量推理过程与最终答案之间的一致性。
- Video Attention Score (VAS)： 衡量推理过程对视觉线索和文本线索的依赖程度。
- 通过这两个指标，作者揭示了现有模型过度依赖语言先验而非视觉内容的问题。
基于强化学习的改进方法： 核心创新在于其提出的后训练（post-training）阶段，该阶段结合了：
- 时间戳感知监督微调（timestamp aware supervised fine tuning）： 确保模型在学习过程中能够理解和利用视频的时间信息。
- Group Relative Policy Optimization (GRPO)： 一种强化学习策略优化方法，用于指导模型的学习。
- 时间对齐奖励（Temporal Alignment Reward - TAR）： 这是最关键的新颖奖励函数，旨在鼓励模型在推理过程中生成与视频时间轴精确对齐且因果连贯的解释。

3. 对该领域的潜在影响：

提升多模态模型的可信度： 通过解决逻辑不一致和视觉接地不足的问题，Video-R2有望使多模态模型生成的推理过程更加可靠，减少“一本正经地胡说八道”的情况。
推动视频理解的深入发展： 论文的发现表明，仅仅依赖文本信息不足以进行有效的视频推理。Video-R2的成功将激励研究者更加关注如何让模型真正“看懂”视频内容，并将其与语言推理相结合。
为模型评估提供新视角： TAC和VAS这两个诊断指标为评估多模态模型在视频推理任务上的表现提供了更细致、更具洞察力的工具，有助于未来研究的进展。
促进可解释性研究： 尽管摘要提到“recent thinking models generate explicit reasoning traces for interpretability”，但其推理过程往往不可靠。Video-R2通过提升推理的一致性和视觉接地，使得模型的可解释性更具价值。

4. 可能受益的相关领域或应用：

视频问答（Video Question Answering - VQA）： 提高模型回答关于视频内容问题的准确性和推理过程的可靠性。
视频摘要（Video Summarization）： 生成更具逻辑性和视觉依据的视频摘要。
视频内容理解与检索： 提升模型对视频内容的深层理解能力，从而改进视频检索的精度。
自动驾驶与机器人： 在需要理解动态环境和进行实时决策的应用中，模型能够更准确地推理视频信息。
医疗影像分析： 对于需要理解时间序列变化的医学影像，该方法可能有助于生成更可靠的诊断推理。
教育与培训： 用于生成教学视频的解释性内容，确保解释的准确性和与视频内容的对应。

5. 从摘要中可以推断出的局限性：

计算成本： 强化学习方法，尤其是涉及策略优化和奖励设计的，通常计算成本较高，训练时间可能较长。
泛化能力： 虽然在11个视频推理基准上取得了成功，但其在更广泛、更复杂或领域外的数据集上的泛化能力仍需验证。
奖励函数的设计： TAR的有效性高度依赖于其设计是否能够全面捕捉“时间对齐”和“因果连贯”的精髓。如果奖励函数存在偏差，可能会导致模型学习到次优策略。
对“视觉证据”的定义： 摘要中提到“weakly grounded in visual evidence”，但“grounded”的具体程度和标准可能需要进一步的定义和实验验证。模型是否真正理解了视觉内容，还是仅仅学会了在特定视觉模式下激活某些语言模式，仍需深入研究。
模型规模与效率： 摘要未提及模型具体的规模和推理效率，这对于实际部署至关重要。

总结来说，这篇论文的亮点在于其对当前多模态视频推理模型核心痛点的精准诊断，以及通过创新的强化学习框架（特别是TAR奖励）来解决这些问题。它不仅提出了新的评估指标，更重要的是提供了一种能够显著提升模型推理一致性和视觉接地能力的方法，这对于构建更可靠、更具可信度的AI系统具有重要意义。

Key Findings:

To address this, we propose a reinforcement learning approach that enhances both temporal precision and reasoning consistency.
Our approach combines timestamp aware supervised fine tuning with Group Relative Policy Optimization (GRPO) guided by a novel Temporal Alignment Reward (TAR).

Links:

PDF
arXiv

Video-CoM: Interactive Video Reasoning via Chain of Manipulations

Authors: Hanoona Rasheed, Mohammed Zumri, Muhammad Maaz, Ming-Hsuan Yang, Fahad Shahbaz Khan, Salman Khan

Published: 2025-11-28

Categories: cs.CV

Abstract:

Recent multimodal large language models (MLLMs) have advanced video understanding, yet most still "think about videos" ie once a video is encoded, reasoning unfolds entirely in text, treating visual input as a static context. This passive paradigm creates a semantic bottleneck: models cannot rewatch, refocus, or verify evidence, leading to shallow visual reasoning on tasks requiring fine grained spatio temporal understanding. In this work, we introduce Interactive Video Reasoning, a new paradigm that transforms video into an active cognitive workspace, enabling models to "think with videos". Our model, Video CoM, reasons through a Chain of Manipulations (CoM), performing iterative visual actions to gather and refine evidence. To support this behavior, we construct Video CoM Instruct, an 18K instruction tuning dataset curated for multi step manipulation reasoning. Beyond supervised learning, we further optimize the manipulation policy via reinforcement learning with reasoning aware Group Relative Policy Optimization (GRPO). Unlike prior work that relies solely on sparse answer rewards, our method introduces step level reasoning rewards, guiding the model toward grounded and consistent reasoning. Video CoM achieves strong results across nine video reasoning benchmarks, improving average performance by 3.6 percent over recent state of the art models, while training on only 25K SFT and 3K GRPO video samples, significantly fewer than comparable large scale models. Ablation studies demonstrate that reasoning aware rewards improve both accuracy and interpretability. Code: https://github.com/mbzuai-oryx/Video-CoM

Analysis:

好的，这是对论文“Video-CoM: Interactive Video Reasoning via Chain of Manipulations”的全面中文摘要：

论文题目： Video-CoM: Interactive Video Reasoning via Chain of Manipulations

作者： Hanoona Rasheed, Mohammed Zumri, Muhammad Maaz, Ming-Hsuan Yang, Fahad Shahbaz Khan, Salman Khan

摘要：

1. 研究问题/核心挑战： 当前的多模态大型语言模型（MLLMs）在视频理解方面取得了显著进展，但它们普遍采用“思考视频”（think about videos）的范式。这意味着模型在编码视频后，推理过程完全在文本空间进行，将视频视觉输入视为静态上下文。这种被动模式导致了语义瓶颈，模型无法重新观看、重新聚焦或验证证据，从而在需要精细时空理解的任务上表现出浅层视觉推理能力。

2. 关键创新与方法贡献： 为了解决上述问题，本文提出了交互式视频推理（Interactive Video Reasoning）的新范式，将视频转化为一个主动的认知工作空间，使模型能够“用视频思考”（think with videos）。其核心创新包括：

链式操作（Chain of Manipulations, CoM）机制： Video-CoM 模型通过一系列迭代的视觉操作（原子操作包括 find-segment、find-frame 和 spatial-zoom）来主动与视频交互，以收集和精炼证据。这种操作序列形成了一个可解释的推理轨迹，每个步骤都以局部证据为基础。
Video-CoM-Instruct 数据集： 构建了一个包含 18K 样本的指令微调数据集，专门用于多步操作推理。该数据集精心设计，旨在引导模型使用操作来解决问题，并暴露了多样化的推理轨迹。
推理感知组相对策略优化（Reasoning-Aware Group Relative Policy Optimization, RA-GRPO）： 引入了一种新的强化学习目标，通过步级推理奖励（step-level reasoning rewards）来优化操作策略。与仅依赖稀疏答案奖励的传统方法不同，RA-GRPO 评估中间操作的正确性，从而引导模型进行更具根源性和一致性的推理。

3. 主要结果与意义： Video-CoM 在九个视频推理基准测试中取得了显著的成果，平均性能比最近的 SOTA 模型提高了 3.6%。尤为重要的是，该模型仅使用了 25K SFT 和 3K GRPO 视频样本进行训练，远少于同类大型模型。消融研究表明，推理感知奖励不仅提高了模型的准确性，还增强了其可解释性。这证明了交互式视频推理范式和 RA-GRPO 目标在提升模型理解和推理视频内容方面的有效性。

4. 提及的局限性： 论文中提到了以下局限性：

视频中的空间定位： 在视频中准确地进行空间定位仍然是一个挑战，尤其是在需要识别文本或数字等精细细节时。这需要大规模、高质量的标注数据，而这类数据目前相对稀缺。
视频源的局限性： 构建针对操作推理的数据集依赖于具有丰富时空变化的视频内容。具有有限场景多样性的视频（如单视角烹饪视频）可能难以生成需要迭代视觉交互的问题。

5. 潜在的未来研究方向： 虽然论文没有明确列出未来研究方向，但基于其提出的方法和发现，可以推断出以下潜在方向：

提升空间定位的鲁棒性： 进一步研究更有效的空间定位技术，以应对视频中复杂和精细的空间信息。
扩大数据集规模和多样性： 收集更多具有丰富时空变化和操作相关性的视频，以构建更大、更多样化的数据集，支持更广泛的交互式推理任务。
探索更复杂的推理轨迹： 研究更复杂的链式操作组合，以解决更具挑战性的多模态推理问题。
模型效率的进一步优化： 尽管 Video-CoM 在效率上表现良好，但进一步优化模型以实现更快的推理速度和更低的计算成本仍然是重要的研究方向。
跨模态交互的深化： 将交互式推理范式扩展到更多模态（如音频、文本），实现更全面的多模态理解。

总结： “Video-CoM: Interactive Video Reasoning via Chain of Manipulations” 论文提出了一种创新的交互式视频推理范式，通过链式操作和推理感知强化学习，显著提升了 MLLMs 在视频理解任务中的精细时空推理能力。该方法克服了传统被动视频推理的局限性，实现了更具根源性、更可解释的推理过程，并在多个基准测试中取得了优异的成绩，同时显著减少了训练数据需求。该研究为未来的视频理解和多模态推理模型提供了新的思路和方向。

Key Findings:

In this work, we introduce Interactive Video Reasoning, a new paradigm that transforms video into an active cognitive workspace, enabling models to "think with videos".
Unlike prior work that relies solely on sparse answer rewards, our method introduces step level reasoning rewards, guiding the model toward grounded and consistent reasoning.

Links:

PDF
arXiv

Visual Generation Tuning

Authors: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang

Published: 2025-11-28

Categories: cs.CV

Abstract:

Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.

Analysis:

好的，这是对论文“Visual Generation Tuning”的全面摘要：

论文题目： Visual Generation Tuning

作者： Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang

摘要：

1. 研究问题/核心挑战： 该论文的核心研究问题在于，大型视觉语言模型（VLMs）在多模态理解任务上表现出色，其预训练获得的视觉表征是否蕴含了生成图像的潜力？现有方法通常依赖于为扩散模型设计的像素级 VAEs，这些 VAEs 与自回归建模在连续空间中的对齐存在固有的不匹配问题，导致训练不稳定且效率低下。

2. 主要创新与方法贡献： 作者提出了 VGT (Visual Generation Tuning) 这一新范式，旨在激发预训练 VLM 中固有的视觉生成能力。其核心创新点包括：

VGT-AE（Visual Generation Tuning-AutoEncoder）： 这是一个关键的组件，它通过将预训练 VLM 的语义编码器与轻量级像素解码器的潜在表征对齐来构建。这解决了传统 VAEs 与自回归建模之间在语义结构和潜在空间上的不匹配问题。VGT-AE 采用两阶段训练策略：
- 第一阶段：语义保持重建。 通过结合像素重建损失和语义自蒸馏损失，确保重建的高保真度，同时将语义结构注入到紧凑的潜在空间中。
- 第二阶段：潜在空间正则化。 通过冻结编码器，优化解码器和投影模块，并引入通道归一化和高斯噪声注入，使潜在分布更符合标准高斯先验，从而提高其对自回归学习的适应性。
QueryAR（Query Autoregressive）： 针对自回归生成，作者提出了 QueryAR，它利用位置查询机制来保持自回归的公式化，同时允许部分并行解码，从而提高推理效率。
高效的视觉生成调优： VGT 通过高效的视觉生成调优，显著降低了对齐成本，并加速了连续空间自回归建模的收敛速度（最高可达 20 倍加速）。

3. 主要结果与意义： * 重建性能： VGT-AE 在图像重建任务上取得了优异的性能，在 28 倍压缩比下达到了 26.67 PSNR 和 0.50 rFID，优于专门的 VAEs。 * 生成性能： 在视觉生成任务上，VGT 达到了自回归模型中的最先进水平，在 GenEval 上获得 0.77 分，在 DPG-Bench 上获得 78.73 分。 * 数据效率： VGT 在训练数据量有限的情况下（仅 25M 样本）取得了卓越的性能，显著优于需要海量数据训练的传统自回归模型。 * 通用性与可扩展性： VGT 具有很强的可扩展性，能够赋能任何为多模态理解训练的 VLM，使其具备视觉生成能力，为探索下一代统一多模态基础模型开辟了新途径。 * 挑战传统观念： 该研究挑战了自回归模型在同等规模下通常生成质量不如扩散模型的观点，证明了通过有效的表征学习和对齐，自回归模型也能达到甚至超越扩散模型的性能。

4. 提及的局限性： * 论文中提到，在 重建与生成之间的权衡 是一个关键的考虑因素。高度优化的重建模型可能在生成性能上有所牺牲，反之亦然。VGT 通过其两阶段训练策略试图平衡这一点，但仍然存在这种内在的权衡。 * 虽然 VGT 在数据效率上表现出色，但论文也暗示了 模型规模 对最终性能的影响（例如，0.6B 和 1.6B 参数的模型对比）。

5. 未来研究方向： * 统一多模态基础模型： VGT 为构建能够无缝融合感知和生成能力的新一代统一多模态基础模型奠定了基础。 * 扩展 VGT 框架： 未来工作可以进一步探索 VGT 框架在更多模态和更复杂任务上的应用，以及与其他多模态发展方向的结合。 * 更精细的潜在空间控制： 尽管 VGT 取得了显著进展，但对潜在空间的进一步精细控制，以实现更可控和多样化的生成，仍是潜在的研究方向。

总结： “Visual Generation Tuning” 论文提出了一种创新的范式 VGT，成功地将预训练视觉语言模型（VLMs）的强大视觉理解能力转化为高效的视觉生成能力。通过 VGT-AE 和 QueryAR 等关键组件，该方法有效解决了传统方法在连续空间自回归建模中的对齐和效率问题，并在重建和生成任务上均取得了最先进的性能，同时展现了显著的数据效率和可扩展性。这项工作为开发更强大、更通用的统一多模态基础模型开辟了新的道路。

Key Findings:

In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models.
In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench.
Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models.

Links:

PDF
arXiv

Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model

Authors: Junshu Tang, Jiacheng Liu, Jiaqi Li, Longhuang Wu, Haoyu Yang, Penghao Zhao, Siruis Gong, Xiang Yuan, Shuai Shao, Qinglin Lu

Published: 2025-11-28

Categories: cs.CV

Abstract:

Recent advances in generative world models have enabled remarkable progress in creating open-ended game environments, evolving from static scene synthesis toward dynamic, interactive simulation. However, current approaches remain limited by rigid action schemas and high annotation costs, restricting their ability to model diverse in-game interactions and player-driven dynamics. To address these challenges, we introduce Hunyuan-GameCraft-2, a new paradigm of instruction-driven interaction for generative game world modeling. Instead of relying on fixed keyboard inputs, our model allows users to control game video contents through natural language prompts, keyboard, or mouse signals, enabling flexible and semantically rich interaction within generated worlds. We formally defined the concept of interactive video data and developed an automated process to transform large-scale, unstructured text-video pairs into causally aligned interactive datasets. Built upon a 14B image-to-video Mixture-of-Experts(MoE) foundation model, our model incorporates a text-driven interaction injection mechanism for fine-grained control over camera motion, character behavior, and environment dynamics. We introduce an interaction-focused benchmark, InterBench, to evaluate interaction performance comprehensively. Extensive experiments demonstrate that our model generates temporally coherent and causally grounded interactive game videos that faithfully respond to diverse and free-form user instructions such as "open the door", "draw a torch", or "trigger an explosion".

Analysis:

好的，作为一名计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：Hunyuan-GameCraft-2

1. 论文的主要贡献（2-3句话）：

Hunyuan-GameCraft-2 提出了一种新颖的指令驱动交互范式，用于生成动态、可交互的游戏世界模型。该模型能够通过自然语言指令、键盘或鼠标信号，实现对游戏视频内容进行灵活且语义丰富的控制，克服了现有方法在动作模式僵化和标注成本高昂方面的限制。其核心在于构建了大规模、因果对齐的交互式视频数据集，并利用一个14B参数的MoE基础模型实现了对相机运动、角色行为和环境动态的精细化控制。

2. 关键创新或方法论：

指令驱动的交互范式： 这是最核心的创新。不同于传统的固定动作模式（如键盘按键），Hunyuan-GameCraft-2 允许用户使用自然语言（如“打开门”、“拔出火把”、“触发爆炸”）来控制游戏世界的动态。这种方式极大地提升了交互的灵活性和语义的丰富性。
交互式视频数据的定义与自动化处理： 论文正式定义了“交互式视频数据”的概念，并开发了一种自动化流程，将大规模、非结构化的文本-视频对转化为因果对齐的交互式数据集。这解决了构建高质量交互式数据集的难题，为模型训练提供了坚实基础。
基于14B MoE基础模型的架构： 模型构建在一个强大的140亿参数的图像到视频MoE（Mixture-of-Experts）基础模型之上。MoE架构通常在处理大规模数据和复杂任务时表现出色，能够有效地学习和泛化。
文本驱动的交互注入机制： 该机制是实现指令控制的关键。它能够将文本指令精确地映射到对相机运动、角色行为和环境动态的精细化控制上，确保模型能够忠实地响应用户的意图。
InterBench 交互式基准测试： 论文引入了一个专门用于评估交互性能的基准测试集。这为衡量和比较不同交互式游戏世界模型的性能提供了一个标准化的平台。

3. 对该领域的潜在影响：

推动生成式世界模型的进步： Hunyuan-GameCraft-2 显著提升了生成式世界模型的交互性和可控性，使其能够模拟更复杂、更贴近真实玩家体验的游戏场景。
降低内容创作门槛： 通过自然语言指令控制游戏世界，极大地降低了游戏内容创作和测试的门槛，使得非专业人士也能更便捷地参与到游戏世界的构建和探索中。
促进人机交互研究： 该研究为研究更自然、更直观的人机交互方式提供了新的思路和平台，尤其是在虚拟环境和游戏领域。
为多模态AI提供新范例： 将自然语言指令与动态视频生成相结合，为多模态AI的研究提供了新的应用场景和技术路径，尤其是在理解和生成复杂时序性内容方面。

4. 可能受益的相关领域或应用：

游戏开发与测试： 自动化生成和测试游戏场景，快速验证游戏机制和玩家体验。
虚拟现实 (VR) 和增强现实 (AR)： 创建更具沉浸感和交互性的虚拟环境，用户可以通过自然语言与虚拟世界进行互动。
教育与培训： 构建交互式模拟环境，用于技能培训、历史场景重现或科学实验模拟。
内容生成： 自动生成电影、动画或短视频中的动态场景，并允许用户通过指令进行修改。
机器人控制与仿真： 将自然语言指令转化为机器人或虚拟代理在复杂环境中的行为。
AI助手与虚拟角色： 创造能够理解并响应用户指令的更智能的虚拟角色。

5. 从摘要中可以推断出的局限性：

计算资源需求： 基于14B参数的MoE模型，其训练和推理的计算资源需求可能非常高。
数据集的覆盖范围和偏差： 尽管论文提到了大规模数据集，但其覆盖的游戏类型、交互模式以及潜在的偏差（如文化、语言上的）仍是潜在的限制因素。
指令理解的鲁棒性： 虽然摘要提到模型能响应“自由形式”的指令，但对于非常复杂、模糊或矛盾的指令，其理解和执行的鲁棒性仍需进一步验证。
生成视频的真实感和细节： 尽管摘要强调了“时间连贯”和“因果接地”，但生成视频的视觉真实感、细节丰富度以及是否会出现不自然的伪影等问题，通常是这类生成模型需要面对的挑战。
“因果对齐”的定义与实现： 摘要中提到的“因果对齐”是一个关键概念，但其具体的定义、实现方法以及在多大程度上真正实现了因果关系建模，需要通过论文的详细内容来评估。
交互的实时性： 对于需要实时交互的游戏场景，模型的推理速度和延迟是至关重要的，摘要中并未明确提及。

总结：

Hunyuan-GameCraft-2 在计算机视觉领域具有显著的趣味性和重要性，因为它成功地将自然语言指令的灵活性引入了动态、可交互的游戏世界模型生成。这不仅是技术上的一个飞跃，也为未来更智能、更具交互性的AI应用打开了新的大门。其核心创新在于定义和构建了因果对齐的交互式视频数据集，并利用强大的MoE基础模型实现了精细化的指令控制。尽管存在潜在的计算资源和鲁棒性挑战，但该研究无疑是生成式AI和人机交互领域的一个重要进展。

Key Findings:

To address these challenges, we introduce Hunyuan-GameCraft-2, a new paradigm of instruction-driven interaction for generative game world modeling.
We introduce an interaction-focused benchmark, InterBench, to evaluate interaction performance comprehensively.

Links:

PDF
arXiv

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

Authors: Thomas Ressler-Antal, Frank Fundel, Malek Ben Alaya, Stefan Andreas Baumann, Felix Krause, Ming Gui, Björn Ommer

Published: 2025-11-28

Categories: cs.CV

Abstract:

Recent advances in text-to-video (T2V) and image-to-video (I2V) models, have enabled the creation of visually compelling and dynamic videos from simple textual descriptions or initial frames. However, these models often fail to provide an explicit representation of motion separate from content, limiting their applicability for content creators. To address this gap, we propose DisMo, a novel paradigm for learning abstract motion representations directly from raw video data via an image-space reconstruction objective. Our representation is generic and independent of static information such as appearance, object identity, or pose. This enables open-world motion transfer, allowing motion to be transferred across semantically unrelated entities without requiring object correspondences, even between vastly different categories. Unlike prior methods, which trade off motion fidelity and prompt adherence, are overfitting to source structure or drifting from the described action, our approach disentangles motion semantics from appearance, enabling accurate transfer and faithful conditioning. Furthermore, our motion representation can be combined with any existing video generator via lightweight adapters, allowing us to effortlessly benefit from future advancements in video models. We demonstrate the effectiveness of our method through a diverse set of motion transfer tasks. Finally, we show that the learned representations are well-suited for downstream motion understanding tasks, consistently outperforming state-of-the-art video representation models such as V-JEPA in zero-shot action classification on benchmarks including Something-Something v2 and Jester. Project page: https://compvis.github.io/DisMo

Analysis:

好的，作为一名计算机视觉和机器学习领域的专家，我将根据您提供的论文摘要进行深入分析。

论文摘要分析：DisMo: Disentangled Motion Representations for Open-World Motion Transfer

1. 论文的主要贡献 (2-3句话)

该论文提出了DisMo，一种新颖的框架，能够从原始视频数据中学习抽象的运动表示，并将其与内容（如外观、身份、姿态）解耦。这种解耦使得DisMo能够实现“开放世界”的运动迁移，即在语义不相关的实体之间进行运动迁移，无需预先建立对应关系，甚至跨越不同类别。DisMo通过解耦运动语义与外观，解决了现有方法在运动保真度、提示遵循度、过拟合和动作漂移等方面的挑战，并能与现有视频生成模型轻松集成。

2. 关键创新或方法论

DisMo的核心创新在于其学习抽象运动表示的能力，并将其与内容信息进行有效解耦。具体方法论体现在：

图像空间重建目标 (Image-space reconstruction objective): 这是DisMo学习运动表示的关键。通过在图像空间进行重建，模型被鼓励去理解和捕捉视频中的动态信息，而无需直接依赖于显式的姿态估计或其他结构化信息。
运动与内容的解耦 (Disentanglement of motion from content): 这是DisMo最突出的特点。通过这种解耦，运动表示变得通用且独立于静态信息（外观、身份、姿态）。这意味着学习到的运动可以被应用于任何内容，而内容也可以被赋予任何学习到的运动。
开放世界运动迁移 (Open-world motion transfer): 这是解耦带来的直接应用。它允许在没有预定义对应关系的情况下，将运动从一个视频迁移到另一个视频，即使目标视频中的实体与源视频中的实体在类别上差异很大。这打破了传统运动迁移方法对特定对象或姿态的依赖。
轻量级适配器集成 (Lightweight adapters): DisMo的运动表示可以与任何现有的视频生成器通过轻量级适配器进行集成。这极大地增强了其灵活性和可扩展性，使其能够利用未来视频生成技术的进步。

3. 对该领域的潜在影响

DisMo的研究对计算机视觉领域具有重要的潜在影响，主要体现在：

推动更通用的视频内容创作: 通过实现开放世界的运动迁移，DisMo为视频内容创作者提供了前所未有的灵活性。用户可以更自由地控制视频的动态，将特定的动作或运动风格应用到各种场景和角色上，极大地降低了视频制作的门槛和成本。
提升视频理解和生成模型的泛化能力: DisMo的学习范式强调了运动的抽象表示，这有助于构建更具泛化能力的视频理解模型。同时，其与现有视频生成模型的集成能力，也为提升现有T2V和I2V模型的运动控制能力提供了途径。
为多模态理解和生成奠定基础: 运动是视频信息的重要组成部分，DisMo对运动的解耦和迁移研究，为未来更深层次的多模态理解（例如，将文本描述的动作与视觉内容相结合）和生成奠定了基础。
促进零样本学习在视频任务中的应用: 论文中提到DisMo在零样本动作分类任务上表现出色，这表明其学习到的运动表示具有良好的泛化性，能够识别未见过的动作，为视频理解的零样本和少样本学习开辟了新的可能性。

4. 可能受益于此研究的相关领域或应用

视频编辑和后期制作: 允许用户轻松地将一个视频中的动作应用到另一个视频中，例如将舞蹈动作迁移到不同角色上，或者将特定运动风格应用到现有素材。
虚拟现实 (VR) 和增强现实 (AR): 在VR/AR环境中，可以更自然地驱动虚拟角色的动作，或者将现实世界中的运动捕捉并应用到虚拟场景中。
游戏开发: 快速生成多样化的角色动画，或者将现有角色的动作迁移到新角色上。
机器人学: 学习和迁移机器人动作，提高机器人的适应性和学习能力。
体育分析: 识别和迁移运动员的特定动作模式，用于训练或分析。
内容审核和安全: 识别和分析视频中的异常或特定类型的动作。
人机交互: 设计更自然和直观的交互方式，通过运动来控制虚拟对象或系统。

5. 从摘要中可以推断出的局限性

尽管摘要描述了DisMo的强大能力，但仍可以推断出一些潜在的局限性：

对“抽象运动表示”的定义和边界: 摘要中提到“抽象运动表示”，但其具体的数学定义和模型内部如何实现这种抽象并未详细说明。这种抽象的程度和质量将直接影响迁移效果。
“开放世界”的定义和挑战: 虽然强调了“开放世界”的迁移能力，但“开放世界”的定义可能存在模糊性。例如，对于极其不相关的类别（如将水流的运动迁移到人物身上），其效果可能仍然有限，或者需要更复杂的处理。
对“语义不相关实体”的界定: 摘要提到“语义不相关的实体”，但如何界定“语义不相关”以及模型在多大程度上能处理这种不相关性，仍需进一步的实验验证。
计算成本和效率: 学习抽象表示和进行运动迁移通常需要大量的计算资源。虽然提到“轻量级适配器”，但DisMo本身的训练和推理成本可能仍然较高。
对“内容”的定义和处理: 摘要强调运动与“内容”解耦，但“内容”的定义（外观、身份、姿态）可能并不完全穷尽。对于一些复杂的、与运动紧密相关的“内容”信息，解耦的难度可能会增加。
潜在的伪影或不自然感: 尽管论文声称解决了“漂移”问题，但在复杂的运动迁移场景下，仍然可能出现一些视觉上的伪影或不自然感，尤其是在跨越巨大类别差异时。
对训练数据的依赖: 学习抽象表示通常需要大量的、多样化的视频数据。DisMo的性能可能在很大程度上依赖于其训练数据的质量和覆盖范围。

总而言之，DisMo在运动表示的解耦和开放世界运动迁移方面取得了显著的进展，为视频内容创作和理解带来了新的可能性。其核心创新在于通过图像空间重建目标学习通用的、与内容无关的运动表示，从而实现跨越语义鸿沟的运动迁移。然而，关于抽象表示的精确定义、处理极端不相关实体以及计算效率等方面的挑战，仍是未来研究和应用中需要关注的重点。

Key Findings:

To address this gap, we propose DisMo, a novel paradigm for learning abstract motion representations directly from raw video data via an image-space reconstruction objective.
Unlike prior methods, which trade off motion fidelity and prompt adherence, are overfitting to source structure or drifting from the described action, our approach disentangles motion semantics from appearance, enabling accurate transfer and faithful conditioning.
We demonstrate the effectiveness of our method through a diverse set of motion transfer tasks.
Finally, we show that the learned representations are well-suited for downstream motion understanding tasks, consistently outperforming state-of-the-art video representation models such as V-JEPA in zero-shot action classification on benchmarks including Something-Something v2 and Jester.

Links:

PDF
arXiv

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

Authors: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan

Published: 2025-11-28

Categories: cs.CV

Abstract:

Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.

Analysis:

好的，这是对论文“VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction”的全面中文摘要：

论文题目： VQRAE: 用于多模态理解、生成和重建的表示量化自编码器

作者： Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan

摘要：

1. 研究问题/核心挑战： 当前构建统一的多模态模型面临的关键挑战是如何在一个单一的“tokenizer”（分词器）中整合理解、生成和重建这三种任务的表示。现有的方法多采用双编码器范式，即为理解和生成任务分别设计编码器，或通过对比损失来平衡语义表示和低级特征。然而，这些方法往往增加了模型复杂性，阻碍了不同表示之间的深度交互，并且需要巨大的批次大小来平衡损失冲突。

2. 主要创新与方法贡献： 本文提出了VQRAE（Vector Quantization Representation Autoencoders），一种创新的表示量化自编码器，旨在解决上述挑战。其核心贡献在于： * 统一的Tokenizer： VQRAE 是首个能够在一个统一的Tokenizer中同时产生用于图像理解的连续语义特征和用于视觉生成与重建的离散Token的模型。 * 两阶段训练策略： * 第一阶段： 冻结预训练的视觉基础模型（VFMs）编码器，学习一个高维度的语义VQ码本，并使用像素重建目标进行训练。 * 第二阶段： 解冻VFMs编码器，并引入自蒸馏损失来保持语义理解能力，同时优化编码器、码本和解码器以实现精细的重建。 * 高维语义码本： VQRAE 探索了量化语义编码器时使用高维码本的特性，与以往在图像重建中常用低维码本的做法形成对比。作者发现，高维码本（如1536维）能够实现100%的利用率，并且在训练过程中避免了码本崩溃的风险。 * 无卷积的ViT架构： 模型采用对称的ViT编码器-解码器结构，避免了对卷积像素编码器的依赖，简化了模型设计。

3. 主要结果与意义： VQRAE 在多个视觉理解、生成和重建的基准测试中取得了具有竞争力的性能。 * 性能优势： VQRAE 在多模态理解任务上超越了其他统一Tokenizer方法，并且在重建任务上表现出色。与双编码器方法相比，VQRAE 更高效，无需额外的多模态对齐或指令微调。 * 可扩展性： VQRAE 的离散特性使其在自回归范式下具有良好的可扩展性，为构建更强大的统一多模态模型开辟了新途径。 * 效率提升： 通过使用预训练的VFMs作为统一编码器，VQRAE 大大降低了训练开销，并能直接集成到现有的MLLMs中。

4. 提及的局限性： * 权衡问题： VQRAE 在平衡语义表示和重建性能方面仍有改进空间，可能存在一定的折衷。 * 量化损失： 离散Tokenizer固有的量化损失可能使其在与最先进的连续VAE模型竞争时面临挑战。 * 生成质量： 在生成任务中，特别是在处理手指和人脸等细节时，模型仍可能出现一些瑕疵。

5. 未来研究方向： * 更有效的权衡方法： 探索更有效的方法来平衡理解和重建性能，以最小化对理解能力的影响。 * 生成与理解的增强： 研究如何利用生成和重建能力来进一步增强理解能力。 * 改进生成质量： 进一步提升生成质量，尤其是在空间关系、纹理渲染以及人脸和手指细节的准确性方面。 * 集成与扩展： 研究如何将这些表示集成到更广泛的任务中，以及如何实现高效的模型扩展。

总结： VQRAE 是一项重要的研究成果，它成功地在一个统一的Tokenizer中实现了连续语义特征和离散Token的生成，为多模态理解、生成和重建任务提供了一个高效且强大的解决方案。该模型通过创新的两阶段训练策略和高维语义码本的应用，克服了现有方法的局限性，并在多个基准测试中展现出优越的性能和良好的可扩展性，为未来统一多模态模型的研究奠定了坚实的基础。

Key Findings:

In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer.

Links:

PDF
arXiv

DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline

Authors: Rui Zhang, Hongxia Wang, Hangqing Liu, Yang Zhou, Qiang Zeng

Published: 2025-11-28

Categories: cs.CV

Abstract:

Diffusion-based image editing has made semantic level image manipulation easy for general users, but it also enables realistic local forgeries that are hard to localize. Existing benchmarks mainly focus on the binary detection of generated images or the localization of manually edited regions and do not reflect the properties of diffusion-based edits, which often blend smoothly into the original content. We present Diffusion-Based Image Editing Area Localization Dataset (DEAL-300K), a large scale dataset for diffusion-based image manipulation localization (DIML) with more than 300,000 annotated images. We build DEAL-300K by using a multi-modal large language model to generate editing instructions, a mask-free diffusion editor to produce manipulated images, and an active-learning change detection pipeline to obtain pixel-level annotations. On top of this dataset, we propose a localization framework that uses a frozen Visual Foundation Model (VFM) together with Multi Frequency Prompt Tuning (MFPT) to capture both semantic and frequency-domain cues of edited regions. Trained on DEAL-300K, our method reaches a pixel-level F1 score of 82.56% on our test split and 80.97% on the external CoCoGlide benchmark, providing strong baselines and a practical foundation for future DIML research.The dataset can be accessed via https://github.com/ymhzyj/DEAL-300K.

Analysis:

好的，这是对论文“DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline”的全面中文摘要：

论文题目： DEAL-300K: 基于扩散的编辑区域定位，包含一个300K规模的数据集和频率提示基线

作者： Rui Zhang, Hongxia Wang, Hangqing Liu, Yang Zhou, Qiang Zeng

摘要：

1. 研究问题/核心挑战： 随着扩散模型在图像编辑领域的广泛应用，用户可以轻松进行语义级别的图像编辑，但也带来了更逼真、更难检测的局部伪造图像。现有基准数据集主要关注生成图像的二元检测或手动编辑区域的定位，未能充分反映扩散模型编辑的特性——即编辑内容往往能平滑地融入原始图像，缺乏明显的伪影。因此，如何有效地定位扩散模型生成的编辑区域（Diffusion-based Image Manipulation Localization, DIML）是一个亟待解决的问题。

2. 主要创新点/方法论贡献：

DEAL-300K 数据集： 作者提出了一个大规模（超过30万张标注图像）的Diffusion-based Image Editing Area Localization Dataset (DEAL-300K)，专门用于DIML任务。该数据集的构建过程具有创新性：
- 多模态大语言模型（MLLM）驱动的指令生成： 利用微调后的Qwen-VL模型，结合图像和原型信息，自动生成高质量的、符合图像语义的编辑指令。
- 无掩码扩散模型进行图像编辑： 使用InstructPix2Pix等无掩码扩散模型生成编辑后的图像，更贴合实际的编辑流程。
- 主动学习与变化检测的标注流程： 结合SAM-CD模型和主动学习策略，实现了像素级标注的自动化，大大减少了人工标注的成本和时间。
多频段提示微调（MFPT）框架： 作者提出了一种新颖的定位框架，该框架利用预训练的视觉基础模型（VFM）作为冻结编码器，并结合多频段提示微调（MFPT）技术。
- 频率输入提示器（FInP）： 引入了将图像的低级纹理信息（通过高频傅里叶变换提取）与语义特征相结合的机制，以捕捉扩散编辑的细微之处。
- 特征频率提示器（FFrP）： 进一步增强了模型对高频和低频信息的处理能力，通过多头自注意力机制分别提取和融合，以提升对局部编辑区域的关注度。
- 参数高效微调（PEFT）： MFPT是一种参数高效的微调方法，仅训练少量参数，降低了计算成本，并利用了VFM强大的先验知识。

3. 主要结果及意义：

数据集性能： 在DEAL-300K数据集上，作者提出的MFPT方法取得了显著的成果，在测试集上达到了82.56%的像素级F1分数，并在外部CoCoGlide基准数据集上获得了80.97%的F1分数。
基线建立： DEAL-300K数据集的构建为DIML领域提供了迄今为止最大规模的基准，为未来的研究奠定了坚实的基础。
方法优势： MFPT框架在处理扩散模型编辑的挑战（如平滑融入、缺乏明显伪影）方面表现出色，能够有效捕捉语义和频率域的线索。该方法在各种数据集和场景下都展现出优越的性能和良好的泛化能力。
鲁棒性： MFPT模型在JPEG压缩和高斯模糊等图像退化条件下表现出良好的鲁棒性，证明了其在实际应用中的潜力。
数据集价值： DEAL-300K数据集的引入，特别是其自动化的标注流程，有望显著降低未来大规模数据集的构建成本，推动DIML领域的研究进展。

4. 提及的局限性：

细节精炼不足： 作者提到，虽然模型能够准确地识别和勾勒出编辑区域，但在细节的精炼方面仍有提升空间，这可能影响最终的定位精度。
跨领域泛化挑战： 虽然MFPT在多个数据集上表现良好，但作者也指出，直接比较不同领域训练的预训练模型可能存在公平性问题，并且某些模型在处理不同类型的编辑（如人脸编辑）时存在局限性。

5. 潜在的未来研究方向：

视频篡改定位： 作者计划将DEAL-300K扩展到视频领域，以处理视频中的扩散模型篡改问题，进一步扩展其在现实世界中的应用。
更精细的细节处理： 进一步优化模型以实现更精细的编辑区域定位，提高边界的准确性。
更复杂的编辑场景： 探索处理多轮编辑、更复杂的语义操纵以及更隐蔽的篡改技术。
模型效率和可解释性： 进一步研究模型在效率和可解释性方面的改进。

总结：

这篇论文的核心贡献在于提出了一个大规模的扩散模型编辑区域定位数据集（DEAL-300K）和一个创新的定位框架（MFPT）。DEAL-300K数据集通过创新的自动化流程构建，解决了传统数据集规模小、标注成本高的问题。MFPT框架则通过融合多模态大语言模型、视觉基础模型以及频率域信息，有效解决了扩散模型编辑难以定位的挑战。研究结果表明，该方法在多个基准数据集上均取得了领先的性能，并展现出良好的鲁棒性和泛化能力，为DIML领域的研究和应用提供了重要的基础和方向。

Key Findings:

We present Diffusion-Based Image Editing Area Localization Dataset (DEAL-300K), a large scale dataset for diffusion-based image manipulation localization (DIML) with more than 300,000 annotated images.
On top of this dataset, we propose a localization framework that uses a frozen Visual Foundation Model (VFM) together with Multi Frequency Prompt Tuning (MFPT) to capture both semantic and frequency-domain cues of edited regions.
Trained on DEAL-300K, our method reaches a pixel-level F1 score of 82.56% on our test split and 80.97% on the external CoCoGlide benchmark, providing strong baselines and a practical foundation for future DIML research.The dataset can be accessed via https://github.com/ymhzyj/DEAL-300K.

Links:

PDF
arXiv

Optimizing Multimodal Language Models through Attention-based Interpretability

Authors: Alexander Sergeev, Evgeny Kotelnikov

Published: 2025-11-28

Categories: cs.CL, cs.CV

Abstract:

Modern large language models become multimodal, analyzing various data formats like text and images. While fine-tuning is effective for adapting these multimodal language models (MLMs) to downstream tasks, full fine-tuning is computationally expensive. Parameter-Efficient Fine-Tuning (PEFT) methods address this by training only a small portion of model weights. However, MLMs are difficult to interpret, making it challenging to identify which components are most effective for training to balance efficiency and performance. We propose an attention-based interpretability method for MLMs by analyzing attention scores relative to image tokens. The core idea is to identify attention heads that focus on image key objects. We utilize this information to select optimal model components for PEFT in multimodal models. Our contributions include a method for identifying attention heads associated with image key objects, its application to PEFT for image captioning, and the creation of a new dataset containing images, key object masks, and their textual descriptions. We conducted experiments on MLMs with 2-3 billion parameters to validate the method's effectiveness. By calculating Head Impact (HI) scores we quantify an attention head's focus on key objects, indicating its significance in image understanding. Our fine-tuning experiments demonstrate that adapting layers with the highest HI scores leads to the most significant shifts in metrics compared to pre-trained, randomly selected, or lowest-HI-score layers. This indicates that fine-tuning a small percentage (around 0.01%) of parameters in these crucial layers can substantially influence image understanding capabilities.

Analysis:

好的，这是对论文“Optimizing Multimodal Language Models through Attention-based Interpretability”的全面中文摘要，重点关注其在计算机视觉和机器学习领域的创新性和重要性：

论文题目： 通过基于注意力的可解释性优化多模态语言模型

作者： Alexander Sergeev, Evgeny Kotelnikov

摘要：

1. 研究问题/核心挑战：

现代大型语言模型（LLMs）正朝着多模态方向发展，能够同时处理文本和图像。虽然参数高效微调（PEFT）是适应这些多模态语言模型（MLMs）到下游任务的有效方法，但完全微调计算成本高昂。然而，MLMs本身可解释性差，使得识别哪些模型组件对平衡效率和性能最有效变得困难。因此，研究的核心问题是如何有效地识别和利用MLMs中对图像理解至关重要的组件，以便进行高效的微调。

2. 主要创新与方法贡献：

基于注意力的可解释性方法： 论文提出了一种新颖的基于注意力分数分析的方法，用于解释MLMs。该方法的核心在于分析模型注意力分数与图像（特别是图像中的关键对象）token之间的关系。
识别关键对象注意力头： 通过计算Head Impact (HI) 分数，量化每个注意力头对图像关键对象的关注程度。HI分数高的注意力头被认为是对图像理解更重要的。
数据集构建： 论文创建了一个新的数据集，包含图像、图像关键对象的分割掩码（masks）以及它们的文本描述。
PEFT策略优化： 利用识别出的关键对象注意力头信息，论文提出了一种选择最优模型组件进行PEFT的策略。具体而言，是优先微调具有最高HI分数的层。
实验验证： 在2-30亿参数的MLMs上进行了实验，验证了该方法的有效性。

3. 主要结果与意义：

关键组件识别有效性： 实验证明，通过HI分数可以有效地识别出对图像理解至关重要的注意力头。
PEFT性能提升： 微调具有最高HI分数的层（top-4）相比于随机选择或最低HI分数的层，能够带来最显著的模型性能提升。这表明，即使只微调模型中极小一部分（约0.01%）的参数，如果选择得当，也能显著影响模型的图像理解能力。
模型泛化性： 该方法不局限于特定任务或领域，可以应用于各种多模态任务。
对模型理解的贡献： 研究揭示了MLMs中存在专注于特定图像关键对象的注意力头，并且这些注意力头在Transformer层级上具有统计学上的显著性差异，表明某些Transformer块在图像理解中扮演更重要的角色。

4. 提及的局限性：

模型架构限制： 实验主要限于具有相似架构（Vision Transformer编码器和Transformer解码器）的模型，并且图像被表示为嵌入到语言模型prompt中的视觉token。
模型规模限制： 由于计算资源的限制，实验主要集中在2-30亿参数的模型上。
任务类型限制： 实验主要集中在图像描述（Image Captioning）和封闭式视觉问答（Visual Question Answering）任务上，未直接评估开放式文本生成任务。为了避免歧义和便于度量，使用了答案模板，这可能与真实开放式生成有所不同。

5. 潜在的未来研究方向：

开放式生成任务评估： 将该微调方法应用于开放式生成任务，以评估其在更广泛场景下的性能。
更广泛的模型和架构： 探索该方法在不同模型架构和更大模型规模上的适用性。
跨模态理解的深入研究： 进一步研究注意力头在跨模态信息融合中的作用，以及如何利用这些洞察来改进多模态模型的整体性能。
更精细的PEFT策略： 基于更细粒度的注意力分析，探索更精细的PEFT策略，例如仅微调特定的注意力头而非整个层。

总结：

这篇论文提出了一种创新的基于注意力分数的可解释性方法，用于识别多模态语言模型（MLMs）中对图像理解至关重要的注意力头。通过计算Head Impact (HI)分数，研究者能够量化这些注意力头对图像关键对象的关注程度。该方法被成功应用于指导参数高效微调（PEFT），实验结果表明，优先微调具有最高HI分数的层能够带来显著的模型性能提升，即使只微调极小比例的参数。这项工作为理解和优化MLMs在多模态任务中的表现提供了新的视角和实用的技术，尤其是在计算资源有限的情况下，为高效地提升模型性能指明了方向。其对计算机视觉领域的重要贡献在于，它提供了一种量化和利用模型内部对视觉信息处理机制的方法，从而实现更智能、更高效的模型微调。

Key Findings:

We propose an attention-based interpretability method for MLMs by analyzing attention scores relative to image tokens.
Our contributions include a method for identifying attention heads associated with image key objects, its application to PEFT for image captioning, and the creation of a new dataset containing images, key object masks, and their textual descriptions.

Links:

PDF
arXiv

SimScale: Learning to Drive via Real-World Simulation at Scale

Authors: Haochen Tian, Tianyu Li, Haochen Liu, Jiazhi Yang, Yihang Qiu, Guang Li, Junli Wang, Yinfeng Gao, Zhang Zhang, Liang Wang, Hangjun Ye, Tieniu Tan, Long Chen, Hongyang Li

Published: 2025-11-28

Categories: cs.CV, cs.RO

Abstract:

Achieving fully autonomous driving systems requires learning rational decisions in a wide span of scenarios, including safety-critical and out-of-distribution ones. However, such cases are underrepresented in real-world corpus collected by human experts. To complement for the lack of data diversity, we introduce a novel and scalable simulation framework capable of synthesizing massive unseen states upon existing driving logs. Our pipeline utilizes advanced neural rendering with a reactive environment to generate high-fidelity multi-view observations controlled by the perturbed ego trajectory. Furthermore, we develop a pseudo-expert trajectory generation mechanism for these newly simulated states to provide action supervision. Upon the synthesized data, we find that a simple co-training strategy on both real-world and simulated samples can lead to significant improvements in both robustness and generalization for various planning methods on challenging real-world benchmarks, up to +6.8 EPDMS on navhard and +2.9 on navtest. More importantly, such policy improvement scales smoothly by increasing simulation data only, even without extra real-world data streaming in. We further reveal several crucial findings of such a sim-real learning system, which we term SimScale, including the design of pseudo-experts and the scaling properties for different policy architectures. Our simulation data and code would be released.

Analysis:

好的，这是对论文“SimScale: Learning to Drive via Real-World Simulation at Scale”的全面中文摘要：

论文题目： SimScale: Learning to Drive via Real-World Simulation at Scale

作者： Haochen Tian, Tianyu Li, Haochen Liu, Jiazhi Yang, Yihang Qiu, Guang Li, Junli Wang, Yinfeng Gao, Zhang Zhang, Liang Wang, Hangjun Ye, Tieniu Tan, Long Chen, Hongyang Li

摘要：

1. 研究问题/核心挑战： 实现完全自主驾驶系统需要模型能够学习在各种场景下做出理性决策，特别是那些安全关键和分布外（out-of-distribution, OOD）的场景。然而，人类专家收集的真实世界数据集中，这些 OOD 场景的代表性不足。仅仅依靠真实世界数据进行扩展效率低下，且难以覆盖这些稀有但重要的场景，导致模型泛化能力受限。

2. 主要创新与方法贡献： 该论文提出了 SimScale，一个新颖且可扩展的模拟框架，用于在真实世界驾驶日志的基础上合成大规模的、未曾见过的场景。其核心创新包括：

可扩展的模拟数据生成框架： 利用现有的真实世界驾驶日志作为起点，通过扰动（perturbation）来生成新的场景。
高保真度神经渲染与反应式环境： 使用先进的神经渲染技术（基于 3DGS [39]）和反应式环境（reactive environment [70]），生成高保真度的多视角观测，并确保模拟中的其他车辆能够响应式地与主车互动，增加了场景的真实性和多样性。
伪专家轨迹生成机制： 为新合成的模拟场景开发了伪专家（pseudo-expert）轨迹生成方法，提供动作监督。论文对比了两种伪专家策略：
- 恢复式专家（Recovery-based Expert）： 旨在将轨迹引导回人类轨迹流形（human trajectory manifold），行为更保守，但能稳定分布外漂移。
- 规划器式专家（Planner-based Expert）： 利用特权规划器（privileged planner）生成最优轨迹，探索性更强，能产生更多样化的轨迹。
Sim-Real 共训练策略： 提出了一种简单有效的 Sim-Real 共训练策略，将真实世界数据与合成的模拟数据结合进行训练，以提升模型的鲁棒性和泛化能力，同时缓解模拟到真实（sim-to-real）的视觉域迁移问题。
数据缩放分析： 系统地分析了模拟数据对不同类型端到端规划器（回归、扩散、词汇评分）的性能影响，并研究了在固定真实世界数据量下，增加模拟数据量对模型性能的影响规律。

3. 主要结果与意义： * 显著的性能提升： SimScale 框架通过 Sim-Real 共训练，在挑战性的真实世界基准测试（navhard 和 navtest）上，显著提升了多种规划方法的鲁棒性和泛化能力，最高可达 +6.8 EPDMS（navhard）和 +2.9 EPDMS（navtest）。 * 可预测的数据缩放趋势： 研究表明，随着模拟数据的增加，模型性能可以平滑且可预测地提升，即使不增加真实世界数据。 * 伪专家的重要性： 实验揭示了探索性更强的伪专家（如规划器式专家）比保守的恢复式专家更能带来持续的性能提升，尤其是在数据量较大时。 * 多模态模型的优势： 具有多模态建模能力（如 DiffusionDrive）的规划器比单模态回归模型更能受益于模拟数据的扩展，展现出更强的缩放特性。 * 反应式环境的价值： 反应式环境能够生成更真实、更多样化的交通交互场景，从而提升模拟数据的有效性。 * 研究的普适性： SimScale 的方法对不同类型的端到端规划器都有效，表明其模型无关性。

4. 论文中提到的局限性： * 伪专家轨迹的静态性： 当前的伪专家轨迹扰动是静态的，未来可以考虑使用自演化（self-evolving）方法来生成更动态的轨迹。 * 特权规划器的局限性： 论文中使用的特权规划器是基于规则的，性能有限，可能导致舒适性指标（如 HC, EC）的下降，并且在极端情况下可能失效。更先进的基于学习的规划器可以改进这一点。 * 场景模拟的局限性： 交通行为模拟中的其他智能体由 IDM [70] 控制，这限制了场景的多样性。传感器模拟方面，虽然 3DGS 效果出色，但仍有改进空间，例如引入 LiDAR 等多模态信息。

5. 未来研究方向： * 自演化伪专家： 探索使用自演化方法来生成更动态、更具探索性的伪专家轨迹。 * 更先进的特权规划器： 集成更先进的基于学习的特权规划器，以提高伪专家轨迹的质量和真实感。 * 更丰富的场景模拟： 引入更先进的交通行为模拟器（如扩散模型）和多模态传感器模拟（如 LiDAR），以进一步提升模拟场景的真实性和多样性。 * 在线强化学习与自玩： 探索将 SimScale 与在线强化学习（RL）和自玩（self-play）相结合，以实现更高效的自主学习。 * 更广泛的应用： 将 SimScale 的理念推广到更广泛的机器人和自动驾驶领域，以解决数据稀疏性问题。

总结： SimScale 是一个重要的贡献，它提供了一个系统性的解决方案，通过大规模、高保真的模拟数据来克服真实世界自动驾驶数据稀缺的挑战。该框架通过创新的伪专家生成和 Sim-Real 共训练策略，显著提升了端到端规划器的鲁棒性和泛化能力，并且其数据缩放特性清晰可预测。这项工作为学术界和工业界提供了一个强大的工具，以加速自动驾驶系统的研发和部署，尤其是在处理罕见但关键的 OOD 场景方面。

Key Findings:

To complement for the lack of data diversity, we introduce a novel and scalable simulation framework capable of synthesizing massive unseen states upon existing driving logs.
Furthermore, we develop a pseudo-expert trajectory generation mechanism for these newly simulated states to provide action supervision.

Links:

PDF
arXiv

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Authors: Yu Zhang, Jingyi Liu, Yiwei Shi, Qi Zhang, Duoqian Miao, Changwei Wang, Longbing Cao

Published: 2025-11-28

Categories: cs.CV

Abstract:

Visual AutoRegressive modeling (VAR) based on next-scale prediction has revitalized autoregressive visual generation. Although its full-context dependency, i.e., modeling all previous scales for next-scale prediction, facilitates more stable and comprehensive representation learning by leveraging complete information flow, the resulting computational inefficiency and substantial overhead severely hinder VAR's practicality and scalability. This motivates us to develop a new VAR model with better performance and efficiency without full-context dependency. To address this, we reformulate VAR as a non-full-context Markov process, proposing Markov-VAR. It is achieved via Markovian Scale Prediction: we treat each scale as a Markov state and introduce a sliding window that compresses certain previous scales into a compact history vector to compensate for historical information loss owing to non-full-context dependency. Integrating the history vector with the Markov state yields a representative dynamic state that evolves under a Markov process. Extensive experiments demonstrate that Markov-VAR is extremely simple yet highly effective: Compared to VAR on ImageNet, Markov-VAR reduces FID by 10.5% (256 $\times$ 256) and decreases peak memory consumption by 83.8% (1024 $\times$ 1024). We believe that Markov-VAR can serve as a foundation for future research on visual autoregressive generation and other downstream tasks.

Analysis:

好的，这是对论文“Markovian Scale Prediction: A New Era of Visual Autoregressive Generation”的全面中文摘要，重点关注其研究问题、方法、结果、局限性和未来方向：

论文题目： Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

作者： Yu Zhang, Jingyi Liu, Yiwei Shi, Qi Zhang, Duoqian Miao, Changwei Wang, Longbing Cao

摘要：

这篇论文提出了一种名为 Markov-VAR 的新型视觉自回归生成模型，旨在解决现有 Visual AutoRegressive (VAR) 模型在处理高分辨率图像生成时面临的计算效率低下和可扩展性差的问题。

1. 研究问题/研究目标：

现有的 VAR 模型通过“下一尺度预测”实现视觉生成，其核心在于“全上下文依赖”，即在预测当前尺度的特征时，会考虑所有之前的尺度信息。这种方法虽然有利于学习稳定和全面的表示，但随着图像分辨率的提高，计算量呈平方级增长，导致训练和推理效率低下，严重限制了其在实际应用中的可行性和可扩展性。因此，研究目标是开发一种不依赖全上下文依赖的 VAR 模型，在保持或提升生成质量的同时，显著提高效率和可扩展性。

2. 关键创新/方法贡献：

将 VAR 重构为非全上下文马尔可夫过程： 论文的核心思想是将 VAR 的预测过程从依赖所有历史尺度转变为一个马尔可夫过程。这意味着当前尺度的预测仅依赖于前一个尺度（或有限的历史信息），而不是所有历史尺度。
马尔可夫尺度预测 (Markovian Scale Prediction)： 论文将每个尺度视为一个马尔可夫状态，并引入了一种新的预测机制。
历史补偿机制 (History Compensation Mechanism)： 为了弥补因去除全上下文依赖而可能丢失的历史信息，论文设计了一个轻量级的历史补偿机制。该机制使用一个滑动窗口来压缩最近的几个历史尺度，将其整合成一个紧凑的历史向量。
动态状态表示： 将当前尺度的特征与历史向量结合，形成一个代表性的动态状态，该动态状态在马尔可夫过程中演化，用于进行下一尺度的预测。
Markov-VAR Transformer： 论文还提出了一个 Markov-VAR Transformer 架构，以高效地实现马尔可夫尺度预测和历史补偿。

3. 主要结果及意义：

显著的效率提升：
- 在 ImageNet 数据集上，与原始 VAR 模型相比，Markov-VAR 在 256x256 分辨率下将 FID 降低了 10.5%，表明生成质量有所提升。
- 在 1024x1024 分辨率下，Markov-VAR 的峰值内存消耗降低了 83.8%。
- 在推理速度方面，Markov-VAR 在 256x256 分辨率下比其他 VAR 模型（如 FlexVAR）加速了 1.33 倍。
保持或提升生成质量： 实验结果表明，Markov-VAR 在保持模型规模相当的情况下，在 FID、IS、Precision 和 Recall 等指标上与 VAR 及其变体模型相比，表现出相当或更优的性能。
模型简洁性与有效性： 论文强调 Markov-VAR 模型非常简洁但效果显著，易于实现和扩展。
作为基础模型： 作者认为 Markov-VAR 可以作为未来视觉自回归生成和其他下游任务的基础模型。

4. 提及的局限性：

虽然论文提出了一种历史补偿机制来缓解信息丢失，但作者也承认，与完全依赖全上下文的 VAR 模型相比，在某些情况下，非全上下文依赖可能仍然会丢失一些原始历史信息。
论文中提到，尽管滑动窗口大小为 3 时效果最佳，但对于某些特定任务或模型深度，可能需要进一步调整窗口大小以达到最优性能。

5. 潜在的未来研究方向：

更广泛的应用： 将 Markov-VAR 应用于更广泛的视觉生成任务，如图像编辑、超分辨率、3D 对象生成等。
与其他生成模型的结合： 探索将 Markov-VAR 与扩散模型、GAN 等其他先进生成模型相结合的可能性，以期获得更优的性能。
更精细的历史补偿机制： 研究更先进的历史信息压缩和补偿策略，以进一步减少信息丢失，同时保持计算效率。
Scaling Law 的进一步探索： 论文初步分析了 Markov-VAR 的 scaling law，未来可以更深入地研究其在模型规模、数据量和计算资源等方面的扩展规律。
模型权重公开： 作者已公开了 Markov-VAR 的模型权重，鼓励社区在此基础上进行进一步的研究和开发。

总而言之，这篇论文通过引入马尔可夫尺度预测和历史补偿机制，成功地解决了 VAR 模型在计算效率和可扩展性方面的瓶颈，为高效、高质量的视觉自回归生成开辟了新的道路。

Key Findings:

This motivates us to develop a new VAR model with better performance and efficiency without full-context dependency.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-12-01

Executive Summary

Table of Contents

Papers