Arxiv Computer Vision Papers - 2025-10-08

Executive Summary

好的，这是一份针对2025年10月7日Arxiv计算机视觉论文的每日报告执行摘要，旨在帮助忙碌的研究人员快速了解该领域的重要发展。

每日Arxiv计算机视觉论文执行摘要 (2025-10-07)

概述与主要趋势：

今天的论文集展示了计算机视觉领域持续的活力和多维度发展。主要趋势包括：

多模态与大模型 (LMMs) 的深入探索： 多篇论文聚焦于视频与文本的结合，以及大型多模态模型在视频理解和生成中的应用，表明LMMs在视频领域的潜力正被积极挖掘。
鲁棒性与挑战性环境： 针对低光照、夜间、遮挡等复杂场景的图像增强、理解和分割问题是研究热点，强调了模型在真实世界部署中的实用性。
数据与基准的持续构建： 新的、大规模的、具有挑战性的数据集（如夜间、缺陷检测）的发布，为推动特定领域的研究提供了关键支撑。
生成模型与扩散模型的演进： 扩散模型在低光照增强中的应用，以及文本到视频生成技术的综述，显示了生成模型在图像和视频合成方面的持续影响力。

特别显著或创新性论文：

"Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models" (Yunlong Tang et al.)：这篇论文深入探讨了LMMs在视频推理中的应用，可能揭示了如何有效利用和微调这些大型模型以实现更高级的视频理解能力，对LMMs在视频领域的实际落地具有指导意义。
"Human3R: Everyone Everywhere All at Once" (Yue Chen et al.)：标题暗示了对通用、多场景人体姿态或行为理解的雄心，如果能实现“无处不在，无时无刻”的理解，将是人体分析领域的一大突破。
"Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density" (Randall Balestriero et al.)：这篇论文可能从理论层面揭示了JEPAs（联合嵌入预测架构）的工作机制，特别是它们如何学习数据密度。理解这种底层机制对于优化和设计更有效的自监督学习方法至关重要，具有较高的理论价值。

新兴研究方向或技术：

视频LMMs的后训练与微调策略： 随着LMMs的普及，如何针对视频任务进行高效的后训练和微调，以充分发挥其潜力，是一个重要的研究方向。
夜间/低光照下的具身视觉理解： "EgoNight" 和 "Diffusion Models for Low-Light Image Enhancement" 强调了在挑战性光照条件下，特别是第一人称视角下的视觉理解需求，这对于自动驾驶、机器人等领域至关重要。
拓扑重建与遮挡处理： "Overlap-aware segmentation for topological reconstruction of obscured objects" 关注复杂遮挡下的物体结构重建，是传统分割任务的进阶，具有较高的应用价值。
迭代式视频关键帧定位与策略优化： "VideoMiner" 提出的通过树状组相对策略优化来迭代定位长视频关键帧的方法，为长视频理解提供了一种新颖的解决方案。

建议阅读全文的论文：

对于不同兴趣的研究人员，建议阅读以下论文：

对于关注LMMs和视频理解的研究人员：
- "Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models" (Yunlong Tang et al.)：深入了解LMMs在视频推理中的应用和潜力。
- "Bridging Text and Video Generation: A Survey" (Nilay Kumar et al.)：全面了解文本到视频生成领域的现状和挑战。
对于关注鲁棒性和挑战性环境的研究人员：
- "EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark" (Deheng Zhang et al.)：了解夜间具身视觉理解的最新进展和新基准。
- "Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis" (Eashan Adhikarla et al.)：深入了解扩散模型在低光照图像增强中的应用。
对于关注理论基础和自监督学习的研究人员：
- "Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density" (Randall Balestriero et al.)：探索JEPAs的底层学习机制。
对于关注数据集和实际应用的研究人员：
- "Kaputt: A Large-Scale Dataset for Visual Defect Detection" (Sebastian Höfer et al.)：对于工业检测和缺陷识别领域的研究人员非常有价值。

这份摘要旨在提供一个高层次的概览，帮助您快速识别与您研究方向最相关的论文。

Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
Bridging Text and Video Generation: A Survey
Human3R: Everyone Everywhere All at Once
EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
Overlap-aware segmentation for topological reconstruction of obscured objects
VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization
Continual Learning for Image Captioning through Improved Image-Text Alignment
Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density
Kaputt: A Large-Scale Dataset for Visual Defect Detection

Papers

Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis

Authors: Eashan Adhikarla, Yixin Liu, Brian D. Davison

Published: 2025-10-07

Categories: cs.CV, cs.AI, cs.LG

Abstract:

Low-light image enhancement (LLIE) is vital for safety-critical applications such as surveillance, autonomous navigation, and medical imaging, where visibility degradation can impair downstream task performance. Recently, diffusion models have emerged as a promising generative paradigm for LLIE due to their capacity to model complex image distributions via iterative denoising. This survey provides an up-to-date critical analysis of diffusion models for LLIE, distinctively featuring an in-depth comparative performance evaluation against Generative Adversarial Network and Transformer-based state-of-the-art methods, a thorough examination of practical deployment challenges, and a forward-looking perspective on the role of emerging paradigms like foundation models. We propose a multi-perspective taxonomy encompassing six categories: Intrinsic Decomposition, Spectral & Latent, Accelerated, Guided, Multimodal, and Autonomous; that map enhancement methods across physical priors, conditioning schemes, and computational efficiency. Our taxonomy is grounded in a hybrid view of both the model mechanism and the conditioning signals. We evaluate qualitative failure modes, benchmark inconsistencies, and trade-offs between interpretability, generalization, and inference efficiency. We also discuss real-world deployment constraints (e.g., memory, energy use) and ethical considerations. This survey aims to guide the next generation of diffusion-based LLIE research by highlighting trends and surfacing open research questions, including novel conditioning, real-time adaptation, and the potential of foundation models.

Analysis:

以下是Eashan Adhikarla, Yixin Liu, Brian D. Davison撰写的论文“Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis”的摘要：

1. 主要问题或研究问题： 该论文旨在解决低光照图像增强（LLIE）领域中的核心挑战，即在安全关键应用（如监控、自动驾驶、医学成像）中，可见度下降会严重影响下游任务的性能。具体而言，它关注扩散模型在LLIE中的应用，并对其进行全面的批判性分析，包括与现有最先进方法的比较、实际部署挑战以及新兴范式（如基础模型）的作用。

2. 关键创新或方法学贡献： * 多视角分类法： 论文提出了一个涵盖六个类别的多视角分类法：内在分解（Intrinsic Decomposition）、光谱与潜在（Spectral & Latent）、加速（Accelerated）、引导（Guided）、多模态（Multimodal）和自主（Autonomous）扩散模型。该分类法基于模型机制和条件信号的混合视图，将增强方法映射到物理先验、条件方案和计算效率上。 * 性能评估： 论文对扩散模型与基于生成对抗网络（GAN）和Transformer的最先进方法进行了深入的比较性能评估，涵盖了定性失效模式、基准测试不一致性以及可解释性、泛化性和推理效率之间的权衡。 * 挑战与未来展望： 论文深入探讨了实际部署挑战（如内存、能耗）和伦理考量，并提出了扩散模型在LLIE领域的未来研究方向，包括新颖的条件作用、实时适应性以及基础模型的潜力。

3. 主要结果及其重要性： * 扩散模型的优势： 扩散模型因其通过迭代去噪建模复杂图像分布的能力，在LLIE中展现出巨大的潜力，能够生成高度逼真的细节和纹理，解决了早期方法的关键缺陷。它们在输出质量和训练稳定性方面表现出色，并能有效缓解模式崩溃。 * LLIE生成三难困境： 论文识别了LLIE生成模型在质量、多样性和延迟之间的三难困境。扩散模型通过蒸馏、校正/一致性流和潜在空间操作，扩展了可行区域，在较低采样成本下实现了更高的感知质量和更好的模式覆盖。 * 权衡分析： 论文强调了在嵌入强物理先验（可解释性高但受限于假设）和保持模型灵活性（泛化性强但可能产生幻觉）之间的“先验与可塑性”困境。此外，还讨论了感知质量、保真度和效率之间的权衡。

4. 论文中提及的局限性： * 计算开销和推理延迟： 扩散模型的迭代去噪过程导致高计算成本和推理延迟，使其难以实时部署。 * 数据依赖性和稀缺性： 监督式扩散模型严重依赖大规模、高质量、多样化的配对训练数据，但此类数据获取困难，限制了模型的泛化能力。 * 泛化性和鲁棒性： 模型在面对与训练数据显著不同的分布外（OOD）输入时，性能可能下降，尤其是在极端黑暗、非均匀照明和特定传感器噪声模式下。 * 可解释性： 扩散模型作为“黑箱”运行，难以精确理解其增强输出或产生特定伪影的原因。

5. 潜在的未来研究方向： * 利用基础模型： 有效地将现有强大的图像生成扩散模型（如Stable Diffusion）应用于LLIE任务，通过专门的微调技术、新颖的提示策略或零样本引导机制。 * 多模态基础模型： 探索能够处理文本、音频或其他传感器信息与视觉数据相结合的多模态基础模型，以实现更具上下文感知和可控性的LLIE。 * 实时和设备端LLIE： 持续研究模型压缩、知识蒸馏和高效网络架构设计，以及开发专门的硬件以加速扩散模型计算。 * 无监督、自监督和零样本学习： 开发更复杂的无监督方法，以更好地表示真实世界低光照退化，实现跨不同域的鲁棒泛化，并学习内容、照明、噪声和颜色等解耦表示。 * 增强可控性和可解释性： 实现更细粒度的语义控制，超越简单的文本提示或掩码，并开发针对生成式扩散模型的XAI技术，以提高信任度和调试能力。

Key Findings:

This survey provides an up-to-date critical analysis of diffusion models for LLIE, distinctively featuring an in-depth comparative performance evaluation against Generative Adversarial Network and Transformer-based state-of-the-art methods, a thorough examination of practical deployment challenges, and a forward-looking perspective on the role of emerging paradigms like foundation models.
We propose a multi-perspective taxonomy encompassing six categories: Intrinsic Decomposition, Spectral & Latent, Accelerated, Guided, Multimodal, and Autonomous; that map enhancement methods across physical priors, conditioning schemes, and computational efficiency.
This survey aims to guide the next generation of diffusion-based LLIE research by highlighting trends and surfacing open research questions, including novel conditioning, real-time adaptation, and the potential of foundation models.

Links:

PDF
arXiv

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Authors: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu

Published: 2025-10-06

Categories: cs.CV

Abstract:

Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Yunlong Tang等人撰写的论文“Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models”的全面摘要。

论文摘要：Video-LMM 后训练：深入探索大型多模态模型中的视频推理

1. 主要问题或研究问题： 该论文旨在解决视频理解领域的核心挑战，即如何将新兴的视频大型多模态模型（Video-LMMs）从基本的感知系统提升为复杂的推理引擎。具体而言，它关注于“后训练”这一关键阶段，该阶段在现有文献中仍显零散，缺乏系统性的整合和分析。论文的核心问题是，如何通过系统化的后训练方法，使Video-LMMs能够有效处理复杂的时空关系、长期依赖和多模态证据，并应对视频特有的挑战。

2. 关键创新或方法论贡献： 该论文的主要创新在于首次对Video-LMMs的后训练方法进行了全面的系统性审查和分类。它将后训练分为三个核心支柱： * 带思维链的监督微调（SFT-CoT）： 强调SFT在建立结构化推理行为、多模态对齐和指令遵循能力方面的作用，并将其视为强化学习（RL）的冷启动阶段。 * 基于可验证目标的强化学习（RL）： 详细阐述了RL，特别是GRPO（Group Relative Policy Optimization）及其变体，如何通过可验证的奖励（如答案正确性、时空定位精度）来增强推理和自我修正，避免对人工偏好数据的依赖。 * 通过增强推理计算进行测试时扩展（TTS）： 探讨了TTS如何通过推理样本增强、投票机制、自洽性检查、外部验证器和多路径搜索来提高模型可靠性。

论文还提出了一个结构化的分类法，阐明了这些技术在解决视频特定挑战（如时间定位、时空基础、长视频效率和多模态证据整合）中的作用、相互联系和适应性。

3. 主要结果及其意义： 该论文通过对代表性方法的系统分析，综合了关键的设计原则、见解和评估协议，并强调了以下发现： * SFT作为RL的冷启动： SFT-CoT为RL提供了结构化的推理格式和稳定的初始化，有效防止了RL驱动策略优化中的不稳定性。 * GRPO在视频推理中的有效性： GRPO及其变体（如T-GRPO、Reg-GRPO、TW-GRPO、DGRPO）在视频理解任务中表现出色，尤其是在利用可验证奖励方面，这提高了数据效率并减少了对人工标注的依赖。 * TTS提升可靠性： TTS方法（如思维链提示、自洽性解码、基于置信度的迭代推理、自改进循环、蒙特卡洛树搜索和工具增强推理）在推理阶段分配计算资源，显著提高了Video-LMMs的可靠性和准确性。 * 统一的评估框架： 论文整理了重要的基准、数据集和评估指标，为Video-LMM后训练效果的严格评估提供了统一的框架，有助于研究人员更准确地诊断模型改进的来源。

这些结果的意义在于，它们为Video-LMMs从感知到复杂推理的演进提供了一个清晰的路线图，并强调了后训练在实现这一目标中的核心作用。

4. 论文中提及的局限性： 论文在讨论开放挑战时提及了当前方法的局限性： * 奖励设计挑战： 尽管GRPO等方法取得了进展，但设计可验证、组合式奖励，特别是针对复杂时空语义检查的奖励，仍然是一个挑战。过程奖励模型（PRMs）虽然能提供密集信用，但其构建成本和偏差控制仍需改进。 * 可扩展性问题： 在长视频上扩展强化学习仍然面临预算限制，需要更高效的帧选择和缓存机制。 * 成本-性能优化： 帧优化和压缩框架仍然成本高昂，未来工作需要使其在数据和计算上更高效。 * 数据稀缺和偏差： 高质量的视频思维链监督数据获取成本高昂，且现有数据可能存在模板和单模型偏差。 * 幻觉问题： 尽管引入视觉基础信息有助于减少幻觉，但模型仍可能捏造不存在的实体或事件。 * 评估偏差： 使用LLM作为评估器时，判断偏差和长度偏差可能扭曲评估结果，需要更严格的报告标准和人工/验证器审计。

5. 潜在的未来研究方向： 论文提出了以下未来研究方向： * 结构化接口和基础思维链： 规范推理格式，将步骤与证据（时间戳、帧ID、区域）绑定，以提高忠实度并简化验证器设计。 * 大规模验证器在环思维链合成： 自动化草稿-细化-审计流程，从ASR/OCR/镜头元数据开始，通过轻量级检查器进行细化和过滤，以减少幻觉。 * 三模态监督和字幕控制： 扩展SFT以对齐语音、事件和视觉证据，并始终报告带字幕和不带字幕的结果，以避免ASR快捷方式。 * 幻觉感知指令微调： 结合反事实和缺失案例，训练模型进行校准的弃权和验证行为。 * 多语言、OCR和叙事结构： 扩展SFT以处理多语言、退化文本和长篇故事推理。 * 组合式、可验证奖励： 开发更精细的奖励机制，以处理复杂的时空语义检查。 * 样本效率和长视频成本： 探索离线和基于模型的RL变体、世界模型和微型滚动，以提高探索效率。 * 超越教师的探索： 开发多样性驱动的目标和自博弈机制，以发现超越教师策略的新策略。 * 自信感知、验证器引导的TTS： 将停止规则与不确定性结合，并与验证器检查耦合，以实现随时准确性。 * 工具增强推理和蒸馏： 将工具调用（检索、跟踪、ASR对齐）与推理交织，并通过后验蒸馏将这些优势转移到基础模型中。 * 带记忆的流式代理： 开发能够决定何时观看、观看什么，并维护任务感知工作记忆的代理规划器。 * 标准化报告和泄漏控制： 报告观看预算、推理长度、路径计数、延迟/吞吐量和字幕使用情况，并进行偏袒诊断。 * 受限观看下的计算-准确性权衡： 协同调整帧选择和压缩与推理质量，以在处理少量帧时保持系统强大。

总而言之，这篇论文为Video-LMMs的后训练提供了一个全面的视角，不仅系统地梳理了现有技术，还指出了未来的研究方向，旨在推动视频理解领域向更强大、更通用的人工智能系统发展。

Key Findings:

We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration.

Links:

PDF
arXiv

Bridging Text and Video Generation: A Survey

Authors: Nilay Kumar, Priyansh Bhandari, G. Maragatham

Published: 2025-10-06

Categories: cs.GR, cs.AI, cs.CV

Abstract:

Text-to-video (T2V) generation technology holds potential to transform multiple domains such as education, marketing, entertainment, and assistive technologies for individuals with visual or reading comprehension challenges, by creating coherent visual content from natural language prompts. From its inception, the field has advanced from adversarial models to diffusion-based models, yielding higher-fidelity, temporally consistent outputs. Yet challenges persist, such as alignment, long-range coherence, and computational efficiency. Addressing this evolving landscape, we present a comprehensive survey of text-to-video generative models, tracing their development from early GANs and VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these models work, what limitations they addressed in their predecessors, and why shifts toward new architectural paradigms were necessary to overcome challenges in quality, coherence, and control. We provide a systematic account of the datasets, which the surveyed text-to-video models were trained and evaluated on, and, to support reproducibility and assess the accessibility of training such models, we detail their training configurations, including their hardware specifications, GPU counts, batch sizes, learning rates, optimizers, epochs, and other key hyperparameters. Further, we outline the evaluation metrics commonly used for evaluating such models and present their performance across standard benchmarks, while also discussing the limitations of these metrics and the emerging shift toward more holistic, perception-aligned evaluation strategies. Finally, drawing from our analysis, we outline the current open challenges and propose a few promising future directions, laying out a perspective for future researchers to explore and build upon in advancing T2V research and applications.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Nilay Kumar, Priyansh Bhandari, G. Maragatham撰写的论文“Bridging Text and Video Generation: A Survey”的全面摘要。

论文摘要：文本到视频生成技术综述

1. 主要问题或研究问题： 该论文旨在全面综述文本到视频（Text-to-Video, T2V）生成技术的发展现状、挑战和未来方向。T2V技术具有巨大的潜力，能够根据自然语言提示创建连贯的视觉内容，从而在教育、营销、娱乐和辅助技术等多个领域带来变革。然而，该领域仍面临诸多挑战，包括生成内容的语义对齐、长期时间连贯性以及计算效率等问题。本综述试图系统地梳理T2V模型从早期到最新的演变，并探讨其如何应对这些挑战。

2. 关键创新或方法论贡献： 该论文本身是一篇综述性文章，其主要贡献在于对T2V领域进行了系统性、结构化的梳理和分析，而非提出新的模型或算法。其关键贡献包括： * 模型发展路线图： 详细追溯了T2V生成模型从早期的生成对抗网络（GANs）和变分自编码器（VAEs）到当前混合扩散-Transformer（DiT）架构的演变过程。文章深入探讨了这些模型的内部工作机制、它们如何解决前代模型的局限性，以及为何需要转向新的架构范式以克服质量、连贯性和控制方面的挑战。 * 数据集和训练配置的系统性介绍： 提供了对T2V模型训练和评估所用数据集的系统性描述，包括其规模、多样性和内容特征。为了支持研究的可复现性和评估模型训练的可行性，论文还详细列出了训练配置，如硬件规格、GPU数量、批次大小、学习率、优化器、训练周期等关键超参数。 * 评估指标和基准的全面分析： 概述了T2V模型常用的评估指标，并展示了它们在标准基准上的性能。同时，论文讨论了这些现有指标的局限性，并强调了向更全面、感知对齐的评估策略转变的必要性。

3. 主要结果及其意义： 本综述通过对现有T2V模型的详细分析，揭示了该领域在以下方面取得的显著进展： * 模型架构的演进： T2V模型已从最初的GANs和VAEs发展到更先进的扩散模型和Transformer架构，显著提高了生成视频的保真度和时间一致性。特别是扩散模型，通过逐步去噪过程，在生成高质量、语义对齐的视频方面表现出色。 * 性能提升： 随着模型和训练策略的改进，T2V模型在各种基准测试（如UCF-101、MSRVTT、Kinetics-600等）上的定量评估指标（如IS、FID、CLIP-SIM、FVD、KVD）显示出持续的性能提升。 * 对可复现性的关注： 论文详细列举了模型的训练配置，这对于未来研究者理解、复现和进一步开发T2V模型具有重要意义，有助于降低该领域的进入门槛。 * 评估方法的演变： 强调了从单一定量指标向结合人类评估和更全面的、感知对齐的评估策略（如VBench）转变的重要性，以更好地捕捉视频质量的细微差别和主观感知。

4. 论文中提及的局限性： 论文明确指出了T2V领域当前面临的几大局限性： * 数据可用性限制： 缺乏大规模、高质量的文本-视频配对数据集，这限制了模型的泛化能力和生成视频的质量。 * 计算成本高昂： 视频生成任务的计算成本远高于图像生成，对硬件资源和训练时间提出了巨大挑战。 * 时间一致性建模困难： 确保生成视频的长期时间连贯性、避免视觉跳变和不自然过渡仍然是一个核心挑战。 * 语义对齐不足： 尤其是在多对象或动作丰富的场景中，文本描述与视频内容之间的语义对齐仍需改进。 * 现有评估指标的局限性： 传统的定量指标（如IS、FID）往往无法全面捕捉人类对视频真实感、语义对齐和时间连贯性的感知。

5. 潜在的未来研究方向： 基于对当前挑战的分析，论文提出了几个有前景的未来研究方向： * 数据集丰富： 探索使用游戏引擎（如Unity或Unreal Engine）合成大规模、高分辨率、多样化的数据集，以克服版权限制和数据稀缺问题。开发通用的提示框架，通过结构化提示生成视频，以实现语义正确和视觉真实的视频。 * 模型架构和优化： 研发更高效的T2V模型架构和算法，以优化计算效率，更好地处理时间序列数据。改进时间建模机制，以生成更长、更连贯的视频。 * 增强对齐和控制： 进一步发展注意力机制、多模态数据融合和损失函数，以更有效地关注连贯性和真实感，并更好地模拟物理交互。 * 更全面的评估策略： 推广和标准化像VBench这样多维度的、结合人类偏好注释的评估基准，以提供更细粒度、更符合人类感知的模型性能评估。 * 实际应用拓展： 探索T2V技术在教育、辅助技术、内容创作、营销、文化遗产保护、法律取证、合成数据生成和游戏/VR等领域的更广泛应用。

总而言之，这篇综述为文本到视频生成领域提供了一个全面的快照，不仅总结了该领域的历史发展和当前成就，还明确指出了其面临的挑战，并为未来的研究指明了方向。对于希望深入了解T2V技术现状和未来趋势的研究人员来说，这是一份宝贵的资源。

Key Findings:

Addressing this evolving landscape, we present a comprehensive survey of text-to-video generative models, tracing their development from early GANs and VAEs to hybrid Diffusion-Transformer (DiT) architectures, detailing how these models work, what limitations they addressed in their predecessors, and why shifts toward new architectural paradigms were necessary to overcome challenges in quality, coherence, and control.

Links:

PDF
arXiv

Human3R: Everyone Everywhere All at Once

Authors: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll

Published: 2025-10-07

Categories: cs.CV

Abstract:

We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Yue Chen等人撰写的论文“Human3R: Everyone Everywhere All at Once”的全面摘要。

论文摘要：Human3R: Everyone Everywhere All at Once

1. 解决的主要问题或研究问题： 该论文旨在解决从随意捕获的单目视频中，在世界坐标系下进行在线4D人体-场景重建的挑战。传统方法通常依赖多阶段流程、迭代优化以及对人体检测、深度估计和SLAM预处理等重度依赖，这限制了它们在实时、统一和可扩展应用中的性能。Human3R寻求提供一个统一的、前向传播的框架，能够同时、实时地重建多个人体网格、密集3D场景和相机轨迹。

2. 关键创新或方法论贡献： * 统一的、前向传播框架： Human3R是第一个实现“一次性”（all-at-once）重建的统一模型，它在一个单一的前向传播过程中共同恢复全局多个人体SMPL-X模型（“每个人”）、密集3D场景（“无处不在”）和相机轨迹。这消除了对多阶段管道、迭代细化和重度依赖的需求。 * 基于CUT3R的4D在线重建： 该方法建立在4D在线重建基础模型CUT3R之上，该模型编码了丰富的时空先验。Human3R通过参数高效的视觉提示微调（Visual Prompt Tuning, VPT）来扩展CUT3R，以保留其强大的时空先验，同时直接读取多个人体SMPL-X模型。 * 人类先验的注入： 为了增强重建人体姿态和形状的细节，Human3R将来自Multi-HMR [3] ViT DINO编码器（在以人为中心的数据集上预训练）的人类特定特征注入到头部token中，作为人类先验。这有助于提高对精细人体姿态和形状的预测。 * 在线人体分割和跟踪： Human3R还支持训练后的人体分割和跟踪，通过预测每个图像块是否包含人体部位来生成像素对齐的密集掩码，并通过匹配精炼的人体token特征实现跟踪。 * 测试时序列长度自适应（TTT3R）： 为了解决RNN模型在序列长度超出训练上下文时性能下降的问题，Human3R采用了TTT3R [12]，通过动态学习率自适应地将当前观测值编码到记忆状态中，平衡历史上下文的保留和新观测值的整合。

3. 主要结果及其意义： * 卓越的效率： Human3R在仅使用一块48GB GPU训练一天后，在实时（15 FPS）下以低内存占用（8 GB）重建多个人体和3D场景，实现了显著的效率。 * 最先进或有竞争力的性能： 论文通过广泛实验证明，Human3R在多项任务中实现了最先进或有竞争力的性能，包括全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计，所有这些都通过一个统一的模型完成。 * 鲁棒性提升： 相比Multi-HMR，Human3R在处理不同图像宽高比时表现出更强的一致性，并且无需相机内参，这得益于CUT3R提供的3D场景感知能力。 * 相互受益： 实验表明，通过对人体重建进行微调，3D场景重建也得到了改善，这突显了对人体和场景进行联合推理的相互益处。

4. 论文中提及的局限性： * 头部作为关键点： 该方法依赖头部作为检测人类的判别性关键点，当头部不可见时可能导致失败。 * 代理SMPL网格： 目前使用代理SMPL网格表示人类，未能建模衣物或外观细节。 * 交互和物理限制： Human3R虽然隐式建模了人类交互，但尚未完全解决它们，并且在重建精度上未能匹配一些强大的离线方法（如JOSH [53]）。

5. 潜在的未来研究方向： * 整合像素对齐的身体点定位器： 引入像素对齐的身体点定位器（如[40, 76]）可以缓解头部不可见时的检测失败问题。 * 扩展到3DGS锚定的SMPL： 将框架扩展到基于3DGS（Gaussian Splatting）锚定的SMPL，可以实现更丰富、更全面的重建，包括衣物和外观。 * 作为优化方法的初始化： Human3R可以作为优化方法（如[53]）的有效初始化，以在需要更高精度时提高准确性，尽管会增加计算成本。 * 扩展到其他动态实体： 论文提出的底层原理可以扩展到重建动物、车辆或其他具有完整6D姿态的移动物体，从而支持野生动物监测、交通分析、人-物交互和机器人等应用。

总而言之，Human3R通过引入一个统一的、前向传播的框架，结合参数高效的视觉提示微调和人类先验注入，显著推动了在线4D人体-场景重建领域的发展。它在效率和性能上都表现出色，为未来的实时应用和更广泛的动态实体重建奠定了坚实的基础。

Key Findings:

We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos.
Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies.
Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model.

Links:

PDF
arXiv

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

Authors: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel

Published: 2025-10-07

Categories: cs.CV, cs.AI

Abstract:

Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.

Analysis:

以下是对Deheng Zhang等人撰写的论文“EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark”的摘要：

1. 主要问题或研究问题： 现有的大多数以自我为中心的视觉理解基准主要关注白天场景，忽略了现实世界应用中不可避免的低光照条件。这篇论文旨在解决这一空白，即在夜间低光照条件下，以自我为中心的视觉系统如何进行复杂的场景理解和推理。

2. 关键创新或方法学贡献： * EgoNight基准数据集： 首次提出了一个全面解决夜间条件的以自我为中心的基准数据集，其核心是视觉问答（VQA）。该数据集包含合成视频（由Blender渲染）和真实世界录像，确保场景和动作在视觉和时间上对齐，并涵盖了白天和夜间两种条件。 * 日夜对齐视频： 引入了日夜对齐视频，利用白天数据提高夜间标注质量，并揭示了不同光照条件下的模型性能差距。 * EgoNight-VQA： 构建了一个包含3658个QA对的VQA任务，涵盖12种不同的QA类型，通过新颖的“日间增强夜间自动标注引擎”和广泛的人工验证进行构建。 * 辅助任务： 除了VQA，EgoNight还引入了日夜对应检索和夜间以自我为中心的深度估计两个辅助任务，以进一步探索现有模型的边界。

3. 主要结果及其意义： * 对最先进的多模态大型语言模型（MLLMs）的评估显示，从白天到夜间转换时，模型性能显著下降，突显了在低光照条件下进行推理的挑战。 * 这表明现有MLLMs在夜间以自我为中心的视觉理解方面存在局限性，需要开发更具鲁棒性、能够泛化到不同光照领域的模型。 * 新提出的QA类型（如光照识别/动态、场景序列推理、导航和非常规推理）比传统类别更具挑战性，揭示了MLLMs面临的新难题。

4. 论文中提及的局限性： * 数据集规模： EgoNight数据集的规模与大型视觉语言语料库相比仍然适中。尽管作者认为现有规模已足以进行基准测试，但未来计划通过合成更多数据和录制更多真实世界视频来进一步扩大规模，以支持预训练和微调。 * 环境条件： EgoNight主要关注日夜光照变化，而其他现实世界挑战（如天气变化、极端相机运动）尚未涵盖。

5. 潜在的未来研究方向： * 进一步扩大夜间视频数据集的规模，以支持MLLM的预训练和微调，从而提高其性能。 * 将以自我为中心的视觉理解研究扩展到其他现实世界挑战，如雨、雾等天气条件以及极端相机运动。 * 开发更具光照鲁棒性的模型，以弥合白天和夜间条件下的性能差距。

总而言之，EgoNight基准为推动以自我为中心的夜间视觉理解研究提供了一个强大而及时的基础，旨在促进开发能够泛化到各种光照条件下的可靠AI助手。

Key Findings:

To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task.
Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification.
Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions.

Links:

PDF
arXiv

Overlap-aware segmentation for topological reconstruction of obscured objects

Authors: J. Schueler, H. M. Araújo, S. N. Balashov, J. E. Borg, C. Brew, F. M. Brunbauer, C. Cazzaniga, A. Cottle, D. Edgeman, C. D. Frost, F. Garcia, D. Hunt, M. Kastriotou, P. Knights, H. Kraus, A. Lindote, M. Lisowska, D. Loomba, E. Lopez Asamar, P. A. Majewski, T. Marley, C. McCabe, L. Millins, R. Nandakumar, T. Neep, F. Neves, K. Nikolopoulos, E. Oliveri, A. Roy, T. J. Sumner, E. Tilly, W. Thompson, M. A. Vogiatzi

Published: 2025-10-07

Categories: hep-ex, astro-ph.IM, cs.CV

Abstract:

The separation of overlapping objects presents a significant challenge in scientific imaging. While deep learning segmentation-regression algorithms can predict pixel-wise intensities, they typically treat all regions equally rather than prioritizing overlap regions where attribution is most ambiguous. Recent advances in instance segmentation show that weighting regions of pixel overlap in training can improve segmentation boundary predictions in regions of overlap, but this idea has not yet been extended to segmentation regression. We address this with Overlap-Aware Segmentation of ImageS (OASIS): a new segmentation-regression framework with a weighted loss function designed to prioritize regions of object-overlap during training, enabling extraction of pixel intensities and topological features from heavily obscured objects. We demonstrate OASIS in the context of the MIGDAL experiment, which aims to directly image the Migdal effect--a rare process where electron emission is induced by nuclear scattering--in a low-pressure optical time projection chamber. This setting poses an extreme test case, as the target for reconstruction is a faint electron recoil track which is often heavily-buried within the orders-of-magnitude brighter nuclear recoil track. Compared to unweighted training, OASIS improves median intensity reconstruction errors from -32% to -14% for low-energy electron tracks (4-5 keV) and improves topological intersection-over-union scores from 0.828 to 0.855. These performance gains demonstrate OASIS's ability to recover obscured signals in overlap-dominated regions. The framework provides a generalizable methodology for scientific imaging where pixels represent physical quantities and overlap obscures features of interest. All code is openly available to facilitate cross-domain adoption.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供J. Schueler等人撰写的论文“Overlap-aware segmentation for topological reconstruction of obscured objects”的全面摘要。

论文摘要：Overlap-aware segmentation for topological reconstruction of obscured objects

1. 主要问题或研究问题： 该论文主要解决科学成像中重叠物体分离的重大挑战。具体而言，它关注的是深度学习分割-回归算法在处理像素级强度预测时，通常对所有区域一视同仁，而未能优先处理归因最模糊的重叠区域。这导致在重叠严重、强度差异巨大的情况下，难以准确提取被遮挡物体的像素强度和拓扑特征。论文以MIGDAL实验为例，该实验旨在直接成像Migdal效应（一种由核散射引起的电子发射过程），其中重建目标是微弱的电子反冲径迹，这些径迹通常被亮度高出几个数量级的核反冲径迹严重掩盖。

2. 关键创新或方法论贡献： 论文引入了Overlap-Aware Segmentation of ImageS (OASIS) 框架，这是一个新的分割-回归框架，其核心创新在于： * 加权损失函数： OASIS设计了一个定制的加权损失函数，该函数在训练过程中优先处理物体重叠区域。通过为不同通道（例如，微弱的电子反冲径迹）和重叠区域分配特定的权重，模型能够将训练注意力集中在归因最关键的区域。 * 扩展重叠感知训练范式： 现有实例分割方法（如MultiStar和BCNet）已证明重叠区域加权可以改善分割边界预测，但OASIS首次将这一思想扩展到分割回归任务，使其能够预测物理量（像素强度）而非仅仅是类别或掩码。 * 通用性： 该框架提供了一种可推广的方法，适用于像素代表物理量且重叠遮挡感兴趣特征的科学成像领域。它在计算上高效，不需要对标准分割-回归网络的架构进行修改，并且与特定的骨干网络无关。

3. 主要结果及其意义： OASIS在MIGDAL实验背景下的性能评估显示出显著改进： * 强度重建误差降低： 对于低能量电子径迹（4-5 keV），OASIS将中位强度重建误差从-32%提高到-14%。这表明在重叠区域中，模型能够更准确地归因微弱信号的强度。 * 拓扑交并比（IoU）分数提高： 拓扑交并比分数从0.828提高到0.855。这表明OASIS在重建被遮挡信号的拓扑结构方面也表现出更好的性能。 * 低能量区域的改进： 在Migdal效应截面随能量降低呈指数增长的低能量区域（4-6 keV），OASIS的改进尤为关键，因为这些区域的准确重建对于验证理论预测至关重要。 * 角度一致性： 论文还展示了OASIS在低能量区域内，通过主曲线拟合得到的角度一致性在20°以内，这对于测量Migdal效应的角分布具有重要意义。 * 假阳性率： 尽管加权训练显著提高了低能量ER重建性能，但代价是假阳性率略有增加（从0.5%到1.5%）。然而，对于MIGDAL实验而言，由于OASIS并非用于搜索Migdal效应候选者，而是用于提取已检测到的ER的准确表示，因此这不是一个主要问题。

这些性能提升证明了OASIS在重叠主导区域恢复被遮挡信号的能力，为科学成像中像素代表物理量且重叠遮挡感兴趣特征的问题提供了一种通用方法。

4. 论文中提及的局限性： * 假阳性率： 尽管加权训练显著提高了低能量ER重建性能，但与未加权训练相比，它导致了更高的假阳性率（1.5% vs 0.5%），即更容易重建不存在的信号。论文指出，对于MIGDAL实验，这并非主要关注点，因为OASIS并非用于搜索Migdal效应候选者，而是用于提取已检测到的ER的准确表示。 * ER顶点重建： 论文提到，ER顶点难以精确确定。虽然他们利用NR顶点位置来构建主轴，但ER顶点本身的精确重建仍是一个挑战。

5. 潜在的未来研究方向： * 跨领域应用： OASIS的通用性使其可以应用于其他科学成像领域，例如天文学中的星系去混合（deblending）和医学成像中的体积数据分析。论文特别提到了Galaxy Zoo DECALS数据库，这是一个公开可用的数据集，非常适合应用OASIS。 * 多波段输入： 框架可以扩展以支持多通道输入，例如天文学中的多波段图像。 * 三维重建： 支持完整的3D体素（3个空间维度+强度）将使其能够应用于体积医学成像和具有完整3D重建能力的升级粒子探测器。 * Migdal效应角分布测量： 论文指出，OASIS在低能量区域的角敏感性有望用于当前一代MIGDAL探测器测试Migdal效应角产生理论模型的能力，这将在未来的工作中进行报告。

Key Findings:

We address this with Overlap-Aware Segmentation of ImageS (OASIS): a new segmentation-regression framework with a weighted loss function designed to prioritize regions of object-overlap during training, enabling extraction of pixel intensities and topological features from heavily obscured objects.

Links:

PDF
arXiv

VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization

Authors: Xinye Cao, Hongcan Guo, Jiawen Qian, Guoshun Nan, Chao Wang, Yuqi Pan, Tianhao Hou, Xiaojuan Wang, Yutong Gao

Published: 2025-10-07

Categories: cs.CV, cs.AI

Abstract:

Understanding hour-long videos with multi-modal large language models (MM-LLMs) enriches the landscape of human-centered AI applications. However, for end-to-end video understanding with LLMs, uniformly sampling video frames results in LLMs being overwhelmed by a vast amount of irrelevant information as video length increases. Existing hierarchical key frame extraction methods improve the accuracy of video understanding but still face two critical challenges. 1) How can the interference of extensive redundant information in long videos be mitigated? 2) How can a model dynamically adapt to complex hierarchical structures while accurately identifying key frames? To address these issues, we propose VideoMiner, which iteratively segments, captions, and clusters long videos, forming a hierarchical tree structure. The proposed VideoMiner progresses from long videos to events to frames while preserving temporal coherence, effectively addressing the first challenge. To precisely locate key frames, we introduce T-GRPO, a tree-based group relative policy optimization in reinforcement learning method that guides the exploration of the VideoMiner. The proposed T-GRPO is specifically designed for tree structures, integrating spatiotemporal information at the event level while being guided by the question, thus solving the second challenge. We achieve superior performance in all long-video understanding tasks and uncover several interesting insights. Our proposed T-GRPO surprisingly incentivizes the model to spontaneously generate a reasoning chain. Additionally, the designed tree growth auxin dynamically adjusts the expansion depth, obtaining accuracy and efficiency gains. The code is publicly available at https://github.com/caoxinye/VideoMiner.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Xinye Cao等人撰写的论文“VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization”的全面摘要。

论文摘要：VideoMiner：通过基于树的组相对策略优化迭代地定位长视频中的关键帧

1. 主要问题或研究问题： 该论文旨在解决长视频理解中存在的两个关键挑战： 1. 如何减轻长视频中大量冗余信息的干扰？ 随着视频长度的增加，多模态大型语言模型（MM-LLMs）在端到端视频理解中，由于均匀采样帧导致模型被大量不相关信息淹没。 2. 模型如何动态适应复杂的层次结构，同时准确识别关键帧？ 现有的层次化关键帧提取方法虽然提高了视频理解的准确性，但在处理复杂层次结构和精确关键帧定位方面仍面临挑战。

2. 关键创新或方法贡献： 为了解决上述挑战，论文提出了VideoMiner，一个新颖的基于强化学习的视频理解框架，其核心创新包括： * 层次化树结构构建： VideoMiner通过迭代地对长视频进行分割、生成字幕和聚类，构建了一个层次化的树结构。它从长视频层面逐步深入到事件层面，再到帧层面，同时保持时间连贯性，有效缓解了冗余信息干扰的问题。 * T-GRPO（Tree-based Group Relative Policy Optimization）： 为了精确地定位关键帧，论文引入了T-GRPO，这是一种基于树结构的组相对策略优化强化学习方法，用于指导VideoMiner的探索过程。T-GRPO专门为树结构设计，它在事件层面整合了时空信息，并由问题引导，从而解决了动态适应复杂层次结构和准确识别关键帧的问题。 * 奖励函数设计： T-GRPO的奖励函数被分解为节点级奖励（评估单个节点决策质量）和树级奖励（反映最终树级结果的正确性），以指导策略模型做出更结构化、详细和准确的关键帧决策。 * 树生长素（Tree Growth Auxin）机制： 引入了类似植物生长素的机制Aauxin，动态调整树的扩展深度，以平衡准确性和效率，并调节策略模型的探索倾向。 * 推理链的自发生成： T-GRPO出人意料地激励模型自发生成推理链，显著提升了模型的推理能力。

3. 主要结果及其意义： * 卓越的性能： VideoMiner在所有长视频理解任务中均取得了卓越的性能，并在短视频基准测试中也表现出色，显著优于多种基线方法。 * 长视频理解的优势： 随着视频长度的增加，VideoMiner与基线方法之间的性能差距逐渐扩大，表明其在长视频理解任务中的优越性。这得益于其场景分割和聚类方法最大限度地保留了时间信息，以及强化学习训练的策略模型具备自定向决策能力。 * 事件聚类的有效性： 事件聚类相比帧聚类能保留更丰富的时间信息，并促进树结构的有效构建，在大多数基准测试中实现了最短的运行时间和最高的准确性。 * T-GRPO的有效性： T-GRPO引入的树级奖励设计显著增强了策略模型的推理能力，使其能够考虑当前决策对未来结果的影响，从而提高了准确性。 * 补全长度和生长速率的影响： 实验表明，更长的补全长度（即扩展的补全过程）会带来更高的准确性，因为强化学习过程会自然地诱导思维链行为。此外，树生长速率Aauxin动态调节扩展深度，平衡了准确性和效率。

4. 论文中提及的局限性： * 短视频任务的性能差距： 尽管VideoMiner在长视频任务中表现优异，但在短视频任务中，与端到端方法相比仍存在一定的性能差距。这主要是因为VideoMiner和端到端方法使用了不同的基础模型，且其模型是专门为视频任务训练和增强的。VideoMiner主要为关键帧选择至关重要的长视频理解而设计，而短视频则不一定需要。

5. 潜在的未来研究方向： 论文未明确提出未来研究方向，但从其贡献和局限性可以推断： * 优化短视频理解： 进一步研究如何调整VideoMiner的架构或训练策略，以缩小其在短视频任务中与端到端方法的性能差距。 * 更广泛的应用场景： 探索VideoMiner在其他需要精确关键帧定位和层次化理解的长视频应用中的潜力，例如视频编辑、内容检索或教育领域。 * 多模态信息融合的深度探索： 进一步研究如何更有效地整合和利用视频中的各种模态信息（如音频、文本、视觉），以提升理解能力。 * 可解释性与透明度： 鉴于T-GRPO能够自发生成推理链，未来可以深入研究如何利用这些推理链来提高模型的透明度和可解释性，帮助用户更好地理解模型的决策过程。

Key Findings:

To address these issues, we propose VideoMiner, which iteratively segments, captions, and clusters long videos, forming a hierarchical tree structure.
To precisely locate key frames, we introduce T-GRPO, a tree-based group relative policy optimization in reinforcement learning method that guides the exploration of the VideoMiner.
We achieve superior performance in all long-video understanding tasks and uncover several interesting insights.

Links:

PDF
arXiv

Continual Learning for Image Captioning through Improved Image-Text Alignment

Authors: Bertram Taetz, Gal Bordelius

Published: 2025-10-07

Categories: cs.CV

Abstract:

Generating accurate and coherent image captions in a continual learning setting remains a major challenge due to catastrophic forgetting and the difficulty of aligning evolving visual concepts with language over time. In this work, we propose a novel multi-loss framework for continual image captioning that integrates semantic guidance through prompt-based continual learning and contrastive alignment. Built upon a pretrained ViT-GPT-2 backbone, our approach combines standard cross-entropy loss with three additional components: (1) a prompt-based cosine similarity loss that aligns image embeddings with synthetically constructed prompts encoding objects, attributes, and actions; (2) a CLIP-style loss that promotes alignment between image embeddings and target caption embedding; and (3) a language-guided contrastive loss that employs a triplet loss to enhance class-level discriminability between tasks. Notably, our approach introduces no additional overhead at inference time and requires no prompts during caption generation. We find that this approach mitigates catastrophic forgetting, while achieving better semantic caption alignment compared to state-of-the-art methods. The code can be found via the following link https://github.com/ Gepardius/Taetz_Bordelius_Continual_ImageCaptioning.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Bertram Taetz和Gal Bordelius撰写的论文“Continual Learning for Image Captioning through Improved Image-Text Alignment”的全面摘要。

论文摘要：持续学习图像字幕生成中的改进图像-文本对齐

1. 主要问题或研究问题： 该论文旨在解决持续学习（Continual Learning）环境下图像字幕生成所面临的核心挑战。具体来说，它关注两个主要问题： * 灾难性遗忘（Catastrophic Forgetting）： 在模型学习新任务时，如何防止其遗忘先前学习到的知识。 * 视觉概念与语言的对齐： 如何有效地将不断演变的视觉概念与语言描述进行对齐，以生成准确且连贯的图像字幕。

2. 关键创新或方法论贡献： 作者提出了一种新颖的多损失框架（multi-loss framework），用于持续学习图像字幕生成，其核心在于通过基于提示的持续学习（prompt-based continual learning）和对比对齐（contrastive alignment）来整合语义指导。该方法基于预训练的ViT-GPT-2骨干网络，并结合了以下三个额外的损失组件：

基于提示的余弦相似度损失（Prompt-based Cosine Similarity Loss - $L_{nouns}$ ）： 旨在将图像嵌入（image embeddings）与人工构建的、编码了对象、属性和动作的提示嵌入（synthetically constructed prompts）进行对齐。这有助于模型更好地理解场景中的关键视觉元素。
CLIP风格的损失（CLIP-style Loss - $L_{CLIP}$ ）： 促进图像嵌入与目标字幕嵌入（target caption embedding）之间的对齐，从而增强视觉和文本模态在共享语义空间中的一致性。
语言引导的对比损失（Language-Guided Contrastive Loss - $L_{LGCL}$ ）： 采用三元组损失（triplet loss）来增强任务之间类级别的可区分性。它鼓励图像嵌入与其正确的语言对应物保持接近，同时与不匹配的负样本保持一定距离。

值得注意的是，该方法在推理时不引入额外的开销，并且在字幕生成过程中不需要提示。

3. 主要结果及其意义： 实验结果表明，该方法在缓解灾难性遗忘方面表现出色，并且与现有最先进的方法相比，实现了更好的语义字幕对齐。

缓解灾难性遗忘： 在ContCap和RATT数据集上的实验显示，CLICITA方法在知识保留方面优于预训练基线模型，平均遗忘率更低。
改进语义对齐： 与现有方法相比，CLICITA在METEOR等语义指标上表现出显著提升，表明其生成的字幕在语义上更准确、更连贯。
推理效率： 该方法在推理时无需额外开销和提示，使其适用于资源受限的环境。

4. 论文中提及的局限性： 论文中并未明确提及当前方法的具体局限性，但作为持续学习领域的研究，通常会面临以下潜在挑战（尽管论文未直接指出）： * 模型复杂性： 引入多个损失函数可能会增加训练的复杂性。 * 超参数调优： 多个损失组件的权重平衡可能需要精细的超参数调优。 * 泛化能力： 尽管在特定数据集上表现良好，但在更广泛、更多样化的持续学习场景中的泛化能力仍需进一步验证。

5. 潜在的未来研究方向： 作者提出了以下未来研究方向： * 更强大和鲁棒的模型： 探索将该方法应用于更强大和鲁棒的图像字幕生成模型。 * 更大的持续学习图像字幕数据集： 在更大的持续学习图像字幕数据集上进行实验，以进一步验证和提升方法的性能。

这份摘要旨在清晰、简洁地传达论文的核心内容，突出其在持续学习图像字幕生成领域的贡献。

Key Findings:

In this work, we propose a novel multi-loss framework for continual image captioning that integrates semantic guidance through prompt-based continual learning and contrastive alignment.
Built upon a pretrained ViT-GPT-2 backbone, our approach combines standard cross-entropy loss with three additional components: (1) a prompt-based cosine similarity loss that aligns image embeddings with synthetically constructed prompts encoding objects, attributes, and actions; (2) a CLIP-style loss that promotes alignment between image embeddings and target caption embedding; and (3) a language-guided contrastive loss that employs a triplet loss to enhance class-level discriminability between tasks.
Notably, our approach introduces no additional overhead at inference time and requires no prompts during caption generation.
We find that this approach mitigates catastrophic forgetting, while achieving better semantic caption alignment compared to state-of-the-art methods.

Links:

PDF
arXiv

Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density

Authors: Randall Balestriero, Nicolas Ballas, Mike Rabbat, Yann LeCun

Published: 2025-10-07

Categories: cs.LG, cs.AI, cs.CV, stat.ML

Abstract:

Joint Embedding Predictive Architectures (JEPAs) learn representations able to solve numerous downstream tasks out-of-the-box. JEPAs combine two objectives: (i) a latent-space prediction term, i.e., the representation of a slightly perturbed sample must be predictable from the original sample's representation, and (ii) an anti-collapse term, i.e., not all samples should have the same representation. While (ii) is often considered as an obvious remedy to representation collapse, we uncover that JEPAs' anti-collapse term does much more--it provably estimates the data density. In short, any successfully trained JEPA can be used to get sample probabilities, e.g., for data curation, outlier detection, or simply for density estimation. Our theoretical finding is agnostic of the dataset and architecture used--in any case one can compute the learned probabilities of sample $x$ efficiently and in closed-form using the model's Jacobian matrix at $x$ . Our findings are empirically validated across datasets (synthetic, controlled, and Imagenet) and across different Self Supervised Learning methods falling under the JEPA family (I-JEPA and DINOv2) and on multimodal models, such as MetaCLIP. We denote the method extracting the JEPA learned density as {\bf JEPA-SCORE}.

Analysis:

作为计算机视觉和机器学习领域的专家，我对这篇论文摘要进行如下分析：

论文摘要分析：Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density

1. 论文主要贡献的简洁总结 (2-3 句话)

这篇论文的核心贡献在于揭示了联合嵌入预测架构（JEPAs）中的“反坍缩项”不仅能防止表示坍缩，还能可证明地估计数据密度。这意味着任何成功训练的JEPA模型，其内部机制实际上已经学习到了数据分布的概率信息。作者提出了一种名为JEPA-SCORE的方法，能够高效且以闭合形式，利用模型在样本处的雅可比矩阵，从JEPA中提取这些学习到的样本概率。

2. 关键创新或方法论方法

关键创新在于理论上证明了JEPA的反坍缩项与数据密度估计之间的内在联系。这颠覆了传统上认为反坍缩项仅仅是防止模型退化的观点。方法论上，论文提出了一种基于模型雅可比矩阵的闭合形式计算方法，用于从已训练的JEPA中高效地提取样本概率，并将其命名为JEPA-SCORE。这种方法具有普适性，不依赖于具体数据集或架构。

3. 对领域潜在影响

统一了自监督学习与密度估计： 这项工作将自监督学习（特别是JEPA家族）与生成模型和密度估计领域联系起来，为理解自监督学习的深层机制提供了新的视角。
提升JEPA模型的价值： JEPA模型不再仅仅是用于下游任务的特征提取器，它们现在被证明内在地包含了数据分布信息，极大地扩展了其应用潜力。
新的数据理解工具： JEPA-SCORE提供了一种从现有自监督模型中“免费”获取数据密度信息的方法，无需额外训练专门的密度估计模型。
推动理论研究： 这一发现可能会激发更多关于自监督学习中不同组件功能及其与统计学原理之间联系的理论研究。

4. 可能受益的相关领域或应用

数据策展 (Data Curation)： 可以利用学习到的样本概率来识别有代表性的样本，或过滤掉低质量、冗余的数据，从而优化训练数据集。
异常检测 (Outlier Detection)： 低概率的样本很可能是异常值，JEPA-SCORE可以直接用于识别这些异常。
密度估计 (Density Estimation)： 提供了一种新的、可能更高效的密度估计方法，尤其是在自监督学习已经广泛应用的环境中。
生成模型 (Generative Models)： 对数据密度的理解是生成模型的基础，这项研究可能为条件生成、样本质量评估等提供新的思路。
多模态学习 (Multimodal Learning)： 摘要中提到在MetaCLIP等多模态模型上的验证，表明该方法在处理复杂多模态数据分布方面也具有潜力。
自监督学习的可解释性： 深入理解JEPA的工作原理，有助于提高自监督学习模型的可解释性。

5. 从摘要中可以推断出的局限性

计算成本： 虽然摘要声称“高效且以闭合形式”计算雅可比矩阵，但在非常大的模型和高维数据上，计算雅可比矩阵的成本仍然可能是一个实际的考虑因素。
“成功训练”的定义： 论文强调“任何成功训练的JEPA”，但“成功”的定义可能需要进一步明确。例如，如果JEPA训练不充分或收敛到次优解，其学习到的密度估计的准确性如何？
密度估计的质量： 尽管能够估计密度，但其估计的准确性、鲁棒性以及与专门的密度估计方法（如流模型、扩散模型）相比的优劣，仍需在更广泛的场景下进行深入评估。
理论与实践的差距： 理论证明了联系，但实际应用中，这种密度估计在各种下游任务中的表现（例如，异常检测的F1分数）是否能超越现有SOTA方法，仍需大量实验验证。
仅限于JEPA家族： 尽管JEPA家族涵盖了I-JEPA和DINOv2等重要方法，但该理论是否能推广到其他非JEPA类的自监督学习方法（如对比学习、掩码图像建模等），摘要中并未提及。

总而言之，这篇论文为自监督学习领域带来了令人兴奋的新视角，它不仅揭示了JEPA模型的一个“隐藏”能力，还提供了一种实用的工具来利用这一能力。如果其理论和实验结果能够得到广泛验证，它将对我们理解和应用自监督学习模型产生深远影响。

Key Findings:

Our findings are empirically validated across datasets (synthetic, controlled, and Imagenet) and across different Self Supervised Learning methods falling under the JEPA family (I-JEPA and DINOv2) and on multimodal models, such as MetaCLIP.
We denote the method extracting the JEPA learned density as {\bf JEPA-SCORE}.

Links:

PDF
arXiv

Kaputt: A Large-Scale Dataset for Visual Defect Detection

Authors: Sebastian Höfer, Dorian Henning, Artemij Amiranashvili, Douglas Morrison, Mariliza Tzes, Ingmar Posner, Marc Matvienko, Alessandro Rennola, Anton Milan

Published: 2025-10-07

Categories: cs.CV, cs.AI, cs.LG

Abstract:

We present a novel large-scale dataset for defect detection in a logistics setting. Recent work on industrial anomaly detection has primarily focused on manufacturing scenarios with highly controlled poses and a limited number of object categories. Existing benchmarks like MVTec-AD [6] and VisA [33] have reached saturation, with state-of-the-art methods achieving up to 99.9% AUROC scores. In contrast to manufacturing, anomaly detection in retail logistics faces new challenges, particularly in the diversity and variability of object pose and appearance. Leading anomaly detection methods fall short when applied to this new setting. To bridge this gap, we introduce a new benchmark that overcomes the current limitations of existing datasets. With over 230,000 images (and more than 29,000 defective instances), it is 40 times larger than MVTec-AD and contains more than 48,000 distinct objects. To validate the difficulty of the problem, we conduct an extensive evaluation of multiple state-of-the-art anomaly detection methods, demonstrating that they do not surpass 56.96% AUROC on our dataset. Further qualitative analysis confirms that existing methods struggle to leverage normal samples under heavy pose and appearance variation. With our large-scale dataset, we set a new benchmark and encourage future research towards solving this challenging problem in retail logistics anomaly detection. The dataset is available for download under https://www.kaputt-dataset.com.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将对这篇论文摘要进行详细分析。

论文摘要分析：Kaputt: A Large-Scale Dataset for Visual Defect Detection

1. 论文主要贡献的简洁总结 (2-3 句话)

这篇论文的主要贡献是引入了一个名为“Kaputt”的全新大规模数据集，用于零售物流环境中的视觉缺陷检测。该数据集旨在解决现有工业异常检测基准（如MVTec-AD和VisA）在处理物体姿态和外观多样性方面的局限性，这些现有基准在受控制造场景中已接近饱和。Kaputt数据集的规模是MVTec-AD的40倍，包含超过23万张图像和2.9万个缺陷实例，并明确指出当前最先进的异常检测方法在该数据集上的表现远低于预期（AUROC仅为56.96%），从而为该领域设定了新的挑战。

2. 关键创新或方法论方法

这篇论文的关键创新在于数据集的构建和其所针对的新颖且更具挑战性的问题设定。它没有提出新的算法，而是通过创建一个大规模、高多样性的数据集来推动领域发展。具体来说：

问题域的转移和扩展： 从高度受控的制造场景转向零售物流，引入了物体姿态和外观的巨大多样性，这在现有基准中是缺失的。
数据集规模和复杂性： Kaputt数据集的规模（23万张图像，2.9万个缺陷实例，4.8万个独立物体）远超现有基准，提供了更丰富的训练和测试数据。
明确的挑战设定： 通过展示现有SOTA方法在该数据集上的低性能（56.96% AUROC），明确指出了当前方法的局限性，并为未来的研究设定了明确的改进目标。
强调“正常样本”的利用挑战： 摘要中提到“现有方法难以在严重的姿态和外观变化下利用正常样本”，这暗示了该数据集的复杂性不仅在于缺陷本身，还在于如何有效学习“正常”的分布。

3. 对领域潜在影响

推动异常检测研究的新方向： 该数据集将促使研究人员开发更鲁棒、更泛化的异常检测算法，以应对高姿态和外观多样性。
加速零售物流自动化： 解决零售物流中的缺陷检测问题，将直接促进该领域的自动化和效率提升，减少人工检查的成本和错误。
促进自监督/无监督学习的发展： 异常检测本质上是无监督或半监督问题，该数据集的挑战性将激励在这些领域进行更深入的研究，尤其是在如何从大量“正常”但高度变化的样本中学习有效表示方面。
新的基准和比较平台： Kaputt将成为未来异常检测算法性能评估的新标准，尤其是在非受控工业场景中。

4. 相关领域或应用可能受益于这项研究

智能仓储和物流： 自动识别包裹、商品或设备在运输、存储过程中的损坏或缺陷。
质量控制（非受控环境）： 例如，在回收分类、农产品分拣等场景中，物体姿态和外观变化大。
机器人抓取和操作： 机器人需要识别并避免抓取有缺陷的物体，或在复杂环境中进行操作。
计算机视觉中的域泛化（Domain Generalization）和少样本学习（Few-Shot Learning）： 应对高多样性数据，需要模型具备更好的泛化能力，并可能需要从少量缺陷样本中学习。
数据增强和合成数据生成： 面对如此复杂的数据，如何有效地进行数据增强或生成合成数据以提高模型性能将成为一个研究方向。

5. 从摘要中可以推断出的局限性

数据集的缺陷类型未明确说明： 摘要中只提到“缺陷实例”，但没有详细说明缺陷的种类、大小、严重程度等，这可能会影响研究人员对数据集复杂性的理解和算法设计。
“零售物流”的具体场景未完全展开： 虽然提到了零售物流，但具体是哪种商品、哪种包装、哪种物流环节（如入库、出库、分拣）等细节缺失，这可能影响研究人员对问题背景的深入理解。
缺乏对“正常样本”多样性的量化： 摘要强调了“姿态和外观变化”，但没有提供量化的指标来描述这种多样性，例如姿态变化的范围、光照变化的程度等。
现有方法失败的具体原因分析有限： 摘要中提到“现有方法难以在严重的姿态和外观变化下利用正常样本”，但更深入的定性或定量分析（例如，是特征提取不足？还是异常分数计算机制不适应？）在摘要中并未详细展开。
数据集的标注质量和一致性： 作为一个大规模数据集，其标注的准确性和一致性至关重要，但摘要中没有提及相关的标注协议或质量控制措施。
仅关注AUROC指标： 虽然AUROC是异常检测的常用指标，但在某些实际应用中，其他指标如F1分数、精确率-召回率曲线下的面积（AUPRC）等也可能很重要，尤其是在缺陷样本稀少的情况下。摘要中未提及其他指标。

总而言之，这篇论文通过引入一个具有挑战性的新数据集，为计算机视觉领域的异常检测研究注入了新的活力。它明确指出了当前SOTA方法在处理真实世界复杂性方面的局限性，并为未来的研究设定了清晰的方向。其对零售物流领域的关注也使其具有重要的实际应用价值。

Key Findings:

We present a novel large-scale dataset for defect detection in a logistics setting.
Existing benchmarks like MVTec-AD [6] and VisA [33] have reached saturation, with state-of-the-art methods achieving up to 99.9% AUROC scores.
In contrast to manufacturing, anomaly detection in retail logistics faces new challenges, particularly in the diversity and variability of object pose and appearance.
Leading anomaly detection methods fall short when applied to this new setting.
To bridge this gap, we introduce a new benchmark that overcomes the current limitations of existing datasets.
To validate the difficulty of the problem, we conduct an extensive evaluation of multiple state-of-the-art anomaly detection methods, demonstrating that they do not surpass 56.96% AUROC on our dataset.
With our large-scale dataset, we set a new benchmark and encourage future research towards solving this challenging problem in retail logistics anomaly detection.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-10-08

Executive Summary

Table of Contents

Papers

论文摘要：文本到视频生成技术综述

论文摘要：Human3R: Everyone Everywhere All at Once