Arxiv Computer Vision Papers - 2025-09-16

Executive Summary

Arxiv 计算机视觉每日报告执行摘要 (2025-09-15)

概述：

今天的 Arxiv 计算机视觉论文主要围绕 基础模型（特别是 SAM 及其变体）的适应与增强、多模态学习（尤其是视觉-语言模型）、3D 感知与场景理解以及鲁棒性与泛化能力 这几个核心主题展开。显著趋势是研究人员致力于将强大的预训练模型（如 SAM）应用于更具体的下游任务，并探索其在少样本、零样本和领域适应场景下的潜力。

主要主题与趋势：

SAM (Segment Anything Model) 的持续演进与应用： 今天的报告中有四篇论文直接或间接涉及 SAM 或其下一代版本 SAM2。这表明 SAM 仍然是计算机视觉领域的热点，研究重点已从模型本身转向如何高效地将其适应到特定任务（如少样本语义分割、伪装目标检测、多目标跟踪与分割），以及如何解决其在特定场景下的局限性。
多模态学习与视觉-语言模型 (VLM)： SpecVLM 和 Dr.V 两篇论文凸显了 VLM 在效率和可靠性方面的研究进展。SpecVLM 关注推理速度优化，而 Dr.V 则致力于诊断和解决 VLM 中的“幻觉”问题，这对于提升 VLM 的实际应用价值至关重要。
3D 感知与场景理解： 3D 人体姿态与形状估计以及增量式 3D 场景图预测是该领域的亮点。这表明对真实世界三维信息的理解和建模仍然是重要的研究方向，尤其是在机器人、自动驾驶等应用中。
鲁棒性、泛化与领域适应： 多篇论文关注模型在不同领域、不同条件下的鲁棒性和泛化能力。例如，域适应预训练用于灵长类行为识别，以及 RAM++ 旨在通过自适应掩码实现全能图像恢复的鲁棒性。

特别重要或创新的论文：

"FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation" (Bernardo Forni et al.)： 这篇论文代表了将强大的基础模型（SAM2）高效适应到数据稀缺任务（少样本语义分割）的最新尝试。通过低秩适应，它有望在保持模型性能的同时显著降低微调成本，具有很高的实用价值。
"Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding" (Meng Luo et al.)： 解决 VLM 的“幻觉”问题是当前 VLM 领域面临的关键挑战。Dr.V 提出的分层框架，通过细粒度的时空定位来诊断视频幻觉，为提升 VLM 的可靠性和可信度提供了新的思路。
"SpecVLM: Fast Speculative Decoding in Vision-Language Models" (Haiduo Huang et al.)： 随着 VLM 模型的规模不断扩大，推理效率成为瓶颈。SpecVLM 引入的推测解码技术，有望显著加速 VLM 的推理过程，对于 VLM 的实际部署具有重要意义。

新兴研究方向或技术：

SAM/SAM2 的轻量化与高效适应： 随着 SAM 模型的普及，如何以更低的计算成本和更少的数据将其适应到特定任务，将是未来的重要方向（如 FS-SAM2 中的低秩适应）。
VLM 的可靠性与可解释性： 解决 VLM 的“幻觉”问题（如 Dr.V）以及提升其决策过程的可解释性，将是 VLM 走向更广泛应用的关键。
多模态融合的鲁棒性： 如何在复杂多变的环境中，有效地融合不同模态（如 LiDAR 点云、图像）的信息，并保持模型的鲁棒性，仍是活跃的研究领域。
增量式学习在3D场景理解中的应用： 随着机器人和自动驾驶系统在动态环境中运行，如何让模型能够持续学习和更新其对3D场景的理解，将变得越来越重要。

建议阅读全文的论文：

对于关注基础模型适应和高效利用的研究人员： * "FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation" * "Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization"

对于关注多模态学习和 VLM 挑战的研究人员： * "Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding" * "SpecVLM: Fast Speculative Decoding in Vision-Language Models"

对于关注 3D 感知和场景理解的研究人员： * "3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review" (作为该领域的综述，有助于全面了解) * "Integrating Prior Observations for Incremental 3D Scene Graph Prediction"

这份摘要旨在帮助您快速把握今日 Arxiv 计算机视觉领域的最新动态和重要进展。

3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review
Domain-Adaptive Pretraining Improves Primate Behavior Recognition
RailSafeNet: Visual Scene Understanding for Tram Safety
FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation
RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration
Integrating Prior Observations for Incremental 3D Scene Graph Prediction
SAM-TTT: Segment Anything Model via Reverse Parameter Configuration and Test-Time Training for Camouflaged Object Detection
Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
SpecVLM: Fast Speculative Decoding in Vision-Language Models
Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization

Papers

3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review

Authors: Salma Galaaoui, Eduardo Valle, David Picard, Nermin Samet

Published: 2025-09-15

Categories: cs.CV

Abstract:

In this paper, we present a comprehensive review of 3D human pose estimation and human mesh recovery from in-the-wild LiDAR point clouds. We compare existing approaches across several key dimensions, and propose a structured taxonomy to classify these methods. Following this taxonomy, we analyze each method's strengths, limitations, and design choices. In addition, (i) we perform a quantitative comparison of the three most widely used datasets, detailing their characteristics; (ii) we compile unified definitions of all evaluation metrics; and (iii) we establish benchmark tables for both tasks on these datasets to enable fair comparisons and promote progress in the field. We also outline open challenges and research directions critical for advancing LiDAR-based 3D human understanding. Moreover, we maintain an accompanying webpage that organizes papers according to our taxonomy and continuously update it with new studies: https://github.com/valeoai/3D-Human-Pose-Shape-Estimation-from-LiDAR

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Salma Galaaoui, Eduardo Valle, David Picard, Nermin Samet撰写的论文“3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review”的全面摘要。

论文摘要：3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review

这篇综述论文全面回顾了从“野外”（in-the-wild）LiDAR点云中进行3D人体姿态估计（3D HPE）和人体网格恢复（HMR）的现有方法。作者旨在为该领域提供一个结构化的分类和深入的分析，以促进LiDAR-based人体理解的进一步发展。

1. 主要问题或研究问题： 论文主要关注的核心问题是如何从稀疏、不规则、有噪声且可能存在遮挡的“野外”LiDAR点云中准确地估计3D人体姿态和恢复详细的人体网格。尽管LiDAR在自动驾驶和城市环境感知中具有隐私保护、精确深度测量和对光照条件鲁棒等优势，但其数据特性（如稀疏性、不均匀采样、不完整性）给3D人体理解带来了巨大挑战。

2. 关键创新或方法论贡献： 论文的主要贡献在于： * 结构化分类法： 提出了一个结构化的分类法，将现有方法根据其学习范式（监督、弱监督、无监督）、输入模态（仅LiDAR或多模态融合）、网络架构（如PointNet变体、Transformer）以及处理稀疏性和时间信息的方式进行分类。 * 方法分析： 详细分析了每种方法的优势、局限性和设计选择，特别是它们如何应对LiDAR点云的稀疏性和不规则性。例如，针对稀疏性，方法包括结构化投影、全稀疏体素处理、混合BEV+体素融合、密度感知注意力Transformer等。 * 数据集和评估指标的统一： 对三个最广泛使用的LiDAR数据集（Waymo Open Dataset, SLOPER4D, Human-M3）进行了定量比较，详细阐述了它们的特性。同时，统一了所有评估指标的定义，确保了公平比较的基础。 * 基准测试： 建立了针对3D HPE和HMR任务在这三个数据集上的基准测试表，为该领域的进展提供了参考。 * 开放挑战和未来方向： 概述了LiDAR-based人体理解面临的开放挑战和潜在研究方向。 * 配套网页： 维护了一个配套网页，根据论文的分类法组织论文，并持续更新。

3. 主要结果及其意义： 论文通过对现有方法的全面梳理和基准测试，揭示了以下重要发现： * 多模态融合的有效性： 许多弱监督方法通过融合LiDAR与RGB图像或IMU信号来弥补LiDAR数据的不足，提高了姿态估计的鲁棒性。 * Transformer架构的兴起： Transformer在处理LiDAR点云的长期依赖性和不规则结构方面展现出巨大潜力，成为许多最新方法的骨干。 * 合成数据的重要性： 鉴于真实LiDAR数据集的稀缺性，合成数据生成和数据增强是训练模型、特别是预训练模型以学习人体中心先验的关键策略。 * 弱监督学习的潜力： 弱监督方法通过利用2D标注、伪标签、投影一致性等策略，有效缓解了对大量3D标注的需求。 * 时间一致性： 建模时间序列信息对于提高姿态估计的准确性和鲁棒性至关重要，尤其是在处理遮挡和运动预测时。

这些结果为研究人员提供了该领域当前技术水平的清晰视图，并指出了未来研究的有效路径。

4. 论文中提及的局限性： * 数据稀缺性： 缺乏大规模、高质量标注的LiDAR人体姿态和网格数据集是核心挑战。 * 多模态方法的依赖性： 现有弱监督方法仍高度依赖RGB图像或IMU信号等辅助模态，降低对这些模态的依赖是未来的方向。 * 相机参数依赖： 当前多模态方法严重依赖精确的相机参数进行2D-3D对应，这在实际应用中带来了挑战。 * 域间隙问题： 不同LiDAR传感器特性（如点密度、范围、噪声模式）和扫描模式（NRS与RMB）导致的数据集之间存在域间隙，影响模型的泛化能力。 * 合成数据的局限性： 当前合成数据生成存在域不匹配（如AMASS主要包含室内姿态，而WOD和SLOPER4D是室外场景）和真实感差距（射线投射未能完全捕捉真实LiDAR传感器的噪声、稀疏性和视角特性）。

5. 潜在的未来研究方向： * 减少对辅助模态的依赖： 探索仅使用LiDAR数据实现弱监督HPE和HMR的方法，例如通过伪标签、自训练或对比学习。 * 整合时间信息： 进一步利用LiDAR帧序列中的时间线索，以增强姿态估计的准确性，而无需额外监督。 * 更真实的合成数据生成： 开发能够直接从真实世界分布中生成合成LiDAR数据的方法，特别是利用扩散模型等生成式模型。 * 数据高效学习： 采用自监督预训练，然后用少量监督数据对模型进行微调，以提高LiDAR-based HPE/HMR的数据效率。 * 弱监督HMR： 针对HMR任务开发弱监督方法，这是一个尚未充分探索但前景广阔的方向。 * 消除相机参数依赖： 用可学习模块取代对显式校准的需求，实现端到端的对齐。 * 域适应技术： 开发能够处理不同LiDAR传感器特性和扫描模式之间域间隙的鲁棒架构和适应策略，以提高模型的泛化能力。

这篇综述为LiDAR-based 3D人体理解领域提供了一个全面的路线图，不仅总结了现有成就，更清晰地指明了未来的研究方向和挑战，对于推动该领域的发展具有重要意义。

Key Findings:

In this paper, we present a comprehensive review of 3D human pose estimation and human mesh recovery from in-the-wild LiDAR point clouds.
Moreover, we maintain an accompanying webpage that organizes papers according to our taxonomy and continuously update it with new studies: https://github.com/valeoai/3D-Human-Pose-Shape-Estimation-from-LiDAR

Links:

PDF
arXiv

Domain-Adaptive Pretraining Improves Primate Behavior Recognition

Authors: Felix B. Mueller, Timo Lueddecke, Richard Vogg, Alexander S. Ecker

Published: 2025-09-15

Categories: cs.CV, I.4.8; I.2.10; I.5

Abstract:

Computer vision for animal behavior offers promising tools to aid research in ecology, cognition, and to support conservation efforts. Video camera traps allow for large-scale data collection, but high labeling costs remain a bottleneck to creating large-scale datasets. We thus need data-efficient learning approaches. In this work, we show that we can utilize self-supervised learning to considerably improve action recognition on primate behavior. On two datasets of great ape behavior (PanAf and ChimpACT), we outperform published state-of-the-art action recognition models by 6.1 %pt. accuracy and 6.3 %pt. mAP, respectively. We achieve this by utilizing a pretrained V-JEPA model and applying domain-adaptive pretraining (DAP), i.e. continuing the pretraining with in-domain data. We show that most of the performance gain stems from the DAP. Our method promises great potential for improving the recognition of animal behavior, as DAP does not require labeled samples. Code is available at https://github.com/ecker-lab/dap-behavior

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Felix B. Mueller等人撰写的论文“Domain-Adaptive Pretraining Improves Primate Behavior Recognition”的全面摘要。

论文摘要：Domain-Adaptive Pretraining Improves Primate Behavior Recognition

1. 主要问题或研究问题： 该研究旨在解决动物行为识别领域中的一个核心挑战：如何利用计算机视觉技术，在面对高昂的标注成本和缺乏大规模标注数据集的情况下，实现对灵长类动物行为的高效、准确识别。特别是，视频相机陷阱（camera traps）能够收集大量野外数据，但这些数据的标注成本极高，限制了数据驱动学习方法的应用。因此，论文寻求数据高效的学习方法来改进灵长类行为识别。

2. 关键创新或方法论贡献： 论文的核心创新在于结合了自监督学习和领域自适应预训练（Domain-Adaptive Pretraining, DAP）来解决上述问题。具体贡献包括： * 利用预训练的V-JEPA模型： 研究首先利用一个在人类视频数据上预训练好的V-JEPA（Video Joint Embedding Predictive Architecture）模型作为骨干网络。V-JEPA是一种基于掩码自编码器（masked autoencoding）的自监督学习方法，能够学习视频数据的有效表示。 * 引入领域自适应预训练（DAP）： 在V-JEPA模型的基础上，研究进一步在无标签的灵长类动物视频数据上进行DAP。这意味着模型在目标领域（灵长类行为）的未标注数据上继续进行自监督预训练，以更好地适应目标领域的特征分布。 * 灵长类中心采样策略： 针对灵长类数据集的特点（如视频中可能包含多个灵长类个体或个体较小），论文采用了一种灵长类中心采样策略。通过使用Grounding DINO等开放词汇目标检测器，裁剪出视频中包含灵长类动物的部分，从而在不增加输入尺寸的情况下捕获更精细的个体细节。 * 注意力分类器： 在冻结的预训练骨干网络之上，训练了一个多头交叉注意力（multihead cross-attention）分类器，用于最终的行为识别任务。

3. 主要结果及其重要性： 该方法在两个大猿行为数据集（PanAf和ChimpACT）上取得了显著的性能提升： * PanAf500数据集： 在Top-1准确率上，相比之前发布的最新模型，性能提升了6.1个百分点。 * ChimpACT数据集： 在平均精度均值（mAP）上，性能提升了6.3个百分点。 * DAP的关键作用： 论文明确指出，大部分性能提升来源于领域自适应预训练（DAP），而非仅仅使用预训练的V-JEPA模型。这强调了在目标领域数据上进行无标签预训练的重要性。 * 数据高效性： 结果表明，DAP不需要标注样本，这使其成为一种非常有前景的数据高效学习方法，极大地降低了创建大规模标注数据集的成本。

4. 论文中提及的局限性： * 依赖边界框裁剪： 当前方法依赖于将输入视频裁剪到边界框内。虽然这有助于更好地利用ViT模型有限的输入分辨率，但它忽略了全局上下文信息，并且对于每个感兴趣区域都需要进行一次前向传播。

5. 潜在的未来研究方向： * DAP的规模化： 未来的工作可以探索如何进一步扩展DAP的应用，结合更大、更多样化的动物数据源，以学习更好的表示并辅助行为识别。 * 尾部类别性能提升： 结合更多数据源有望改善对尾部类别（即数据量较少的行为类别）的识别性能，因为这些类别通常难以从少量数据中学习到良好的表示。 * 全局上下文的利用： 解决当前方法因裁剪而忽略全局上下文的问题，可能通过引入多尺度特征融合或更复杂的注意力机制来实现。

总而言之，这篇论文成功地展示了自监督学习与领域自适应预训练相结合，能够显著提升灵长类动物行为识别的性能，尤其是在数据标注成本高昂的野外环境中。DAP作为一种无需标注样本的方法，为动物行为研究和保护提供了强大的新工具。

Key Findings:

In this work, we show that we can utilize self-supervised learning to considerably improve action recognition on primate behavior.
On two datasets of great ape behavior (PanAf and ChimpACT), we outperform published state-of-the-art action recognition models by 6.1 %pt.
We achieve this by utilizing a pretrained V-JEPA model and applying domain-adaptive pretraining (DAP), i.e. continuing the pretraining with in-domain data.
We show that most of the performance gain stems from the DAP.
Our method promises great potential for improving the recognition of animal behavior, as DAP does not require labeled samples.

Links:

PDF
arXiv

RailSafeNet: Visual Scene Understanding for Tram Safety

Authors: Ing. Ondrej Valach, Ing. Ivan Gruber

Published: 2025-09-15

Categories: cs.CV, 68T45 (Primary), 68T07, I.4.8

Abstract:

Tram-human interaction safety is an important challenge, given that trams frequently operate in densely populated areas, where collisions can range from minor injuries to fatal outcomes. This paper addresses the issue from the perspective of designing a solution leveraging digital image processing, deep learning, and artificial intelligence to improve the safety of pedestrians, drivers, cyclists, pets, and tram passengers. We present RailSafeNet, a real-time framework that fuses semantic segmentation, object detection and a rule-based Distance Assessor to highlight track intrusions. Using only monocular video, the system identifies rails, localises nearby objects and classifies their risk by comparing projected distances with the standard 1435mm rail gauge. Experiments on the diverse RailSem19 dataset show that a class-filtered SegFormer B3 model achieves 65% intersection-over-union (IoU), while a fine-tuned YOLOv8 attains 75.6% mean average precision (mAP) calculated at an intersection over union (IoU) threshold of 0.50. RailSafeNet therefore delivers accurate, annotation-light scene understanding that can warn drivers before dangerous situations escalate. Code available at https://github.com/oValach/RailSafeNet.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Ing. Ondrej Valach和Ing. Ivan Gruber撰写的论文“RailSafeNet: Visual Scene Understanding for Tram Safety”的全面摘要。

论文摘要：RailSafeNet: 有轨电车安全视觉场景理解

1. 解决的主要问题或研究问题： 该论文旨在解决有轨电车与行人、骑自行车者、驾驶员、宠物和有轨电车乘客之间的安全互动问题。鉴于有轨电车经常在人口稠密地区运行，碰撞可能导致从轻微伤害到致命后果，因此提高有轨电车运行安全性是一个重要的挑战。核心研究问题是如何利用数字图像处理、深度学习和人工智能，通过实时场景理解来预警潜在的轨道入侵，从而提高安全性。

2. 关键创新或方法论贡献： RailSafeNet框架提出了以下关键创新和方法论贡献： * 实时融合框架： 提出了一个名为RailSafeNet的实时框架，它融合了语义分割、目标检测和一个基于规则的“距离评估器”（Distance Assessor）来识别轨道入侵。 * 单目视频距离估计： 引入了一种无需任何关于捕获、相机或设置参数的先验知识，仅通过单目图像即可进行轨道距离估计的方法。这通过利用标准1435毫米的轨距作为可靠的距离参考来实现。 * 定制分割处理： 采用了一种定制的分割处理方法，包括数据类别过滤和掩码后处理，这在RailSem19数据集上取得了优于原始论文的分割结果。 * 距离评估器系统： 提出了一个“距离评估器”系统，它处理场景分割和目标检测的输出，以准确估计物体与轨道的距离，并根据其接近程度对物体进行风险分类（例如，使用颜色编码区分不同级别的危险）。 * 无需深度传感器或LiDAR： 该方法不需要相机校准、深度传感器或LiDAR，使其成为一种低成本且易于部署的解决方案。

3. 主要结果及其意义： * 语义分割性能： 在多样化的RailSem19数据集上，经过类别过滤的SegFormer B3模型在交并比（IoU）方面达到了65%，超越了现有基准。 * 目标检测性能： 经过微调的YOLOv8模型在IoU阈值为0.50时，平均精度（mAP）达到了75.6%。 * 距离评估准确性： 实际验证实验表明，即使在弯曲轨道或倾斜相机视角等挑战性条件下，系统也能准确估计距离，偏差仅限于几厘米。 * 实际意义： RailSafeNet能够提供准确、轻量级标注的场景理解，可以在危险情况升级之前向驾驶员发出警告，从而显著降低事故风险和严重性。

4. 论文中提到的局限性： * 训练数据质量： 论文指出，尽管进行了类别过滤和掩码后处理，但原始RailSem19数据集的分割掩码仍存在不理想之处，例如不准确的标注、未检测或部分检测的物体，以及不理想分割类别之间看似任意的边缘。这影响了模型的性能。 * 类别不平衡： 目标检测模型在训练时面临类别不平衡问题，例如“人”和“汽车”等关键物体类别在数据集中代表性不足，导致这些关键物体的准确性较低。 * 复杂场景的偏差： 在弯曲轨道等复杂场景中，由于不完美的轨道分割，水平横截面测量可能导致轨道显得更宽，略微夸大距离估计，尤其是在图像的右侧。左侧的窄分割可能使关键区域向内偏移，导致约3-4厘米的偏差。

5. 潜在的未来研究方向： * 训练数据集增强： 未来的改进将通过增强训练数据集来实现，特别是更精确的轨道和轨床标注。 * 集成到自动制动系统： 提出的框架有望作为有轨电车操作员的实用日常工具，并有可能集成到自动制动系统等中，以进一步降低事故风险和严重性。 * 更广泛的部署和验证： 尽管在比尔森进行了实际验证，但未来可以在更多样化的真实世界场景中进行部署和验证，以进一步证明其鲁棒性。

总而言之，RailSafeNet为有轨电车安全提供了一个创新且实用的计算机视觉解决方案，通过融合深度学习模型和基于规则的距离评估，实现了对轨道入侵的实时、准确预警，为城市交通安全带来了显著的进步。

Key Findings:

We present RailSafeNet, a real-time framework that fuses semantic segmentation, object detection and a rule-based Distance Assessor to highlight track intrusions.

Links:

PDF
arXiv

FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation

Authors: Bernardo Forni, Gabriele Lombardi, Federico Pozzi, Mirco Planamente

Published: 2025-09-15

Categories: cs.CV

Abstract:

Few-shot semantic segmentation has recently attracted great attention. The goal is to develop a model capable of segmenting unseen classes using only a few annotated samples. Most existing approaches adapt a pre-trained model by training from scratch an additional module. Achieving optimal performance with these approaches requires extensive training on large-scale datasets. The Segment Anything Model 2 (SAM2) is a foundational model for zero-shot image and video segmentation with a modular design. In this paper, we propose a Few-Shot segmentation method based on SAM2 (FS-SAM2), where SAM2's video capabilities are directly repurposed for the few-shot task. Moreover, we apply a Low-Rank Adaptation (LoRA) to the original modules in order to handle the diverse images typically found in standard datasets, unlike the temporally connected frames used in SAM2's pre-training. With this approach, only a small number of parameters is meta-trained, which effectively adapts SAM2 while benefiting from its impressive segmentation performance. Our method supports any K-shot configuration. We evaluate FS-SAM2 on the PASCAL-5 $^i$ , COCO-20 $^i$ and FSS-1000 datasets, achieving remarkable results and demonstrating excellent computational efficiency during inference. Code is available at https://github.com/fornib/FS-SAM2

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Bernardo Forni等人撰写的论文“FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation”的全面摘要。

论文摘要：FS-SAM2: 通过低秩适应将Segment Anything Model 2应用于少样本语义分割

1. 主要问题或研究问题 该论文旨在解决少样本语义分割（Few-Shot Semantic Segmentation, FSS）的挑战。FSS的目标是开发一个模型，能够仅使用少量带标注的样本来分割未见过的类别。现有方法通常需要从头开始训练额外的模块，这需要在大规模数据集上进行大量训练才能达到最佳性能。作者提出，如何有效地将像Segment Anything Model 2 (SAM2) 这样的基础模型适应到FSS任务中，使其在处理多样化图像（而非SAM2预训练中使用的时序连接帧）时仍能保持高性能和计算效率，是一个关键问题。

2. 关键创新或方法论贡献 该论文提出了FS-SAM2，其核心创新点在于： * SAM2的视频能力重定向： FS-SAM2巧妙地将SAM2的视频分割能力直接重新用于FSS任务。它将支持图像视为带标注的视频帧，而查询图像则作为后续待分割的帧，利用SAM2的内存注意力模块进行像素级匹配。 * 低秩适应（LoRA）的应用： 为了高效且鲁棒地适应SAM2模型，作者将LoRA应用于SAM2的原始模块，包括图像编码器、内存编码器和内存注意力模块。LoRA通过引入少量可训练参数（仅元训练这些参数，而保持原始参数冻结）来微调选定的线性层，从而在处理标准数据集中常见的各种图像时，有效适应模型并增强特征提取，而无需从头训练任何特定模块。 * K-shot配置的通用支持： 该方法支持任何K-shot配置，无需为不同的K值训练不同的模型。所有K个支持图像都被视为先前标注的帧，并以相同框架处理。

3. 主要结果及其意义 FS-SAM2在PASCAL-5²、COCO-20²和FSS-1000数据集上进行了广泛评估，取得了显著成果： * 卓越的性能： 在PASCAL-5²数据集的1-shot场景中，FS-SAM2实现了73.4%的mIoU，超越了最可比较的方法VRP-SAM 1.5%。在COCO-20²数据集上，FS-SAM2在1-shot基准测试中优于VRP-SAM 1.4%，并在5-shot基准测试中表现出显著提升。 * 计算效率： 该方法在推理过程中表现出卓越的计算效率，这得益于LoRA仅微调少量参数，并避免了额外骨干网络或模块的引入。 * 泛化能力和鲁棒性： 在FSS-1000数据集和域迁移场景（训练数据与测试数据存在显著域差距）上的评估表明，FS-SAM2具有很强的鲁棒性，LoRA成功地将模型适应到少样本设置。 * 定性结果： 定性比较显示，FS-SAM2能够生成准确完整的掩码，捕捉精细细节和整个对象区域，甚至能修正地面真值标注中存在的微小不准确性，而SAM2在处理不相似的支持-查询对时则表现不佳。

4. 论文中提及的局限性 * 5-shot训练的优化空间： 论文指出，虽然FS-SAM2在5-shot设置中有所改进，但通过明确地在5-shot机制下训练模型，可能会获得进一步的提升。 * 跨类别通信能力： SAM2本身缺乏跨类别通信能力，这可能限制了FS-SAM2在多类别少样本分割任务中的表现，而这是一个相对未被充分探索但具有实际优势的任务。 * 与DINOv2骨干网络的比较： 论文提到，像GF-SAM这样使用DINOv2-L骨干网络（在包含PASCAL-VOC的数据集上预训练）的方法，虽然资源密集度更高，但在某些情况下仍能取得领先性能，这暗示了基础模型选择和预训练数据的重要性。

5. 潜在的未来研究方向 * 替代的5-shot训练方法： 探索更有效的5-shot训练策略，以进一步提升模型在多样本场景下的性能。 * 更参数高效的微调策略： 深入研究其他参数高效的微调方法，以在保持高性能的同时，进一步减少可训练参数的数量。 * 扩展到多类别设置： 将FS-SAM2方法扩展到多类别少样本语义分割任务，解决SAM2在跨类别通信方面的限制，以满足更广泛的实际应用需求。

总而言之，这篇论文通过巧妙地重定向SAM2的视频分割能力并结合LoRA进行高效微调，为少样本语义分割提供了一个简单而有效的框架。FS-SAM2在保持计算效率的同时，展现出与现有最先进方法相当甚至更优的性能，为利用大型基础模型解决低数据量计算机视觉任务开辟了新的途径。

Key Findings:

In this paper, we propose a Few-Shot segmentation method based on SAM2 (FS-SAM2), where SAM2's video capabilities are directly repurposed for the few-shot task.
Our method supports any K-shot configuration.

Links:

PDF
arXiv

RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration

Authors: Zilong Zhang, Chujie Qin, Chunle Guo, Yong Zhang, Chao Xue, Ming-Ming Cheng, Chongyi Li

Published: 2025-09-15

Categories: cs.CV

Abstract:

This work presents Robust Representation Learning via Adaptive Mask (RAM++), a two-stage framework for all-in-one image restoration. RAM++ integrates high-level semantic understanding with low-level texture generation to achieve content-oriented robust restoration. It addresses the limitations of existing degradation-oriented methods in extreme scenarios (e.g., degradations strongly coupled with image structures). RAM++ also mitigates common challenges such as unbalanced performance across tasks, overfitting to seen degradations, and weak generalization to unseen ones through three key designs: 1) Adaptive Semantic-Aware Mask (AdaSAM): a pretraining strategy that applies pixel-level masks to semantically rich and textured regions. This design enables the network to learn both generative priors and image content priors from various degradations. 2) Mask Attribute Conductance (MAC): a selective fine-tuning strategy that adjusts the layers with higher contributions to bridge the integrity gap between masked pretraining and full-image fine-tuning while retaining learned priors. 3) Robust Feature Regularization (RFR): a strategy that leverages DINOv2's semantically consistent and degradation-invariant representations, together with efficient feature fusion, to achieve faithful and semantically coherent restoration. With these designs, RAM++ achieves robust, well-balanced, and state-of-the-art performance across seen, unseen, extreme, and mixed degradations. Our code and model will be released at https://github.com/DragonisCV/RAM

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Zilong Zhang等人撰写的论文“RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration”的全面摘要。

论文摘要：RAM++: 基于自适应掩码的全能图像恢复的鲁棒表示学习

1. 主要问题或研究问题： 该论文旨在解决全能图像恢复（all-in-one image restoration）领域中的核心挑战。现有的退化导向方法在极端场景（例如，退化与图像结构强耦合）下表现不佳，并且普遍存在任务间性能不平衡、对已知退化过拟合以及对未知退化泛化能力弱等问题。作者认为，图像恢复的本质在于学习鲁棒的内在表示，能够从退化输入中恢复基本图像信息，而不是仅仅去除退化模式。

2. 关键创新或方法贡献： RAM++ 提出了一个两阶段框架，通过整合高级语义理解和低级纹理生成，实现内容导向的鲁棒恢复。其主要创新点包括：

自适应语义感知掩码 (AdaSAM)： 一种预训练策略，它对语义丰富和纹理区域应用像素级掩码。这使得网络能够从各种退化中学习生成先验和图像内容先验，从而在统一的潜在空间中编码多样化的退化。与简单随机像素级掩码不同，AdaSAM 结合了像素级恢复和区域级语义理解，专注于难以重建的区域。
掩码属性传导 (MAC)： 一种选择性微调策略，通过评估每个网络层在弥合掩码预训练和全图像微调之间完整性差距方面的贡献，调整贡献较高的层，同时保留已学习的先验。这允许模型在仅更新少量层（例如30%）的情况下实现高性能。
鲁棒特征正则化 (RFR)： 该策略利用 DINOv2 的语义一致性和退化不变性表示，结合高效的特征融合，实现忠实且语义连贯的恢复。DINOv2 的特征被整合到微调过程中，以增强图像恢复性能，尤其是在复杂退化场景下，并弥补恢复网络在预训练阶段学习主要内容能力的不足。

3. 主要结果及其意义： RAM++ 在已知、未知、极端和混合退化场景下均实现了鲁棒、均衡且最先进的性能。

性能提升： 在3任务和7任务图像恢复设置下，RAM++ 在PSNR和SSIM等指标上超越了现有最先进方法。例如，在7任务设置下，RAM++ 在完全微调（100%）时，比次优方法提升了0.70dB。
均衡性能： 随着任务数量的增加，RAM++ 策略不仅提升了整体性能，还将原始任务的性能下降限制在5.07%以内，并在七个任务中表现出最低的方差（4.83），表明其在多任务场景下的性能平衡性。
泛化能力： 在分布外（OOD）退化评估中，RAM++ 在未知噪声类型上实现了显著的PSNR增益，并有效处理了水下图像增强等任务，展示了强大的泛化能力和鲁棒性。
可解释性分析： 通过因果效应图（CEM）分析，论文揭示了RAM++的四个显著特性：有效的语义理解、稳定的全局信息获取、准确的正负信息判别以及优先的背景结构重建。

4. 论文中提及的局限性： 尽管RAM++表现出色，但仍存在局限性：

任务间冲突： 在包含多样化退化的混合数据集上进行微调，不可避免地会面临任务间的固有冲突。
细节推断挑战： 掩码图像建模的特性使得在内核去模糊等任务中推断细节更具挑战性。

5. 潜在的未来研究方向： 未来的研究方向包括：

多任务学习和优化数据混合策略： 进一步探索如何更好地处理任务间的冲突和数据混合。
扩展到视频恢复： 将该框架扩展到视频恢复领域，并结合时间一致性，以增强其通用恢复能力。

总而言之，RAM++ 通过引入 AdaSAM、MAC 和 RFR 等创新设计，为全能图像恢复提供了一种新颖的内容导向视角。它成功地解决了现有方法在极端场景、性能不平衡和泛化能力方面的局限性，并在多个基准测试中取得了显著的、最先进的成果，为该领域未来的发展奠定了坚实基础。

Key Findings:

2) Mask Attribute Conductance (MAC): a selective fine-tuning strategy that adjusts the layers with higher contributions to bridge the integrity gap between masked pretraining and full-image fine-tuning while retaining learned priors.
With these designs, RAM++ achieves robust, well-balanced, and state-of-the-art performance across seen, unseen, extreme, and mixed degradations.

Links:

PDF
arXiv

Integrating Prior Observations for Incremental 3D Scene Graph Prediction

Authors: Marian Renz, Felix Igelbrink, Martin Atzmueller

Published: 2025-09-15

Categories: cs.CV, cs.AI

Abstract:

3D semantic scene graphs (3DSSG) provide compact structured representations of environments by explicitly modeling objects, attributes, and relationships. While 3DSSGs have shown promise in robotics and embodied AI, many existing methods rely mainly on sensor data, not integrating further information from semantically rich environments. Additionally, most methods assume access to complete scene reconstructions, limiting their applicability in real-world, incremental settings. This paper introduces a novel heterogeneous graph model for incremental 3DSSG prediction that integrates additional, multi-modal information, such as prior observations, directly into the message-passing process. Utilizing multiple layers, the model flexibly incorporates global and local scene representations without requiring specialized modules or full scene reconstructions. We evaluate our approach on the 3DSSG dataset, showing that GNNs enriched with multi-modal information such as semantic embeddings (e.g., CLIP) and prior observations offer a scalable and generalizable solution for complex, real-world environments. The full source code of the presented architecture will be made available at https://github.com/m4renz/incremental-scene-graph-prediction.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Marian Renz, Felix Igelbrink, Martin Atzmueller撰写的论文“Integrating Prior Observations for Incremental 3D Scene Graph Prediction”的全面摘要。

论文摘要：整合先验观测以实现增量式3D场景图预测

1. 主要问题或研究问题： 当前3D语义场景图（3DSSG）生成方法主要依赖传感器数据，且通常假设能够访问完整的场景重建，这限制了它们在真实世界、增量式环境中的应用。这些方法未能有效整合来自语义丰富环境的额外信息，也无法在场景数据流实时获取的增量式设置中进行预测和解释。因此，核心问题是如何开发一种能够灵活整合多模态信息（特别是先验观测）的增量式3DSSG预测模型，同时避免对完整场景重建的依赖。

2. 关键创新或方法论贡献： * 新型异构图模型： 论文提出了一种新颖的异构图模型，用于增量式3DSSG预测。该模型将场景图构建所需的子任务整合到一个多层架构中，从而无需专门模块即可灵活地整合多模态信息。 * 全局-局部场景表示整合： 该方法的核心是一个异构场景图设计，它融合了传感器数据和来自先前时间步的观测结果，通过全局层（提供空间、几何和语义上下文）和局部层（整合当前传感器数据）实现。 * 先验观测的直接整合： 模型通过将实例从当前帧链接到先前预测的节点，直接将先验预测整合到消息传递过程中，从而利用早期观测信息进行预测，而无需存储完整的分割点云。 * 多模态特征嵌入： 模型通过将空间、几何和语义特征直接嵌入到消息传递过程中，高效地存储和整合这些特征，避免了存储大量的点云段或时间序列数据。特别是，全局节点可以包含基于类别标签的独热编码或CLIP嵌入的文本标签。 * 异构GNN的应用： 论文探索了使用异构图神经网络（GNNs）来改进语义相关信息的整合，并评估了GraphSAGE和HGT等不同GNN架构。 * 额外的边缘类型： 为了评估模型的灵活性，引入了一种额外的全局节点间边缘类型，该边缘类型基于几何碰撞检查和谐波中心性，提供了拓扑上不同的子图。

3. 主要结果及其意义： * 性能提升： 在3DSSG数据集上的评估表明，通过语义嵌入（如CLIP）和先验观测增强的GNNs为复杂、真实世界的环境提供了可扩展且通用的解决方案。 * 异构模型的优势： 异构模型在关系预测方面表现出色，尤其是在整合了CLIP嵌入后，HGT+CLIP模型在关系预测方面达到了最高性能。这表明异构模型非常适合捕获3DSSG中丰富的语义结构。 * 对错误先验预测的鲁棒性： 即使在全局层引入20%或50%的错误标签，模型在节点和边缘分类任务上的性能下降相对较小，表明模型具有一定的鲁棒性。这说明学习到的先验特征即使在适度的标签损坏下仍然具有信息量。 * 多模态信息整合的灵活性： 结果表明，所提出的模型能够无缝地将多模态信息整合到消息传递过程中，而无需外部模块，这验证了其架构的灵活性。

4. 论文中提及的局限性： * 对先验观测的依赖： 尽管模型对适度的标签损坏具有鲁棒性，但关系预测的性能下降表明模型对先验观测的强烈依赖，这在实际应用场景中需要缓解。 * GNN层限制： 由于所使用的GNN层的限制，边缘特征在消息传递过程中未被使用。

5. 潜在的未来研究方向： * 全尺度3D语义映射： 未来的工作将探索将该架构应用于全尺度3D语义映射，以支持真实世界的机器人任务。 * 整合额外先验知识源： 进一步整合额外的先验知识源，以增强推理能力和支持可解释性。

这篇论文通过引入一个新颖的异构图模型，有效地解决了增量式3DSSG预测中整合多模态信息和先验观测的挑战。其贡献在于提供了一个灵活、可扩展的框架，能够处理复杂、动态的真实世界环境，并为机器人和具身AI系统提供了更准确的环境理解。

Key Findings:

This paper introduces a novel heterogeneous graph model for incremental 3DSSG prediction that integrates additional, multi-modal information, such as prior observations, directly into the message-passing process.
We evaluate our approach on the 3DSSG dataset, showing that GNNs enriched with multi-modal information such as semantic embeddings (e.g., CLIP) and prior observations offer a scalable and generalizable solution for complex, real-world environments.

Links:

PDF
arXiv

SAM-TTT: Segment Anything Model via Reverse Parameter Configuration and Test-Time Training for Camouflaged Object Detection

Authors: Zhenni Yu, Li Zhao, Guobao Xiao, Xiaoqin Zhang

Published: 2025-09-15

Categories: cs.CV

Abstract:

This paper introduces a new Segment Anything Model (SAM) that leverages reverse parameter configuration and test-time training to enhance its performance on Camouflaged Object Detection (COD), named SAM-TTT. While most existing SAM-based COD models primarily focus on enhancing SAM by extracting favorable features and amplifying its advantageous parameters, a crucial gap is identified: insufficient attention to adverse parameters that impair SAM's semantic understanding in downstream tasks. To tackle this issue, the Reverse SAM Parameter Configuration Module is proposed to effectively mitigate the influence of adverse parameters in a train-free manner by configuring SAM's parameters. Building on this foundation, the T-Visioner Module is unveiled to strengthen advantageous parameters by integrating Test-Time Training layers, originally developed for language tasks, into vision tasks. Test-Time Training layers represent a new class of sequence modeling layers characterized by linear complexity and an expressive hidden state. By integrating two modules, SAM-TTT simultaneously suppresses adverse parameters while reinforcing advantageous ones, significantly improving SAM's semantic understanding in COD task. Our experimental results on various COD benchmarks demonstrate that the proposed approach achieves state-of-the-art performance, setting a new benchmark in the field. The code will be available at https://github.com/guobaoxiao/SAM-TTT.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Zhenni Yu, Li Zhao, Guobao Xiao, Xiaoqin Zhang撰写的论文“SAM-TTT: Segment Anything Model via Reverse Parameter Configuration and Test-Time Training for Camouflaged Object Detection”的全面摘要。

SAM-TTT: 通过逆向参数配置和测试时训练实现伪装目标检测的通用分割模型

摘要：

这篇论文介绍了一种名为SAM-TTT的新型通用分割模型（Segment Anything Model, SAM），它通过结合逆向参数配置（Reverse Parameter Configuration）和测试时训练（Test-Time Training, TTT）来显著提升其在伪装目标检测（Camouflaged Object Detection, COD）任务中的性能。

1. 主要问题或研究问题： 现有的基于SAM的COD模型主要关注通过提取有利特征和放大优势参数来增强SAM，但作者指出一个关键的不足：对损害SAM在下游任务中语义理解的不利参数关注不足。SAM在COD任务中表现出的语义缺陷，例如分割掩码与预期语义不符，以及对目标内部的分割不完整，是由于SAM的零样本能力源于SA-1B数据集与COD数据集之间的领域差距。

2. 关键创新或方法论贡献： SAM-TTT的核心创新在于其双模块设计，旨在同时抑制不利参数并强化有利参数：

逆向SAM参数配置模块（Reverse SAM Parameter Configuration Module, R-SAMPC）：
- 目的： 有效减轻不利参数的影响，以无训练（train-free）方式配置SAM的参数。
- 机制： R-SAMPC被设计为一个不更新参数的卷积模块，类似于一种参数层面的随机掩码或dropout。它通过引入噪声直接降低SAM中不利于COD任务的参数影响，从而缓解语义缺陷。这与传统方法通过引入额外编码模块来补偿语义信息不同，R-SAMPC直接作用于参数，且在推理时不参与。
- “逆向”含义： 传统方法强调增强参数，而R-SAMPC则侧重于削弱参数，故名“逆向”。
T-Visioner模块（TVM）：
- 目的： 强化有利参数，以补偿R-SAMPC在削弱不利参数时可能对有利参数造成的干扰。
- 机制： TVM将测试时训练（TTT）层（特别是TTT-Linear，一种具有线性复杂度和高度表达性隐藏状态的RNN层）首次引入视觉任务。它通过DWT（离散小波变换）提取图像嵌入的高频分量，并调整特征维度以适应RNN层的要求，从而提取并强调有利特征。
- 结构： SAM-TTT采用先并行后融合的结构，R-SAMPC和TVM在并行阶段独立运行，避免相互干扰，然后在融合阶段（通过COMPrompter的混合提示方法）结合两者的功能，以实现多尺度上下文信息的有效捕获和精确融合。

3. 主要结果及其意义： * 性能卓越： SAM-TTT在多个COD基准数据集（CAMO, COD10K, NC4K）上取得了最先进的性能，超越了现有SOTA方法，为该领域树立了新基准。 * 语义理解提升： 通过同时抑制不利参数和强化有利参数，SAM-TTT显著改善了SAM在COD任务中的语义理解能力，能够生成更详细、更准确的分割掩码，尤其在处理微小、被遮挡或与背景相似的伪装目标时表现出色。 * 效率： 尽管SAM-TTT的总参数量较大（96.32M），但其可训练参数仅为6.65M（约为FSEL的十分之一），保持了较低的计算开销，同时实现了优于全监督方法的性能。 * 模块有效性： 消融实验证明了R-SAMPC和TVM的有效性。R-SAMPC显著提升了模型性能，尤其在正向指标上。TVM进一步提升了性能，并被证实能有效补偿R-SAMPC对有利参数的削弱作用，且TTT相比Mamba在聚焦有利特征方面表现更强。

4. 论文中提及的局限性： * 在CAMO数据集上，SAM-TTT的表现略逊于其他方法，这可能与SAM知识增强的泛化能力和R-SAMPC扰动以牺牲学习能力为代价有关，以及该数据集较高的训练-测试比（1000:250）可能进一步放大了这种影响。

5. 潜在的未来研究方向： * 进一步探索如何改进削弱不利参数和强调有利参数的组合方式。 * 将这种“逆向参数配置”和“测试时训练”的概念扩展到其他大型模型在下游任务中的应用。

总而言之，SAM-TTT通过其独特的R-SAMPC和TVM双模块设计，开创性地解决了SAM在伪装目标检测中语义理解不足的问题，通过拓宽有利参数和不利参数之间的“效应距离”，实现了性能上的突破，并为将测试时训练引入计算机视觉领域奠定了基础。

Key Findings:

This paper introduces a new Segment Anything Model (SAM) that leverages reverse parameter configuration and test-time training to enhance its performance on Camouflaged Object Detection (COD), named SAM-TTT.
Test-Time Training layers represent a new class of sequence modeling layers characterized by linear complexity and an expressive hidden state.
Our experimental results on various COD benchmarks demonstrate that the proposed approach achieves state-of-the-art performance, setting a new benchmark in the field.

Links:

PDF
arXiv

Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

Authors: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu

Published: 2025-09-15

Categories: cs.CV

Abstract:

Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.

Analysis:

好的，这是一篇关于“Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding”的综合摘要，内容涵盖了您要求的所有要点。

论文摘要：Dr.V：一种用于通过细粒度时空接地诊断视频幻觉的层次感知-时间-认知框架

1. 主要问题或研究问题： 该论文旨在解决大型视频模型（LVMs）在视频理解中普遍存在的“幻觉”问题。LVMs在生成内容时，经常会产生与输入视频不符或事实错误的信息，这严重损害了其可靠性和可信度。现有的幻觉评估方法存在碎片化、不完整的分类体系以及缺乏细粒度标注和分析的问题，无法进行全面的诊断和根本原因分析。

2. 关键创新或方法论贡献： 为了解决上述问题，作者提出了Dr.V框架，包含两个核心组件： * Dr.V-Bench基准数据集： 这是一个新颖且全面的视频幻觉评估基准。它引入了一个分层的幻觉分类法，涵盖感知、时间、认知三个层次共14种细粒度幻觉类型。数据集包含10,000个实例，来自4,974个视频，涵盖多种任务，并富含详细的细粒度时空标注，支持精确的诊断分析。 * Dr.V-Agent卫星视频代理： 这是一个新颖的诊断模型，它模仿人类的视频理解机制，采用“从感知到时间再到认知”的链式分层推理过程来诊断LVMs中的幻觉。Dr.V-Agent系统性地利用细粒度时空接地（通过调用先进的外部工具如Grounded SAM2和YOLO-World进行对象识别和跟踪，以及CG-STVG和Grounded-VideoLLM进行时间接地）来验证感知和时间层面的信息，随后进行认知层面的推理。这种逐步的诊断流程能够生成结构化的诊断反馈，指导LVMs纠正其响应。

3. 主要结果及其意义： * 幻觉普遍存在： 实验表明，所有测试的LVMs都存在显著的幻觉问题，即使是顶级的闭源模型也未能幸免，这凸显了视频幻觉是一个严重且尚未解决的问题。 * 性能分层： LVMs在感知任务上表现最佳，但在时间任务和认知任务上的准确性显著下降，表明当前LVMs在处理复杂视频分析所需的严格时空理解和高级推理方面存在不足。 * Dr.V-Agent的有效性： 广泛的实验证明，Dr.V-Agent在诊断幻觉方面非常有效，并显著提高了LVMs的解释性和可靠性。与基线自纠正策略（Self-PEP）相比，Dr.V-Agent在所有测试模型和幻觉类型上都取得了显著且稳健的性能提升，尤其是在低性能LVMs上。 * 诊断能力： Dr.V-Agent通过将模型的推理与精确的、外部验证的时空信息相结合，克服了自纠正的局限性，从而在特定幻觉类型（如对象、静态关系、OCR和动态关系）上实现了实质性改进。 * 效率和可扩展性： Dr.V-Agent采用免训练范式，通过智能地组合现有专家工具来运行，避免了昂贵的预训练和微调，具有固有的灵活性和面向未来的可扩展性。

4. 论文中提及的局限性： * 对外部工具性能的依赖： Dr.V-Agent的有效性严重依赖于其调用的外部工具（如对象检测、时空接地工具）的性能。这些工具固有的局限性可能会影响最终诊断和幻觉缓解的准确性。 * 系统复杂性和计算开销： 为了实现细粒度推理，多代理方法调用了多达八个外部模型，这增加了显著的系统复杂性和计算开销。与端到端模型相比，这种多步骤、顺序处理过程可能导致更高的延迟。 * 基准标注成本和可扩展性： Dr.V-Bench的构建依赖于细粒度的人工时空标注。虽然这种细节水平对于准确诊断幻觉至关重要，但高昂的标注成本和时间投入限制了基准的可扩展性，使其难以快速扩展到更大规模或更多样化的视频领域。 * 生成能力间接评估： Dr.V-Bench对生成能力的评估被改编为基于QA的框架（特别是“字幕生成QA”）。这种设计简化了幻觉的针对性评估，但牺牲了对模型自由形式生成能力（如流畅性、连贯性和创造力）的直接和全面评估。

5. 潜在的未来研究方向： * 提升外部工具的鲁棒性： 鉴于对外部工具性能的依赖，未来的研究可以专注于开发更鲁棒、更准确的感知和时间接地工具，以进一步提高Dr.V-Agent的整体性能。 * 优化系统效率： 探索减少系统复杂性和计算开销的方法，例如通过更高效的工具集成、并行处理或模型蒸馏，以降低延迟并提高实际应用性。 * 扩展基准规模和多样性： 尽管Dr.V-Bench已经很全面，但未来的工作可以投入资源，通过半自动化标注或众包等方式，进一步扩大数据集的规模，涵盖更多视频领域和场景，以应对更广泛的幻觉类型。 * 直接评估生成能力： 开发更直接、更全面的方法来评估LVMs的自由形式生成能力，超越基于QA的框架，以更好地捕捉模型在流畅性、连贯性和创造力方面的表现。 * 整合外部世界知识： 进一步探索如何更有效地整合外部世界知识和领域特定专业知识，以增强LVMs在认知推理任务（如反事实预测和知识驱动解释）中的表现。

Key Findings:

To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding.

Links:

PDF
arXiv

SpecVLM: Fast Speculative Decoding in Vision-Language Models

Authors: Haiduo Huang, Fuwei Yang, Zhenhua Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum

Published: 2025-09-15

Categories: cs.CV, cs.AI

Abstract:

Speculative decoding is a powerful way to accelerate autoregressive large language models (LLMs), but directly porting it to vision-language models (VLMs) faces unique systems constraints: the prefill stage is dominated by visual tokens whose count scales with image resolution and video length, inflating both compute and memory, especially the key-value (KV) cache. We study speculative decoding for VLMs and introduce SpecVLM, a practical system that (1) establishes a strong EAGLE-2-style baseline, EagleVLM, delivering 1.5--2.3x end-to-end speedups over full autoregressive inference, and (2) further accelerates VLM inference with an elastic visual compressor that adaptively selects among pruning, pooling, convolution, and resampler primitives to balance FLOPs/parameters and accuracy per input. To avoid costly offline distillation corpora, we propose an online-logit distillation protocol that trains the draft model with on-the-fly teacher logits and penultimate features using a combined cross-entropy and Smooth L1 objective, eliminating storage and preprocessing while remaining compute-efficient. This protocol reveals a training-time scaling effect: longer online training monotonically increases the draft model's average accepted length, improving speculative efficiency. Empirically, SpecVLM achieves additional acceleration, culminating in 2.5--2.9x end-to-end speedups within 5 epochs across LLaVA and MMMU, consistently over resolutions and task difficulties, while preserving the target model's output distribution (lossless decoding). Our code is available at https://github.com/haiduo/SpecVLM.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Haiduo Huang等人撰写的论文“SpecVLM: Fast Speculative Decoding in Vision-Language Models”的全面摘要。

论文摘要：SpecVLM: Fast Speculative Decoding in Vision-Language Models

1. 主要问题或研究问题： 该论文旨在解决视觉-语言模型（VLMs）中自回归解码的效率瓶颈。尽管推测解码（speculative decoding）已成功加速大型语言模型（LLMs），但将其直接应用于VLMs面临独特挑战。特别是，预填充（prefill）阶段由视觉token主导，其数量随图像分辨率和视频长度急剧增加，导致计算和内存（尤其是键值（KV）缓存）开销巨大。这严重影响了VLMs的吞吐量和延迟，阻碍了实时和大规模部署。

2. 关键创新或方法论贡献： SpecVLM通过以下两项核心创新来解决上述问题：

弹性视觉压缩器（Elastic Visual Compressor）： SpecVLM引入了一种自适应的视觉压缩器，能够根据输入动态选择剪枝（pruning）、池化（pooling）、卷积（convolution）和重采样（resampler）等基本操作，以平衡FLOPs/参数和每个输入的准确性。这有助于在预填充阶段有效减少视觉token数量，从而缓解计算和KV缓存的压力。
在线Logit蒸馏协议（Online-Logit Distillation Protocol）： 为了避免昂贵的离线蒸馏语料库，SpecVLM提出了一种在线Logit蒸馏协议。该协议使用实时的教师模型Logit和倒数第二层特征来训练草稿模型（draft model），结合了交叉熵和Smooth L1目标函数。这种方法消除了存储和预处理的需要，同时保持了计算效率，并揭示了训练时间扩展效应。

此外，SpecVLM首先建立了一个强大的EAGLE-2风格基线模型EagleVLM，该模型本身就比完全自回归推理提供了显著的加速。SpecVLM在此基础上进一步提升了性能。

3. 主要结果及其意义： * 显著的端到端加速： EagleVLM在完全自回归推理的基础上实现了1.5-2.3倍的端到端加速。在此基础上，SpecVLM通过其创新进一步实现了额外的加速，在LLaVA和MMMU基准测试上，在5个epoch内达到了2.5-2.9倍的端到端加速。 * 无损解码： SpecVLM在加速的同时，保持了目标模型的输出分布（无损解码），确保了输出质量。 * 训练时间扩展效应： 在线Logit蒸馏协议揭示了一个重要的训练时间扩展效应：更长的在线训练单调地增加了草稿模型的平均接受长度，从而提高了推测解码的效率。这表明，对于多模态推测解码，延长有针对性的训练时间可以带来显著的效率提升。 * 跨分辨率和任务难度的一致性： SpecVLM在不同图像分辨率和任务难度下均表现出一致的性能提升，验证了其方法的鲁棒性。

这些结果表明SpecVLM为VLMs的推理加速提供了一个实用且可扩展的框架，在保持输出质量的同时显著提升了效率。

4. 论文中提及的局限性： * 视觉压缩器的压缩比例手动配置： 当前的视觉压缩器的压缩比例仍需手动配置，未来可以探索实例级的自适应压缩比例调整机制。 * KV缓存的动态压缩： 论文提到，在推理时探索草稿模型KV缓存的动态压缩可以进一步提高效率。 * 其他扩展轴的探索不足： 论文主要关注训练时间，但更大的训练语料库和更深的草稿模型等其他扩展轴也可能提高推测解码效率。 * 超参数调优： 论文未详尽调优草稿模型的超参数（如深度、树Top-K、节点数量）或优化设置（如学习率、批次大小），因此报告的性能可能不是最优的。

5. 潜在的未来研究方向： * 开发实例级的视觉压缩比例自适应调整机制。 * 探索推理时草稿模型KV缓存的动态压缩。 * 研究更大训练语料库和更深草稿模型对推测解码效率的影响，以揭示VLMs中推测解码的更广泛扩展规律。 * 对草稿模型超参数和优化设置进行更详尽的调优，以识别最佳设置。

Key Findings:

To avoid costly offline distillation corpora, we propose an online-logit distillation protocol that trains the draft model with on-the-fly teacher logits and penultimate features using a combined cross-entropy and Smooth L1 objective, eliminating storage and preprocessing while remaining compute-efficient.

Links:

PDF
arXiv

Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization

Authors: Diogo Mendonça, Tiago Barros, Cristiano Premebida, Urbano J. Nunes

Published: 2025-09-15

Categories: cs.CV

Abstract:

Autonomous systems require robust Multi-Object Tracking (MOT) capabilities to operate reliably in dynamic environments. MOT ensures consistent object identity assignment and precise spatial delineation. Recent advances in foundation models, such as SAM2, have demonstrated strong zero-shot generalization for video segmentation, but their direct application to MOTS (MOT+Segmentation) remains limited by insufficient identity management and memory efficiency. This work introduces Seg2Track-SAM2, a framework that integrates pre-trained object detectors with SAM2 and a novel Seg2Track module to address track initialization, track management, and reinforcement. The proposed approach requires no fine-tuning and remains detector-agnostic. Experimental results on KITTI MOT and KITTI MOTS benchmarks show that Seg2Track-SAM2 achieves state-of-the-art (SOTA) performance, ranking fourth overall in both car and pedestrian classes on KITTI MOTS, while establishing a new benchmark in association accuracy (AssA). Furthermore, a sliding-window memory strategy reduces memory usage by up to 75% with negligible performance degradation, supporting deployment under resource constraints. These results confirm that Seg2Track-SAM2 advances MOTS by combining robust zero-shot tracking, enhanced identity preservation, and efficient memory utilization. The code is available at https://github.com/hcmr-lab/Seg2Track-SAM2

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Diogo Mendonça, Tiago Barros, Cristiano Premebida, Urbano J. Nunes撰写的论文“Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization”的全面摘要。

论文摘要：Seg2Track-SAM2: 基于SAM2的零样本泛化多目标跟踪与分割

1. 主要问题或研究问题： 该研究旨在解决自主系统在动态环境中对鲁棒多目标跟踪与分割（MOTS）的需求。尽管基础模型如SAM2在视频分割方面展现出强大的零样本泛化能力，但其直接应用于MOTS时，面临身份管理不足和内存效率低下的限制。因此，核心问题是如何将SAM2的零样本分割能力与高效的身份管理和内存利用相结合，以实现鲁棒的零样本MOTS。

2. 关键创新或方法贡献： Seg2Track-SAM2框架通过以下关键创新解决了上述问题： * 集成预训练检测器与SAM2： 框架首先利用YOLOv11等预训练的深度学习检测器生成初始目标提议（bounding boxes），然后将这些提议作为SAM2的提示，生成高质量的分割掩码。这种方法使其能够处理不同类别的对象，并保持检测器无关性。 * 新型Seg2Track模块： 引入了一个专门的Seg2Track模块，用于处理轨迹初始化、轨迹管理和强化。该模块包含： * 轨迹质量评估（Track Quality Assessment, TQA）： 根据SAM2提供的IoU置信度分数评估掩码质量，将掩码分类为“高”、“不确定”或“低”状态，以决定轨迹的维护、移除或强化。 * 二值掩码生成（Binary Mask Generation）： 将前一帧的单个对象掩码合并成一个统一的二值掩码，用于匹配过程，以识别与新提议的重叠。 * 对象关联与过滤（Object Association and Filtering, OAF）： 这是一个两阶段过程，利用传入的对象提议和轨迹质量评估来决定是否初始化新轨迹或强化现有轨迹。 * 滑动窗口内存策略： 针对SAM2原始实现中内存无限制增长的问题，Seg2Track-SAM2引入了滑动窗口机制，限制了计算掩码时考虑的过去状态数量，显著降低了内存使用量，同时保持了跟踪性能。 * 零样本泛化能力： 整个框架设计为零样本范式，无需对特定数据集进行微调，即可在不同场景下工作。

3. 主要结果及其意义： * 最先进的性能（SOTA）： 在KITTI MOT和KITTI MOTS基准测试中，Seg2Track-SAM2在汽车和行人类别上均取得了SOTA性能，在KITTI MOTS上总体排名第四。 * 关联准确度（AssA）新基准： 该方法在关联准确度（AssA）指标上建立了新基准，显著优于现有方法，表明其在身份保持方面表现出色，减少了身份切换率。 * 高效内存利用： 滑动窗口内存策略将内存使用量减少了高达75%，而性能下降可忽略不计，这对于资源受限系统（如机器人和自动驾驶）的部署至关重要。 * 鲁棒性： 结果证实了Seg2Track-SAM2通过结合鲁棒的零样本跟踪、增强的身份保持和高效的内存利用，显著推动了MOTS领域的发展。

4. 论文中提及的局限性： * 检测准确度（DetA）的限制： 相较于其他SOTA方法，Seg2Track-SAM2的检测准确度（DetA）较低。这主要是由于虚假正例的传播（SAM2错误地将虚假检测初始化为新对象，并在多帧中保持）以及依赖通用检测器（YOLOv11）而非针对KITTI数据集专门训练的检测器。 * 2D MOT基准测试中的性能下降： 在KITTI 2D MOT基准测试中，由于将分割掩码转换为2D边界框，当对象部分或完全被遮挡时，性能会下降。特别是对于空间范围较大的汽车，边界框转换过程中更容易出现失真，导致DetA显著下降。

5. 潜在的未来研究方向： * 改进边界框转换策略： 针对2D MOT任务中边界框转换的局限性，可以探索更复杂的转换策略，例如非模态边界框估计或跨帧时间平滑，以更好地近似被遮挡对象的完整空间范围，并减少失真。但这需要权衡零样本设计理念与额外模型假设或训练数据。 * 优化虚假正例抑制： 进一步研究如何有效抑制SAM2可能产生的虚假正例，以提高检测准确度（DetA）。 * 集成更先进的检测器： 尽管该框架是检测器无关的，但集成针对特定数据集进行微调的更先进检测器可能会进一步提高整体性能。

Key Findings:

This work introduces Seg2Track-SAM2, a framework that integrates pre-trained object detectors with SAM2 and a novel Seg2Track module to address track initialization, track management, and reinforcement.
Experimental results on KITTI MOT and KITTI MOTS benchmarks show that Seg2Track-SAM2 achieves state-of-the-art (SOTA) performance, ranking fourth overall in both car and pedestrian classes on KITTI MOTS, while establishing a new benchmark in association accuracy (AssA).

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-09-16

Executive Summary

Arxiv 计算机视觉每日报告执行摘要 (2025-09-15)

Table of Contents

Papers

论文摘要：Domain-Adaptive Pretraining Improves Primate Behavior Recognition

论文摘要：RAM++: 基于自适应掩码的全能图像恢复的鲁棒表示学习

论文摘要：整合先验观测以实现增量式3D场景图预测

SAM-TTT: 通过逆向参数配置和测试时训练实现伪装目标检测的通用分割模型

论文摘要：SpecVLM: Fast Speculative Decoding in Vision-Language Models

论文摘要：Seg2Track-SAM2: 基于SAM2的零样本泛化多目标跟踪与分割