Arxiv Computer Vision Papers - 2025-09-18

Executive Summary

好的，这是一份针对2025年9月17日Arxiv计算机视觉论文的执行摘要，旨在帮助忙碌的研究人员快速了解最新进展。

Arxiv 计算机视觉每日报告执行摘要 (2025-09-17)

概述： 今日Arxiv计算机视觉论文呈现出多模态学习、具身智能、生成模型和实际应用场景（如自动驾驶、夜间去雨）的强劲发展趋势。特别是，大型视觉语言模型（VLMs）的进步、全向视觉在具身AI中的崛起以及高效数据处理和模型训练方法是核心主题。

主要主题与趋势：

多模态与大型模型： 多篇论文聚焦于视觉语言模型（VLMs）的扩展、评估和应用，强调其在复杂推理任务中的潜力。
具身智能与全向视觉： 具身AI领域持续升温，全向视觉作为关键感知模式受到高度关注，旨在为智能体提供更全面的环境理解。
生成模型与扩散模型： 扩散模型在图像生成和动画领域的应用进一步深化，研究人员致力于提升其效率和控制力。
实际应用与鲁棒性： 自动驾驶、夜间图像处理、手部追踪等实际应用场景是研究重点，强调模型在复杂真实世界条件下的性能和鲁棒性。
数据效率与对齐： 数据蒸馏、跨模态对齐等技术旨在提高数据利用效率，并解决多模态数据之间的语义鸿沟。

特别显著或创新论文：

"PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era" (Xu Zheng et al.)：这篇论文可能是一篇具有里程碑意义的综述或前瞻性工作，系统性地探讨了全向视觉在具身AI中的重要性、挑战和未来方向。它预示着具身智能领域感知范式的重大转变。
"SAIL-VL2 Technical Report" (Weijie Yin et al.)：作为一份技术报告，它可能详细介绍了某个大型视觉语言模型的架构、训练方法和性能，对于理解当前VLMs的SOTA（State-of-the-Art）至关重要。
"Noise-Level Diffusion Guidance: Well Begun is Half Done" (Harvey Mannering et al.)：这篇论文可能提出了扩散模型训练或推理过程中的关键优化，通过改进噪声处理来显著提升生成质量或效率，具有潜在的广泛影响。

新兴研究方向或技术：

全向视觉在具身AI中的普及： 不再仅仅是特定任务的解决方案，而是成为具身智能体感知系统的核心组件。
多模态推理挑战的标准化： "MARS2 2025 Challenge"表明社区正在积极推动多模态推理的基准测试和方法创新。
扩散模型的精细化控制与效率提升： "Noise-Level Diffusion Guidance"等工作预示着扩散模型将更加可控、高效。
事件相机在具身感知中的应用： "EvHand-FPV"展示了事件相机在低延迟、高动态范围场景下（如手部追踪）的独特优势。
隐式文本语义在数据蒸馏中的利用： "EDITS"提出了一种新颖的数据蒸馏方法，可能为高效模型训练提供新思路。

建议阅读全文的论文：

"PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era" (Xu Zheng et al.)：对于关注具身AI和未来感知范式的研究人员，这篇论文是必读的，它提供了宏观的视角和潜在的未来研究方向。
"SAIL-VL2 Technical Report" (Weijie Yin et al.)：如果你对大型视觉语言模型的最新进展和技术细节感兴趣，这份技术报告将提供宝贵的洞察。
"MAP: End-to-End Autonomous Driving with Map-Assisted Planning" (Huilin Yin et al.)：对于自动驾驶领域的研究人员，这篇论文可能展示了端到端自动驾驶与高精地图结合的最新进展和实际效果。
"Noise-Level Diffusion Guidance: Well Begun is Half Done" (Harvey Mannering et al.)：如果你从事生成模型或扩散模型的研究，这篇论文可能提供了提升模型性能或效率的关键技术。
"MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook" (Peng Xu et al.)：对于希望了解多模态推理领域最新挑战、数据集和方法的研究人员，这篇论文提供了全面的概览。

这份摘要旨在帮助您快速筛选出与您研究方向最相关的论文，并了解当前计算机视觉领域的热点和前沿。

SAIL-VL2 Technical Report
PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era
MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook
Wan-Animate: Unified Character Animation and Replacement with Holistic Replication
Noise-Level Diffusion Guidance: Well Begun is Half Done
MAP: End-to-End Autonomous Driving with Map-Assisted Planning
EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View
EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics
NDLPNet: A Location-Aware Nighttime Deraining Network and a Real-World Benchmark Dataset
Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval

Papers

SAIL-VL2 Technical Report

Authors: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng

Published: 2025-09-17

Categories: cs.CV

Abstract:

We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning. As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning. Three core innovations drive its effectiveness. First, a large-scale data curation pipeline with scoring and filtering strategies enhances both quality and distribution across captioning, OCR, QA, and video data, improving training efficiency. Second, a progressive training framework begins with a powerful pre-trained vision encoder (SAIL-ViT), advances through multimodal pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that systematically strengthens model capabilities. Third, architectural advances extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs. With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass leaderboard, SAIL-VL2-2B ranks first among officially released open-source models under the 4B parameter scale, while serving as an efficient and extensible foundation for the open-source multimodal community.

Analysis:

好的，这是一篇关于Weijie Yin等人在计算机视觉和机器学习领域撰写的论文“SAIL-VL2 Technical Report”的全面摘要。

论文摘要：SAIL-VL2技术报告

1. 主要问题或研究问题： 该论文旨在解决当前视觉-语言模型（LVM）在实现全面多模态理解和推理方面的挑战。尽管现有LVM在性能上有所提升，但在处理复杂推理任务、实现细粒度感知以及在不同模态间有效对齐方面仍存在不足。SAIL-VL2的目标是开发一个高效、可扩展的开源LVM，能够超越现有技术，在广泛的多模态任务中展现出卓越的性能。

2. 关键创新或方法论贡献： SAIL-VL2的有效性主要由三项核心创新驱动：

大规模数据整理管道： 论文设计了一个大规模数据整理管道，通过评分和过滤策略，提升了图像标注、光学字符识别（OCR）、问答（QA）和视频数据的质量和分布，从而提高了训练效率。这解决了现有数据集中可能存在的噪声和分布偏差问题。
渐进式训练框架： 引入了一个分阶段的训练框架，首先使用强大的预训练视觉编码器（SAIL-ViT），然后进行多模态预训练，最终采用“思考-融合”的SFT-RL（监督微调-强化学习）混合范式，系统性地增强了模型的各项能力。这包括：
- SAIL-ViT的渐进式优化： 通过三阶段（热身适应、细粒度对齐、世界知识注入）训练策略，将多粒度知识注入视觉编码器，实现与LLM的全面对齐。
- AdaLRS（自适应学习率搜索）： 在基础多模态预训练阶段引入动态学习率调度器，以提高优化效率和效果。
- 数据重采样策略： 在预训练阶段采用两步重采样策略，以缓解大规模标注和VQA数据中的分布偏差，增强多样性，并防止模式崩溃。
- 模型汤（Model Soup）策略： 在SFT后，通过合并同质模型来进一步提升模型性能，实现稳定且显著的性能改进。
高效的稀疏专家混合（MoE）设计： 架构创新超越了传统的密集LLM，采用了高效的稀疏MoE设计。这在保持计算效率的同时，实现了参数规模的扩展，并通过平衡专家激活、数据分布感知调优和专家专业化保留策略，确保了MoE的稳定性和可扩展性。

3. 主要结果及其意义： SAIL-VL2在多个维度上展示了卓越的性能：

领先的性能： SAIL-VL2在2B和8B参数规模下，在106个数据集上实现了最先进的性能，涵盖了图像和视频基准测试。
细粒度感知与复杂推理： 模型在细粒度感知到复杂推理任务中都表现出强大的能力，尤其在MMMU和MathVista等挑战性推理基准测试中取得了最先进的结果。
OpenCompass排行榜表现： SAIL-VL2-2B在OpenCompass排行榜上，在4B参数规模以下的官方发布开源模型中排名第一，证明了其作为高效且可扩展的开源多模态社区基础模型的竞争力。
视觉-文本对齐： SAIL-ViT能够有效地缩小视觉和文本特征空间之间的差距，使得视觉特征向量更加紧凑，并与文本特征向量有更大的重叠。
多模态理解任务： 在通用多模态理解、文档图像理解和多图像与视频理解任务中，SAIL-VL2均取得了领先或最先进的性能。

4. 论文中提及的局限性： 论文中未明确提及当前SAIL-VL2模型的具体局限性。然而，它暗示了未来研究的方向，这通常也反映了当前模型的改进空间：

合成数据中的语言偏差： 论文指出，尽管合成数据有助于大规模训练，但LLM生成的合成数据可能引入语言表达上的分布偏差，导致同质化措辞和有限的变异性。
推理任务的复杂性： 尽管SAIL-VL2在复杂推理任务上表现出色，但“思考-融合”的SFT-RL混合范式仍是持续强化的重点，表明这些任务仍有进一步提升的空间。

5. 潜在的未来研究方向： 论文展望了SAIL-VL2系列的未来发展，包括：

更高效的架构： 持续探索和开发更高效的LVM架构。
全面的预训练策略： 进一步优化和完善预训练策略。
改进的强化学习范式： 深入研究和应用更先进的强化学习方法，以持续提升多模态智能。
推动开源多模态生态系统： 将SAIL-VL2作为高效且可扩展的基础模型，赋能更广泛的开源多模态社区。

总而言之，SAIL-VL2技术报告详细介绍了一个在数据整理、训练策略和架构方面进行创新的视觉-语言基础模型。它在多项基准测试中取得了显著的性能提升，尤其在推理任务中表现突出，并有望成为开源多模态领域的重要推动力。

Key Findings:

We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning.
As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning.
With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista.

Links:

PDF
arXiv

PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

Authors: Xu Zheng, Chenfei Liao, Ziqiao Weng, Kaiyu Lei, Zihao Dongfang, Haocong He, Yuanhuiyi Lyu, Lutao Jiang, Lu Qi, Li Chen, Danda Pani Paudel, Kailun Yang, Linfeng Zhang, Luc Van Gool, Xuming Hu

Published: 2025-09-16

Categories: cs.CV

Abstract:

Omnidirectional vision, using 360-degree vision to understand the environment, has become increasingly critical across domains like robotics, industrial inspection, and environmental monitoring. Compared to traditional pinhole vision, omnidirectional vision provides holistic environmental awareness, significantly enhancing the completeness of scene perception and the reliability of decision-making. However, foundational research in this area has historically lagged behind traditional pinhole vision. This talk presents an emerging trend in the embodied AI era: the rapid development of omnidirectional vision, driven by growing industrial demand and academic interest. We highlight recent breakthroughs in omnidirectional generation, omnidirectional perception, omnidirectional understanding, and related datasets. Drawing on insights from both academia and industry, we propose an ideal panoramic system architecture in the embodied AI era, PANORAMA, which consists of four key subsystems. Moreover, we offer in-depth opinions related to emerging trends and cross-community impacts at the intersection of panoramic vision and embodied AI, along with the future roadmap and open challenges. This overview synthesizes state-of-the-art advancements and outlines challenges and opportunities for future research in building robust, general-purpose omnidirectional AI systems in the embodied AI era.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供由Xu Zheng等人撰写的论文“PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era”的全面摘要。

论文摘要：PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

1. 主要问题或研究问题： 该论文旨在解决全向视觉（360度视觉）在具身AI时代日益增长的重要性与该领域基础研究相对滞后之间的差距。传统针孔视觉提供了狭窄的视场，而全向视觉能提供对环境的整体感知，这对于机器人、工业检测和环境监测等具身AI任务至关重要。然而，全向视觉在数据瓶颈、模型能力和应用空白方面面临挑战，阻碍了其在具身AI领域的进一步发展。

2. 关键创新或方法论贡献： 论文的核心贡献是提出了一个理想的全向系统架构——PANORAMA，它由四个关键子系统组成，旨在整合全向视觉与具身AI： * 子系统1：数据采集与预处理（Data Acquisition & Pre-processing）：负责捕获原始全向数据并转换为适合计算处理的格式，包括数据捕获、格式转换、同步与校准。 * 子系统2：感知（Perception）：对预处理后的全向数据进行基础场景感知，利用适应球面几何的深度学习模型提取丰富的结构化信息，包括特征提取和环境感知（语义分割、目标检测、深度估计）。 * 子系统3：应用（Application）：将感知洞察转化为具身AI智能体的行动，服务于导航与SLAM、人机交互、数字孪生与3D重建等下游任务。 * 子系统4：加速与部署（Acceleration & Employment）：解决处理高分辨率全向数据在资源受限环境下的计算挑战，通过软件加速（模型量化、剪枝）和硬件部署（边缘计算平台）确保整个流程的计算可行性。

此外，论文还回顾了全向视觉在生成、感知、理解和相关数据集方面的最新突破，并提出了一个分阶段的未来路线图，以构建一个理想的统一全向任务模型。

3. 主要结果及其意义： 论文通过提出PANORAMA系统架构，为具身AI时代的全向视觉发展提供了一个全面的框架。其意义在于： * 系统化解决挑战：PANORAMA架构系统地解决了全向视觉在数据、模型和应用层面的挑战，为实现通用和鲁棒的具身智能奠定了基础。 * 促进跨社区影响：全向视觉的成熟被视为一项基础性使能技术，能够促进机器人、自主导航、人机交互、认知AI和虚拟智能体等多个领域的跨社区突破。 * 指明未来发展方向：论文综合了学术界和工业界的见解，提出了一个详细的未来路线图（六个阶段：数据集整合、多模态扩展、推理与具身数据、统一模型预训练、评估与基准测试、部署与泛化），为构建全向AI系统提供了清晰的路径。

4. 论文中提及的局限性： 论文中提到了当前全向视觉研究的几点局限性，这些也是PANORAMA系统需要克服的挑战： * 数据瓶颈：全向图像（尤其是等距柱状投影图像）由于几何失真和高分辨率，手动标注成本更高，传统自动化标注工具效率低下，导致缺乏大规模高质量数据集。 * 模型能力：现有预训练模型（如卷积和池化操作）的归纳偏置（如平移不变性）主要针对针孔图像设计，难以理解全向图像的失真特性，导致性能显著下降。 * 应用空白：尽管新传感器和具身AI时代带来了新的应用场景，但由于缺乏跨学科人才以及现有全向数据和模型的不足，许多特定场景的子领域（如全向生产安全检查、全向森林火灾检测）仍缺乏充分探索。 * 泛化性和鲁棒性：大多数现有模型仍专注于特定场景或投影方法，难以泛化到不同的全向传感器规格、应用场景和投影方法。 * 动态失真处理：当前方法将全向图像的失真视为与帧无关的几何问题，但现实世界场景中的失真本质上是动态的，缺乏对失真在全向视频序列中时间一致性和演变的考虑。 * 可扩展和统一的架构：缺乏专门为全向视觉设计的统一、多任务基础模型，现有模型效率低下且任务特定。

5. 潜在的未来研究方向： 论文提出了以下未来研究方向： * 数据集创建：规划和发布大规模、多任务全向数据集，涵盖真实世界场景的复杂性，包括室内外、通用和具身智能场景。 * 算法研究：超越基于针孔模型的简单适配，创建具有全向信息的新颖架构和动态学习范式，以应对全向视觉的独特挑战。 * 应用工程：探索和展示全向感知在真实世界机器人和交互系统中的优势，弥合实验室研究与实际应用之间的鸿沟。 * 投影无关表示学习：开发能够从无标注全向信息（包括图像和视频流）中学习不变特征的投影无关表示和自监督学习技术。 * 动作感知表示学习：使模型能够学习全向图像中的动作导向表示，将全向视觉的独特优势整合到下游控制策略中，以实现更有效和高效的机器人决策。 * 统一基础模型：预训练专门为全向视觉设计的统一、多任务基础模型，以捕捉全向几何和语义的基本理解，从而提高性能和泛化能力，并减少对大量任务特定数据集的需求。

Key Findings:

Drawing on insights from both academia and industry, we propose an ideal panoramic system architecture in the embodied AI era, PANORAMA, which consists of four key subsystems.
This overview synthesizes state-of-the-art advancements and outlines challenges and opportunities for future research in building robust, general-purpose omnidirectional AI systems in the embodied AI era.

Links:

PDF
arXiv

MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Authors: Peng Xu, Shengwu Xiong, Jiajun Zhang, Yaxiong Chen, Bowen Zhou, Chen Change Loy, David A. Clifton, Kyoung Mu Lee, Luc Van Gool, Ruiming He, Ruilin Yao, Xinwei Long, Jirui Huang, Kai Tian, Sa Yang, Yihua Shao, Jin Feng, Yue Zhong, Jiakai Zhou, Cheng Tang, Tianyu Zou, Yifang Zhang, Junming Liang, Guoyou Li, Zhaoxiang Wang, Qiang Zhou, Yichen Zhao, Shili Xiong, Hyeongjin Nam, Jaerin Lee, Jaeyoung Chung, JoonKyu Park, Junghun Oh, Kanggeon Lee, Wooseok Lee, Juneyoung Ro, Turghun Osman, Can Hu, Chaoyang Liao, Cheng Chen, Chengcheng Han, Chenhao Qiu, Chong Peng, Cong Xu, Dailin Li, Feiyu Wang, Feng Gao, Guibo Zhu, Guopeng Tang, Haibo Lu, Han Fang, Han Qi, Hanxiao Wu, Haobo Cheng, Hongbo Sun, Hongyao Chen, Huayong Hu, Hui Li, Jiaheng Ma, Jiang Yu, Jianing Wang, Jie Yang, Jing He, Jinglin Zhou, Jingxuan Li, Josef Kittler, Lihao Zheng, Linnan Zhao, Mengxi Jia, Muyang Yan, Nguyen Thanh Thien, Pu Luo, Qi Li, Shien Song, Shijie Dong, Shuai Shao, Shutao Li, Taofeng Xue, Tianyang Xu, Tianyi Gao, Tingting Li, Wei Zhang, Weiyang Su, Xiaodong Dong, Xiao-Jun Wu, Xiaopeng Zhou, Xin Chen, Xin Wei, Xinyi You, Xudong Kang, Xujie Zhou, Xusheng Liu, Yanan Wang, Yanbin Huang, Yang Liu, Yang Yang, Yanglin Deng, Yashu Kang, Ye Yuan, Yi Wen, Yicen Tian, Yilin Tao, Yin Tang, Yipeng Lin, Yiqing Wang, Yiting Xi, Yongkang Yu, Yumei Li, Yuxin Qin, Yuying Chen, Yuzhe Cen, Zhaofan Zou, Zhaohong Liu, Zhehao Shen, Zhenglin Du, Zhengyang Li, Zhenni Huang, Zhenwei Shao, Zhilong Song, Zhiyong Feng, Zhiyu Wang, Zhou Yu, Ziang Li, Zihan Zhai, Zijian Zhang, Ziyang Peng, Ziyun Xiao, Zongshu Li

Published: 2025-09-17

Categories: cs.CV

Abstract:

This paper reviews the MARS2 2025 Challenge on Multimodal Reasoning. We aim to bring together different approaches in multimodal machine learning and LLMs via a large benchmark. We hope it better allows researchers to follow the state-of-the-art in this very dynamic area. Meanwhile, a growing number of testbeds have boosted the evolution of general-purpose large language models. Thus, this year's MARS2 focuses on real-world and specialized scenarios to broaden the multimodal reasoning applications of MLLMs. Our organizing team released two tailored datasets Lens and AdsQA as test sets, which support general reasoning in 12 daily scenarios and domain-specific reasoning in advertisement videos, respectively. We evaluated 40+ baselines that include both generalist MLLMs and task-specific models, and opened up three competition tracks, i.e., Visual Grounding in Real-world Scenarios (VG-RS), Visual Question Answering with Spatial Awareness (VQA-SA), and Visual Reasoning in Creative Advertisement Videos (VR-Ads). Finally, 76 teams from the renowned academic and industrial institutions have registered and 40+ valid submissions (out of 1200+) have been included in our ranking lists. Our datasets, code sets (40+ baselines and 15+ participants' methods), and rankings are publicly available on the MARS2 workshop website and our GitHub organization page https://github.com/mars2workshop/, where our updates and announcements of upcoming events will be continuously provided.

Analysis:

好的，这是一篇关于“MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook”论文的全面摘要：

论文摘要：MARS2 2025 多模态推理挑战赛

1. 主要问题或研究问题： 该论文旨在解决多模态机器学习和大型语言模型（LLMs）在多模态推理方面的挑战，特别是在真实世界和专业场景中。核心问题是现有模型在空间推理、组合理解和抽象推理（尤其是在广告视频等领域）方面的局限性，以及现有评估系统未能提供从感知到推理连续性的系统性表征。挑战赛旨在通过大型基准测试，促进多模态LLMs在复杂多模态推理和“系统2”慢思考方面的进步。

2. 关键创新或方法论贡献： * 定制数据集： 发布了两个专门设计的大规模多模态数据集——Lens和AdsQA。Lens用于评估12个日常场景中的通用推理，AdsQA用于广告视频中的领域特定推理，旨在探索推理任务间的协同效应和非逐步复杂推理。 * 综合基准： 评估了40多个基线模型（包括通用MLLMs和任务特定模型）以及15个参与团队的解决方案，模型规模从3B到72B不等，涵盖了开源和商业模型，提供了全面的比较。 * 三项竞赛赛道： 设立了三个开放式QA赛道： * Track #1 真实世界场景中的视觉定位 (VG-RS)： 评估模型在复杂场景中的场景感知、物体定位和空间推理能力。 * Track #2 空间感知视觉问答 (VQA-SA)： 评估模型根据用户指令，基于具体物理内容进行空间、常识和反事实推理的能力。 * Track #3 创意广告视频中的视觉推理 (VR-Ads)： 探索模型在广告视频中理解隐含、非物理和抽象视觉概念的认知推理能力。 * 开放源代码可复现性： 所有数据集、代码和排名均在MARS2工作坊网站和GitHub组织页面上公开，确保了研究的可复现性。 * 参赛团队的方法论： 许多团队采用了先进的MLLMs作为基础模型，并通过监督微调（SFT）和强化学习（RL）进行多步对齐，以解决复杂推理任务。常见的策略包括集成学习、数据增强、提示工程和模型协作（通用模型与专家模型结合）。

3. 主要结果及其意义： * 挑战性凸显： 结果表明，即使使用强大的LLMs作为基础模型，在复杂场景和专业领域进行多模态推理仍然具有挑战性。例如，VG-RS任务的获胜解决方案得分未超过70%，VR-Ads赛道的最佳准确率（56%）与人类表现（约70%）仍有明显差距。 * 模型局限性： 故障案例分析揭示了当前多模态大型语言模型在细粒度图像理解（如混淆相似材料、识别语义目标）和视觉问答中的视角理解偏差（过度依赖第一人称视角先验、误解“距离”等概念）方面的局限性。 * 协同效应和非逐步推理： 挑战赛成功吸引了社区对推理任务协同效应和非逐步复杂推理问题的关注。 * 促进研究： 挑战赛为多模态推理领域提供了一个全面、多样化的基准，推动了新一代MLLMs推理能力的发展。

4. 论文中提及的局限性： * 可靠性和泛化能力不足： 提交的解决方案虽然性能有所提升，但仍缺乏可靠性和泛化能力。例如，强化学习的奖励函数（如IoU分数）可能次优，导致模型可能失去其他能力。 * 细粒度图像理解的挑战： 模型在细粒度图像理解中容易混淆相似材料或难以识别语义目标。 * 视觉问答中的偏差： 模型在视角理解方面存在显著偏差，过度依赖第一人称视角先验，并误解“距离”等概念，反映出缺乏物理常识。 * 抽象推理的挑战： 广告视频中的抽象推理（如情感分析、营销逻辑、说服策略）对模型提出了更高的要求，现有模型仍难以有效处理。

5. 潜在的未来研究方向： * 提升模型可靠性和泛化能力： 探索更优的奖励函数和对齐技术，以提高MLLMs的可靠性和泛化能力，避免因任务特定优化而损失其他通用能力。 * 深化细粒度理解和常识推理： 进一步研究如何使MLLMs更好地理解细粒度视觉信息，并融入物理常识，以减少误解和偏差。 * 加强抽象和认知推理： 针对广告视频等专业领域，开发更有效的多模态融合、时间建模和外部知识整合方法，以支持更高层次的认知推理。 * 扩展基准和应用场景： 继续提供新的应用场景和高质量数据，升级测试集规模，并提供更多赛道，以促进多模态推理领域的开放源代码社区发展。 * 通用与专业模型协作： 进一步探索通用模型与专家模型协作的潜力，以应对复杂多模态推理任务。

Key Findings:

We hope it better allows researchers to follow the state-of-the-art in this very dynamic area.

Links:

PDF
arXiv

Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

Authors: Gang Cheng, Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Ju Li, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Feng Wang, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo

Published: 2025-09-17

Categories: cs.CV

Abstract:

We introduce Wan-Animate, a unified framework for character animation and replacement. Given a character image and a reference video, Wan-Animate can animate the character by precisely replicating the expressions and movements of the character in the video to generate high-fidelity character videos. Alternatively, it can integrate the animated character into the reference video to replace the original character, replicating the scene's lighting and color tone to achieve seamless environmental integration. Wan-Animate is built upon the Wan model. To adapt it for character animation tasks, we employ a modified input paradigm to differentiate between reference conditions and regions for generation. This design unifies multiple tasks into a common symbolic representation. We use spatially-aligned skeleton signals to replicate body motion and implicit facial features extracted from source images to reenact expressions, enabling the generation of character videos with high controllability and expressiveness. Furthermore, to enhance environmental integration during character replacement, we develop an auxiliary Relighting LoRA. This module preserves the character's appearance consistency while applying the appropriate environmental lighting and color tone. Experimental results demonstrate that Wan-Animate achieves state-of-the-art performance. We are committed to open-sourcing the model weights and its source code.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Gang Cheng等撰写的论文“Wan-Animate: Unified Character Animation and Replacement with Holistic Replication”的全面摘要。

论文摘要：Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

1. 主要问题或研究问题 当前计算机视觉领域在角色动画和替换方面存在一个关键空白：缺乏一个能够统一控制运动、表情和环境交互，并实现高保真度的整体解决方案。现有的开源框架在性能和完整性上存在显著不足，尤其是在全面复制富有表现力的面部动态与身体运动相结合，以及将角色动画与环境背景（即角色替换）无缝集成方面。本研究旨在解决这些挑战，提供一个统一且高性能的角色动画和替换框架。

2. 关键创新或方法论贡献 Wan-Animate基于Wan模型构建，并引入了多项关键创新： * 统一框架与输入范式： Wan-Animate提出了一个统一的框架，能够处理角色动画和角色替换两种核心功能。通过修改后的输入范式，它能够区分参考条件和生成区域，将多任务统一为共同的符号表示，从而在不引入显著分布偏移的情况下，高效地进行后训练。 * 解耦控制信号： 为了实现整体角色控制，模型将控制信号解耦为身体运动和面部表情。 * 身体运动控制： 采用空间对齐的骨架信号来复制身体运动，平衡了准确性和通用性。这些信号通过添加到初始噪声潜在向量中进行注入。 * 面部表情控制： 直接使用参考视频中的原始面部图像作为驱动信号，以保留最大细节。这些面部图像被编码为潜在向量，以解耦表情信息和身份属性，并通过跨注意力机制注入模型。 * 辅助重光LoRA（Relighting LoRA）： 为了增强角色替换时的环境集成，Wan-Animate开发了一个辅助的Relighting LoRA模块。该模块在应用适当的环境光照和色调的同时，保持了角色外观的一致性，确保了替换角色与新环境的无缝融合。 * 渐进式训练策略： 训练过程分为多个阶段，包括身体控制训练、面部控制训练、联合控制训练和联合模式训练，最后是Relighting LoRA训练。这种渐进式方法有助于模型快速收敛，并有效学习复杂的控制任务。

3. 主要结果及其意义 实验结果表明，Wan-Animate在角色动画和替换任务中取得了最先进的性能： * 高保真度与表现力： 模型能够精确复制参考视频中角色的表情和动作，生成高保真度的角色视频，具有高度的可控性和表现力。 * 无缝环境集成： 在角色替换模式下，通过Relighting LoRA，动画角色能够无缝融入参考视频的环境，复制场景的光照和色调。 * 超越现有开源和闭源方案： 定量评估（SSIM、LPIPS、FVD）显示Wan-Animate在性能上优于大多数现有开源框架。人类评估结果也表明，与Runway Act-two和DreamActor-M1等闭源SOTA解决方案相比，Wan-Animate在视频生成质量、身份一致性、运动准确性和表情准确性方面表现出优越性。 * 通用性与鲁棒性： 模型能够很好地泛化到各种人形角色，在肖像、半身和全身镜头等多种场景下表现出强大的鲁棒性。

这些结果的意义在于，Wan-Animate为高保真角色动画和替换提供了一个全面且高性能的解决方案，显著提升了该领域的现有技术水平，并有望加速角色图像动画技术的发展和实际应用。

4. 论文中提及的局限性 * 骨架姿态重定向的局限性： 在角色替换模式下，为了避免破坏角色与环境的特定交互关系，论文不建议使用姿态重定向。这导致在替换身体形状差异显著的角色时，可能会出现一些变形。 * 文本控制的非核心性： 尽管Wan-Animate支持一定程度的文本控制，但运动信号是主要的控制因素，文本控制被视为非核心功能，建议使用默认文本提示。 * 对SMPL形状的依赖（间接提及）： 论文在讨论身体控制信号时提到，渲染的SMPL图像包含角色形状信息，如果SMPL形状不准确，可能会使模型依赖形状线索来指导生成，从而影响身份一致性。虽然Wan-Animate选择了骨架表示来避免这个问题，但这也暗示了3D形状表示可能带来的挑战。

5. 潜在的未来研究方向 论文中并未明确提出未来的研究方向，但从其贡献和局限性中可以推断出以下几点： * 更精细的姿态重定向： 解决角色替换中姿态重定向的局限性，开发更智能的重定向方法，使其在不破坏环境交互的前提下，能够处理身体形状差异显著的角色，减少变形。 * 增强文本控制能力： 尽管目前运动信号是主导，但未来可以探索如何更有效地整合文本提示，使其成为一个更核心、更强大的控制因素，实现更灵活的创作。 * 多模态融合与交互： 进一步探索角色与环境、角色与物体之间更复杂的交互，例如，除了光照和色调，还能复制物理属性、材质等，实现更深层次的场景融合。 * 实时性能优化： 尽管论文强调了高效推理，但对于更长的视频和更高分辨率的生成，进一步优化模型的实时性能和计算效率仍是重要的方向。 * 更广泛的应用场景： 探索Wan-Animate在虚拟现实、游戏、数字人、电影特效等更广泛领域的应用，并根据特定需求进行定制化开发。

Key Findings:

We introduce Wan-Animate, a unified framework for character animation and replacement.
Furthermore, to enhance environmental integration during character replacement, we develop an auxiliary Relighting LoRA.
Experimental results demonstrate that Wan-Animate achieves state-of-the-art performance.

Links:

PDF
arXiv

Noise-Level Diffusion Guidance: Well Begun is Half Done

Authors: Harvey Mannering, Zhiwu Huang, Adam Prugel-Bennett

Published: 2025-09-17

Categories: cs.CV

Abstract:

Diffusion models have achieved state-of-the-art image generation. However, the random Gaussian noise used to start the diffusion process influences the final output, causing variations in image quality and prompt adherence. Existing noise-level optimization approaches generally rely on extra dataset construction, additional networks, or backpropagation-based optimization, limiting their practicality. In this paper, we propose Noise Level Guidance (NLG), a simple, efficient, and general noise-level optimization approach that refines initial noise by increasing the likelihood of its alignment with general guidance - requiring no additional training data, auxiliary networks, or backpropagation. The proposed NLG approach provides a unified framework generalizable to both conditional and unconditional diffusion models, accommodating various forms of diffusion-level guidance. Extensive experiments on five standard benchmarks demonstrate that our approach enhances output generation quality and input condition adherence. By seamlessly integrating with existing guidance methods while maintaining computational efficiency, our method establishes NLG as a practical and scalable enhancement to diffusion models. Code can be found at https://github.com/harveymannering/NoiseLevelGuidance.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Harvey Mannering等人撰写的论文“Noise-Level Diffusion Guidance: Well Begun is Half Done”的全面摘要。

论文摘要：Noise-Level Diffusion Guidance: Well Begun is Half Done

1. 主要问题或研究问题： 扩散模型在图像生成方面取得了最先进的性能，但其生成质量和对提示的依从性受到初始随机高斯噪声的显著影响。现有的噪声级别优化（NLO）方法通常依赖于额外的数据集构建、辅助网络或基于反向传播的优化，这限制了它们的实用性和可扩展性。因此，该研究旨在解决如何开发一种简单、高效、通用的噪声级别优化方法，以提高扩散模型的输出质量和条件依从性。

2. 关键创新或方法论贡献： 本文提出了噪声级别引导（Noise Level Guidance, NLG），这是一种新颖的噪声级别优化方法，其核心创新在于： * 简单高效： NLG通过增加初始噪声与通用引导（如文本提示、类别标签或质量度量）对齐的可能性来优化初始噪声，而无需额外训练数据、辅助网络或反向传播。它通过对扩散模型在不同条件下的输出进行简单线性组合来推导出编辑方向，然后迭代地应用于初始噪声。 * 通用性： NLG提供了一个统一的框架，可推广到条件和无条件扩散模型，并适应各种形式的扩散级别引导（如Classifier-Free Guidance (CFG) 和 Autoguidance (AutoG)）。 * 避免分布外错误： 为了防止噪声在迭代应用编辑方向时偏离标准正态分布，NLG采用了方向裁剪、添加少量高斯噪声和归一化等策略，以保持噪声的分布内特性。

3. 主要结果及其意义： * 性能提升： 在五个标准基准上的大量实验表明，NLG方法显著提高了输出生成质量和输入条件依从性。 * 计算效率： NLG与现有引导方法无缝集成，同时保持了计算效率。与竞争方法InitNO相比，NLG的速度快了4倍，内存使用量减少了3倍。 * 泛化能力： NLG在无条件和条件图像生成任务中表现出卓越的泛化能力，适用于不同类型的扩散模型（如Stable Diffusion v2.1, v1.5, v3.5, FLUX.1-dev和EDM2）。 * 用户研究： 用户研究结果表明，在无CFG设置下，NLG在图像真实感和文本提示对齐方面均优于高斯噪声基线，具有统计学意义上的显著偏好。在CFG启用时，NLG也保持了更高的胜率。 * 应用探索： NLG能够有效改善与输入提示对齐不佳的图像，并能通过在噪声对齐阶段使用特定提示来为初始噪声添加结构，从而在生成阶段填充图像语义。它还展示了跨模型噪声对齐和推理的能力。

4. 论文中提及的局限性： * 高CFG引导下的效果： 论文指出，在高CFG引导设置下，NLG的益处是最小的，这与之前的一些噪声级别优化工作相似。然而，对于低CLIP分数（即对齐不佳）的图像，即使在高引导下，NLG仍然可能是有益的。 * 单步扩散模型的限制： 论文提到，ReNO等方法受限于单步扩散模型，因为每个扩散步骤都必须进行反向传播。虽然NLG不受此限制，但对于像SD-Turbo这样经过蒸馏的单步扩散模型，NLG可能不会带来显著的图像改进，这可能是因为这些模型在推理时不需要CFG。

5. 潜在的未来研究方向： * 探索更多优势： 未来的工作将侧重于探索NLG方法在初始噪声优化方面的其他优势，例如在更高扩散级别引导下，以及在结构化初始噪声和跨扩散模型等新功能方面的进一步应用。 * 超参数调优： 论文指出，在EDM2实验中，NLG的参数设置仍有进一步改进的潜力，可以通过超参数调优来优化性能。

这篇论文通过提出NLG，为扩散模型领域提供了一个实用且高效的噪声优化解决方案，克服了现有方法的计算和数据依赖性限制，显著提升了图像生成质量和条件依从性，为扩散模型的进一步发展奠定了基础。

Key Findings:

Diffusion models have achieved state-of-the-art image generation.
In this paper, we propose Noise Level Guidance (NLG), a simple, efficient, and general noise-level optimization approach that refines initial noise by increasing the likelihood of its alignment with general guidance - requiring no additional training data, auxiliary networks, or backpropagation.
Extensive experiments on five standard benchmarks demonstrate that our approach enhances output generation quality and input condition adherence.

Links:

PDF
arXiv

MAP: End-to-End Autonomous Driving with Map-Assisted Planning

Authors: Huilin Yin, Yiming Kan, Daniel Watzenig

Published: 2025-09-17

Categories: cs.RO, cs.AI, cs.CV, I.2.9; I.2.10

Abstract:

In recent years, end-to-end autonomous driving has attracted increasing attention for its ability to jointly model perception, prediction, and planning within a unified framework. However, most existing approaches underutilize the online mapping module, leaving its potential to enhance trajectory planning largely untapped. This paper proposes MAP (Map-Assisted Planning), a novel map-assisted end-to-end trajectory planning framework. MAP explicitly integrates segmentation-based map features and the current ego status through a Plan-enhancing Online Mapping module, an Ego-status-guided Planning module, and a Weight Adapter based on current ego status. Experiments conducted on the DAIR-V2X-seq-SPD dataset demonstrate that the proposed method achieves a 16.6% reduction in L2 displacement error, a 56.2% reduction in off-road rate, and a 44.5% improvement in overall score compared to the UniV2X baseline, even without post-processing. Furthermore, it achieves top ranking in Track 2 of the End-to-End Autonomous Driving through V2X Cooperation Challenge of MEIS Workshop @CVPR2025, outperforming the second-best model by 39.5% in terms of overall score. These results highlight the effectiveness of explicitly leveraging semantic map features in planning and suggest new directions for improving structure design in end-to-end autonomous driving systems. Our code is available at https://gitee.com/kymkym/map.git

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Huilin Yin, Yiming Kan, Daniel Watzenig撰写的论文“MAP: End-to-End Autonomous Driving with Map-Assisted Planning”的全面摘要。

论文摘要：MAP: End-to-End Autonomous Driving with Map-Assisted Planning

1. 主要问题或研究问题： 端到端自动驾驶系统因其能够在一个统一框架内联合建模感知、预测和规划而备受关注。然而，现有的大多数方法未能充分利用在线地图模块的潜力，导致其在轨迹规划方面的增强作用未被充分挖掘。本研究旨在解决如何有效整合语义地图特征以显著提升端到端自动驾驶系统的轨迹规划性能。

2. 关键创新或方法学贡献： 本论文提出了MAP（Map-Assisted Planning），一个新颖的地图辅助端到端轨迹规划框架，其主要创新点在于： * 显式整合地图特征： MAP通过一个规划增强在线地图模块（Plan-enhancing Online Mapping module），显式地将基于分割的地图特征与当前自车状态相结合。这解决了传统方法中地图信息利用不足的问题。 * 自车状态引导的规划： 引入了自车状态引导规划模块（Ego-status-guided Planning module），进一步细化了规划过程，使其更贴合当前车辆的实时状态。 * 权重适配器： 基于当前自车状态，设计了一个权重适配器（Weight Adapter），用于动态融合来自在线地图模块和自车状态引导规划模块的输出，以生成最终的轨迹规划。 * UniV2X基线的扩展： MAP是UniV2X基线的一个扩展，通过引入上述模块，显著提升了其性能。

3. 主要结果及其意义： 在DAIR-V2X-seq-SPD数据集上进行的实验结果表明，MAP方法取得了显著的性能提升： * L2位移误差（L2 displacement error）降低16.6%。 * 偏离道路率（off-road rate）降低56.2%。 * 整体得分（overall score）提升44.5%。这些改进是在没有后处理的情况下实现的，凸显了该方法的强大性能。

此外，MAP在CVPR2025 MEIS Workshop的V2X协同挑战赛端到端自动驾驶赛道2中获得了第一名，其整体得分比第二名模型高出39.5%。

这些结果强调了显式利用语义地图特征在规划中的有效性，并为端到端自动驾驶系统的结构设计提供了新的方向。

4. 论文中提及的局限性： 论文中并未明确提及具体的局限性。然而，从其强调“显式利用语义地图特征”和“结构设计的新方向”来看，可以推断出当前端到端系统在地图信息利用和模块化设计方面仍有改进空间。MAP的成功也暗示了现有方法可能在复杂场景下对地图信息的依赖性不足，或者融合方式不够优化。

5. 潜在的未来研究方向： * 更复杂的地图特征融合： 探索除了分割之外，如何融合更多样化的地图特征（如拓扑信息、语义关系等），以进一步提升规划的鲁棒性和准确性。 * 动态权重适配的优化： 深入研究权重适配器，使其能够根据更复杂的环境上下文和驾驶意图进行动态调整，而非仅仅基于当前自车状态。 * 可解释性与安全性： 随着端到端系统复杂性的增加，如何提高其决策的可解释性和安全性将是重要的研究方向。 * 多模态感知与地图的协同： 探索如何将地图信息与雷达、激光雷达等其他传感器数据进行更深层次的融合，以应对恶劣天气和传感器失效等挑战。 * 泛化能力： 在更多样化的数据集和真实世界场景中验证MAP的泛化能力，并探索如何使其适应不同地理区域和交通规则。

Key Findings:

This paper proposes MAP (Map-Assisted Planning), a novel map-assisted end-to-end trajectory planning framework.
These results highlight the effectiveness of explicitly leveraging semantic map features in planning and suggest new directions for improving structure design in end-to-end autonomous driving systems.

Links:

PDF
arXiv

EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View

Authors: Zhen Xu, Guorui Lu, Chang Gao, Qinyu Chen

Published: 2025-09-17

Categories: cs.CV

Abstract:

Hand tracking holds great promise for intuitive interaction paradigms, but frame-based methods often struggle to meet the requirements of accuracy, low latency, and energy efficiency, especially in resource-constrained settings such as Extended Reality (XR) devices. Event cameras provide $\mu$ s-level temporal resolution at mW-level power by asynchronously sensing brightness changes. In this work, we present EvHand-FPV, a lightweight framework for egocentric First-Person-View 3D hand tracking from a single event camera. We construct an event-based FPV dataset that couples synthetic training data with 3D labels and real event data with 2D labels for evaluation to address the scarcity of egocentric benchmarks. EvHand-FPV also introduces a wrist-based region of interest (ROI) that localizes the hand region via geometric cues, combined with an end-to-end mapping strategy that embeds ROI offsets into the network to reduce computation without explicit reconstruction, and a multi-task learning strategy with an auxiliary geometric feature head that improves representations without test-time overhead. On our real FPV test set, EvHand-FPV improves 2D-AUCp from 0.77 to 0.85 while reducing parameters from 11.2M to 1.2M by 89% and FLOPs per inference from 1.648G to 0.185G by 89%. It also maintains a competitive 3D-AUCp of 0.84 on synthetic data. These results demonstrate accurate and efficient egocentric event-based hand tracking suitable for on-device XR applications. The dataset and code are available at https://github.com/zen5x5/EvHand-FPV.

Analysis:

好的，这是一篇关于“EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View”论文的中文摘要，涵盖了您要求的所有要点：

论文摘要：EvHand-FPV：基于事件的第一人称视角高效3D手部追踪

1. 主要问题或研究问题： 手部追踪对于直观交互范式具有巨大潜力，但传统的基于帧的方法在满足扩展现实（XR）设备等资源受限环境对精度、低延迟和能效的要求方面面临挑战。事件相机通过异步感知亮度变化提供微秒级时间分辨率和毫瓦级功耗，为解决这些问题提供了新的途径。本研究旨在开发一种轻量级、高效的基于事件的第一人称视角（FPV）3D手部追踪框架。

2. 关键创新或方法贡献： * 事件FPV数据集构建： 论文构建了一个事件FPV数据集，结合了带有3D标签的合成训练数据和带有2D标签的真实事件数据，以解决第一人称视角基准稀缺的问题。 * 腕部ROI定位与端到端映射策略： 引入了一种基于腕部的兴趣区域（ROI）定位方法，通过几何线索局部化手部区域。结合端到端映射策略，将ROI偏移嵌入网络中，从而在无需显式重建的情况下减少计算量。 * 多任务学习策略： 采用带有辅助几何特征头的多任务学习策略，在不增加测试时开销的情况下，提高了表征能力。

3. 主要结果及其意义： * 在真实FPV测试集上，EvHand-FPV将2D-AUCp从0.77提高到0.85，同时将参数量从11.2M减少到1.2M（降低89%），每次推理的FLOPs从1.648G减少到0.185G（降低89%）。 * 在合成数据上，EvHand-FPV保持了0.84的竞争性3D-AUCp。 * 这些结果表明，EvHand-FPV实现了准确高效的事件基第一人称视角手部追踪，非常适合在XR设备上进行部署。

4. 论文中提及的局限性： 论文中没有明确提及具体的局限性，但从其创新点和未来工作方向可以推断出一些潜在的方面。例如，虽然构建了数据集，但事件数据本身的特性（如稀疏性、噪声）可能仍然是挑战。此外，虽然实现了高效性，但进一步优化以适应更广泛的XR设备和应用可能仍需努力。

5. 潜在的未来研究方向： * 更广泛的泛化性： 探索如何将EvHand-FPV推广到更多样化的用户、手部姿态和环境条件。 * 多模态融合： 结合事件数据与其他传感器（如惯性测量单元IMU）的数据，以进一步提高追踪的鲁棒性和精度。 * 实时部署优化： 进一步优化模型和算法，以实现更低的延迟和更高的帧率，满足更严格的实时XR应用需求。 * 数据集扩展： 持续扩展事件FPV数据集，包含更多场景、更多样化的手部动作和更精细的标注，以支持更复杂的模型训练。 * 事件数据处理： 探索更先进的事件数据处理和特征提取方法，以更好地利用事件相机的独特优势。

Key Findings:

In this work, we present EvHand-FPV, a lightweight framework for egocentric First-Person-View 3D hand tracking from a single event camera.

Links:

PDF
arXiv

EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics

Authors: Qianxin Xia, Jiawei Du, Guoming Lu, Zhiyong Shu, Jielei Wang

Published: 2025-09-17

Categories: cs.CV

Abstract:

Dataset distillation aims to synthesize a compact dataset from the original large-scale one, enabling highly efficient learning while preserving competitive model performance. However, traditional techniques primarily capture low-level visual features, neglecting the high-level semantic and structural information inherent in images. In this paper, we propose EDITS, a novel framework that exploits the implicit textual semantics within the image data to achieve enhanced distillation. First, external texts generated by a Vision Language Model (VLM) are fused with image features through a Global Semantic Query module, forming the prior clustered buffer. Local Semantic Awareness then selects representative samples from the buffer to construct image and text prototypes, with the latter produced by guiding a Large Language Model (LLM) with meticulously crafted prompt. Ultimately, Dual Prototype Guidance strategy generates the final synthetic dataset through a diffusion model. Extensive experiments confirm the effectiveness of our method.Source code is available in: https://github.com/einsteinxia/EDITS.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供对Qianxin Xia等人撰写的论文“EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics”的全面摘要。

论文摘要：EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics

1. 主要问题或研究问题 数据集蒸馏（Dataset Distillation, DD）旨在从大规模原始数据集中合成一个紧凑的数据集，以实现高效学习并保持有竞争力的模型性能。然而，传统DD方法主要关注低级视觉特征，往往忽略了图像中固有的高级语义和结构信息。这导致蒸馏出的数据集在语义丰富性方面不足，影响了其在跨架构泛化和信息损失方面的性能。

2. 关键创新或方法论贡献 本文提出了一个名为EDITS（Enhancing Dataset Distillation with Implicit Textual Semantics）的新颖框架，通过利用图像数据中隐含的文本语义来增强数据集蒸馏。其关键创新和贡献包括：

利用外部文本语义增强蒸馏： EDITS是首个利用外部文本信号实现增强DD的框架，解决了传统方法仅依赖视觉特征的局限性。
全局语义查询（Global Semantic Query, GSQ）： 该模块通过视觉语言模型（VLM，如LLaVA）生成的外部文本与图像特征进行融合。它计算每个文本描述对图像的影响分数，构建一个初步的聚类缓冲区，从而全面地将文本语义融入图像特征，增强后续原型表示能力。
局部语义感知（Local Semantic Awareness, LSA）： LSA从聚类缓冲区中选择具有代表性的候选样本，以构建图像和文本原型。图像原型通过VAE编码器生成，而文本原型则通过精心设计的提示（prompt）引导大型语言模型（LLM，如DeepSeek）进行总结，解决了直接使用聚类中心作为原型所固有的语义不足问题。
双原型指导（Dual-Prototype Guidance, DPG）： 最终，通过扩散模型（Latent Diffusion Model）结合图像和文本原型，生成最终的合成数据集，确保了蒸馏数据的多样性和代表性。

3. 主要结果及其意义 广泛的实验证实了EDITS方法的有效性：

性能提升： 在ImageNet子集（ImageWoof、ImageNette、ImageIDC）上，EDITS在不同IPC（每类图像数）和架构（ConvNet-6、ResNetAP-10、ResNet-18）设置下，始终比现有最先进的方法高出约1%-3%。这充分证明了其在不同数据集和架构上的鲁棒性和泛化能力。
低分辨率数据集表现： 在CIFAR-10和CIFAR-100等低分辨率数据集上，EDITS也超越了仅利用文本原型的VLCP方法，进一步证实了其全面语义增强的有效性。
原型质量： 实验结果表明，EDITS生成的原型在语义上更具解释性，能够更好地捕捉图像的高级语义信息，而非仅仅是低级视觉纹理。

这些结果表明，通过整合隐式文本语义，EDITS能够生成更高质量、更具语义代表性的蒸馏数据集，显著提升了数据集蒸馏的性能和泛化能力。

4. 论文中提及的局限性 论文中提到了以下几点局限性：

LLM输入限制： LLM的输入受限于token数量，过多的输入会增加生成文本原型的时间开销。
文本信息量： 过多的文本信息可能偏离图像原型的语义表示，实验观察到文本量增加会导致性能下降。这表明需要平衡文本信息的丰富性和相关性。
计算成本： 虽然数据集蒸馏旨在提高效率，但VLM和LLM的使用，以及扩散模型的生成过程，可能仍然涉及一定的计算成本。

5. 潜在的未来研究方向 基于上述工作和局限性，论文暗示或可以推断出以下未来研究方向：

更高效的语义提取： 探索更轻量级或更高效的VLM和LLM，以减少语义提取和原型生成的时间和计算成本。
自适应文本信息量： 研究如何根据图像内容和类别自适应地确定最佳的文本信息量，以避免信息过载或不足。
多模态原型融合优化： 进一步优化图像和文本原型的融合策略，例如探索更复杂的注意力机制或多模态Transformer结构，以更好地捕捉跨模态的细微语义关联。
跨领域和零样本蒸馏： 探索EDITS框架在更广泛的领域和零样本学习场景下的应用，以验证其在更具挑战性环境下的泛化能力。
可解释性增强： 进一步研究如何量化和可视化文本语义对蒸馏过程和最终模型性能的影响，以提高方法的可解释性。
结合其他蒸馏范式： 探索将EDITS的语义增强思想与匹配基DD方法或其他生成基DD方法相结合，以期达到更优的性能。

Key Findings:

In this paper, we propose EDITS, a novel framework that exploits the implicit textual semantics within the image data to achieve enhanced distillation.
Extensive experiments confirm the effectiveness of our method.Source code is available in: https://github.com/einsteinxia/EDITS.

Links:

PDF
arXiv

NDLPNet: A Location-Aware Nighttime Deraining Network and a Real-World Benchmark Dataset

Authors: Huichun Liu, Xiaosong Li, Yang Liu, Xiaoqi Cheng, Haishu Tan

Published: 2025-09-17

Categories: cs.CV

Abstract:

Visual degradation caused by rain streak artifacts in low-light conditions significantly hampers the performance of nighttime surveillance and autonomous navigation. Existing image deraining techniques are primarily designed for daytime conditions and perform poorly under nighttime illumination due to the spatial heterogeneity of rain distribution and the impact of light-dependent stripe visibility. In this paper, we propose a novel Nighttime Deraining Location-enhanced Perceptual Network(NDLPNet) that effectively captures the spatial positional information and density distribution of rain streaks in low-light environments. Specifically, we introduce a Position Perception Module (PPM) to capture and leverage spatial contextual information from input data, enhancing the model's capability to identify and recalibrate the importance of different feature channels. The proposed nighttime deraining network can effectively remove the rain streaks as well as preserve the crucial background information. Furthermore, We construct a night scene rainy (NSR) dataset comprising 900 image pairs, all based on real-world nighttime scenes, providing a new benchmark for nighttime deraining task research. Extensive qualitative and quantitative experimental evaluations on both existing datasets and the NSR dataset consistently demonstrate our method outperform the state-of-the-art (SOTA) methods in nighttime deraining tasks. The source code and dataset is available at https://github.com/Feecuin/NDLPNet.

Analysis:

以下是Huichun Liu, Xiaosong Li, Yang Liu, Xiaoqi Cheng, Haishu Tan撰写的论文“NDLPNet: A Location-Aware Nighttime Deraining Network and a Real-World Benchmark Dataset”的全面摘要：

1. 解决的主要问题或研究问题 该论文旨在解决夜间低光照条件下雨纹对视觉系统（如夜间监控和自动驾驶）造成的严重图像退化问题。现有的去雨技术主要针对白天场景设计，在夜间由于雨水分布的空间异质性和光照依赖的雨纹可见性差异而表现不佳。因此，核心问题是如何在夜间复杂的光照条件下，有效去除雨纹并保留背景细节。

2. 关键创新或方法学贡献 * NDLPNet模型： 提出了一种新颖的夜间去雨位置增强感知网络（Nighttime Deraining Location-enhanced Perceptual Network, NDLPNet）。该网络能够有效捕获低光照环境中雨纹的空间位置信息和密度分布。 * 位置感知模块（Position Perception Module, PPM）： 引入PPM模块，用于捕获和利用输入数据的空间上下文信息，增强模型识别和重新校准不同特征通道重要性的能力。PPM结合了空间位置编码（Spatial Position Coding, SPC）和高效通道注意力（Efficient Channel Attention, ECA）。 * 空间位置编码（SPC）： 针对夜间雨纹的特点，提出了一种更精细和自适应的位置编码模块，不仅考虑二维空间坐标，还加入了雨粒密度信息，以帮助模型理解和利用多空间方向上的位置信息和分布。 * 高效通道注意力（ECA）： 在位置编码之后，通过ECA模块进一步优化特征提取，减少冗余信息的影响，并根据像素位置的特定编码调整通道权重，从而更好地保留图像细节。 * 夜间场景雨天（NSR）数据集： 构建了一个包含900对图像的半真实夜间场景雨天数据集。该数据集基于真实的夜间场景，为夜间去雨任务研究提供了新的基准，弥补了现有夜间雨天数据集数量和多样性不足的缺点，并包含了夜间场景常见的噪声。

3. 主要结果及其意义 * 卓越的去雨性能： 在现有数据集（如GTAV-NightRain）和新构建的NSR数据集上进行的广泛定性和定量实验评估表明，NDLPNet在夜间去雨任务中始终优于最先进（SOTA）方法。例如，在GTAV-NightRain数据集上，NDLPNet的PSNR比RLP高出2.49dB。在NSR数据集上，NDLPNet也取得了最高的PSNR/SSIM值。 * 背景信息保留： 提出的网络能够有效去除雨纹，同时保留关键的背景信息，避免了现有方法中常见的模糊和失真问题。 * 泛化能力： 在白天场景数据集（如Rain200L和Rain200H）上的实验也验证了该方法具有较强的泛化能力，在Rain200H数据集上取得了最佳性能。 * 模块有效性： 消融实验证实了PPM模块（包括SPC和ECA）的有效性，表明三维空间位置信息对有效去雨至关重要，并且ECA模块有助于模型更好地关注相关信息并减少冗余数据的影响。

4. 论文中提及的局限性 * 模型效率： 提出的方法在模型效率方面存在局限性。 * 白天场景泛化能力： 尽管在白天场景中表现良好，但其泛化能力仍需进一步改进。

5. 潜在的未来研究方向 * 模型优化： 未来的工作将专注于优化模型的效率。 * 泛化能力提升： 进一步提升模型在白天场景中的泛化能力。 * 任务扩展： 将去雨任务扩展到雨滴去除。

总而言之，这篇论文通过引入NDLPNet模型和PPM模块，并构建了NSR数据集，为夜间图像去雨领域做出了重要贡献，有效解决了夜间复杂光照条件下雨纹去除的挑战，并为未来的研究提供了坚实的基础。

Key Findings:

In this paper, we propose a novel Nighttime Deraining Location-enhanced Perceptual Network(NDLPNet) that effectively captures the spatial positional information and density distribution of rain streaks in low-light environments.
Specifically, we introduce a Position Perception Module (PPM) to capture and leverage spatial contextual information from input data, enhancing the model's capability to identify and recalibrate the importance of different feature channels.
Furthermore, We construct a night scene rainy (NSR) dataset comprising 900 image pairs, all based on real-world nighttime scenes, providing a new benchmark for nighttime deraining task research.
Extensive qualitative and quantitative experimental evaluations on both existing datasets and the NSR dataset consistently demonstrate our method outperform the state-of-the-art (SOTA) methods in nighttime deraining tasks.

Links:

PDF
arXiv

Authors: Hao Yin, Xin Man, Feiyu Chen, Jie Shao, Heng Tao Shen

Published: 2025-09-17

Categories: cs.CV

Abstract:

Text-to-Image Person Retrieval (TIPR) is a cross-modal matching task that aims to retrieve the most relevant person images based on a given text query. The key challenge in TIPR lies in achieving effective alignment between textual and visual modalities within a common latent space. To address this challenge, prior approaches incorporate attention mechanisms for implicit cross-modal local alignment. However, they lack the ability to verify whether all local features are correctly aligned. Moreover, existing methods primarily focus on hard negative samples during model updates, with the goal of refining distinctions between positive and negative pairs, often neglecting incorrectly matched positive pairs. To alleviate these issues, we propose FMFA, a cross-modal Full-Mode Fine-grained Alignment framework, which enhances global matching through explicit fine-grained alignment and existing implicit relational reasoning -- hence the term ``full-mode" -- without requiring additional supervision. Specifically, we design an Adaptive Similarity Distribution Matching (A-SDM) module to rectify unmatched positive sample pairs. A-SDM adaptively pulls the unmatched positive pairs closer in the joint embedding space, thereby achieving more precise global alignment. Additionally, we introduce an Explicit Fine-grained Alignment (EFA) module, which makes up for the lack of verification capability of implicit relational reasoning. EFA strengthens explicit cross-modal fine-grained interactions by sparsifying the similarity matrix and employs a hard coding method for local alignment. Our proposed method is evaluated on three public datasets, achieving state-of-the-art performance among all global matching methods. Our code is available at https://github.com/yinhao1102/FMFA.

Analysis:

好的，作为计算机视觉和机器学习领域的专家，我将为您提供Hao Yin, Xin Man, Feiyu Chen, Jie Shao, Heng Tao Shen撰写的论文“Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval”的全面摘要。

论文摘要：跨模态全模式细粒度对齐用于文本到图像人物检索

1. 主要问题或研究问题： 文本到图像人物检索（TIPR）的核心挑战在于如何在共同的潜在空间中实现文本和视觉模态之间的有效对齐，以根据文本查询检索最相关的人物图像。现有方法主要通过隐式跨模态局部对齐来解决，但它们缺乏验证所有局部特征是否正确对齐的能力。此外，现有方法在模型更新时主要关注困难负样本，旨在细化正负样本之间的区别，却往往忽略了错误匹配的正样本。

2. 关键创新或方法论贡献： 为了解决上述问题，作者提出了FMFA（Full-Mode Fine-grained Alignment）框架，通过显式细粒度对齐和现有隐式关系推理来增强全局匹配，而无需额外监督。其主要创新包括：

自适应相似度分布匹配（A-SDM）模块： 旨在纠正未匹配的正样本对。A-SDM在联合嵌入空间中自适应地将未匹配的正样本对拉近，从而实现更精确的全局对齐。它根据未匹配正样本对的相对距离自适应地调整拉力。
显式细粒度对齐（EFA）模块： 弥补了隐式关系推理缺乏验证能力的不足。EFA通过稀疏化相似度矩阵并采用硬编码方法进行局部对齐，从而加强了显式跨模态细粒度交互。这种设计通过显式聚合稀疏相似度矩阵，并对聚合后的多模态表示与其原始视觉和文本表示进行硬编码对齐，以最小化冗余信息和计算成本。

3. 主要结果及其意义： FMFA在三个公开数据集（CUHK-PEDES、ICFG-PEDES和RSTPReid）上进行了评估，并在所有全局匹配方法中取得了最先进的性能。

CUHK-PEDES数据集： 在不使用ReID域预训练的VL-Backbones时，FMFA在Rank-1准确率和mAP上优于所有现有全局匹配方法。在使用ReID域预训练的VL-Backbones时，FMFA也保持了优越性。
RSTPReid数据集： FMFA取得了具有竞争力的性能，在Rank-1和Rank-5上均优于基线IRRA。
ICFG-PEDES数据集： FMFA在所有评估指标上均取得了最佳性能，Rank-1和mAP均有显著提升。
消融研究： 证实了A-SDM和EFA模块对整体性能的贡献，它们共同作用，相互补充。
推理速度： 作为一种全局匹配方法，FMFA在推理阶段仅计算全局特征，因此比局部匹配方法具有更高的推理速度，尤其是在测试集规模增大时。

这些结果表明FMFA具有良好的泛化性和鲁棒性，能够有效解决TIPR中的对齐挑战。

4. 论文中提到的局限性： 论文指出，EFA模块中稀疏过程的固定阈值仅保留最相关的图像块，这可能导致语义信息的丢失，并限制局部特征的有效聚合，从而影响模型的整体性能。

5. 潜在的未来研究方向： 为了克服上述局限性，未来的研究方向可以包括： * 整合能够捕获完整语义信息的自适应方法，例如树形Transformer（tree transformer [43]），以进一步增强模型性能。

这份摘要突出了论文的核心贡献，即通过结合自适应相似度分布匹配和显式细粒度对齐，解决了文本到图像人物检索中跨模态对齐的挑战，并在多个基准测试中取得了领先的性能。

Key Findings:

To alleviate these issues, we propose FMFA, a cross-modal Full-Mode Fine-grained Alignment framework, which enhances global matching through explicit fine-grained alignment and existing implicit relational reasoning -- hence the term ``full-mode" -- without requiring additional supervision.
Additionally, we introduce an Explicit Fine-grained Alignment (EFA) module, which makes up for the lack of verification capability of implicit relational reasoning.
Our proposed method is evaluated on three public datasets, achieving state-of-the-art performance among all global matching methods.

Links:

PDF
arXiv

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Arxiv Computer Vision Papers - 2025-09-18

Executive Summary

Table of Contents

Papers

论文摘要：Noise-Level Diffusion Guidance: Well Begun is Half Done

论文摘要：跨模态全模式细粒度对齐用于文本到图像人物检索