Arxiv Computer Vision Papers - 2025-11-19

Executive Summary

好的,作为一名专注于计算机视觉和机器学习的研究助理,我将为您提供一份关于2025年11月18日 Arxiv 计算机视觉领域论文的简明执行摘要。


执行摘要:2025年11月18日 Arxiv 计算机视觉论文速览

主要主题与趋势:

本期 Arxiv 论文集中体现了计算机视觉领域在以下几个关键方向的快速进展:

  • 多模态与通用模型(Multimodality & Generalist Models): 涌现出多篇致力于构建更通用、能够理解和生成多种模态(视觉、语言、动作)的模型,强调了模型在不同任务和数据类型上的泛化能力。
  • 生成模型(Generative Models)的持续演进: 特别是在图像和视频生成领域,研究人员在提升生成质量、可控性以及效率方面取得了显著进展,例如通过强化学习、扩散模型和新颖的注意力机制。
  • 效率与可扩展性(Efficiency & Scalability): 针对高分辨率数据和大规模模型训练的挑战,出现了如稀疏化、注意力机制优化等技术,旨在提高计算效率和模型的可扩展性。
  • 生物启发式方法(Biologically Inspired Approaches): 开始探索将生物神经科学的原理(如突触可塑性)应用于构建更高效、更具适应性的模型。
  • 三维视觉(3D Vision)的进步: 在三维表面重建方面,出现了利用稀疏视图数据的高效方法。

亮点与创新:

  • “ARC Is a Vision Problem!” (Hu et al.) 提出将 ARC(Abstraction and Reasoning Corpus)这一经典的抽象推理任务视为一个视觉问题,暗示了通用人工智能(AGI)的视觉理解能力可能与抽象推理能力紧密相连,具有重要的理论意义。
  • “UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning” (Tian et al.)“NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards” (Hung et al.) 都强调了通过统一的奖励机制(Reward Unification)来提升生成和多模态模型的性能,尤其是在强化学习的框架下,这为训练更强大、更具指令遵循能力的模型提供了新思路。
  • “Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer” (Mondal, Kumar) 引入了生物启发式的脉冲神经形态Transformer,将突触可塑性机制融入注意力机制,为开发更节能、更类脑的AI模型开辟了新方向。
  • “SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction” (Gu et al.) 在三维重建领域,利用稀疏视图数据实现高效的3D高斯溅射重建,对于在数据受限场景下的三维场景理解和建模具有实际应用价值。

新兴研究方向与技术:

  • 强化学习在生成模型中的深度应用: 通过精心设计的奖励函数来指导图像、视频生成和多模态模型的训练,实现更精细的控制和更高的质量。
  • 世界模型(World Models)与动作预测: 将世界模型和动作预测能力整合到视觉语言模型中,以实现更强的规划和交互能力。
  • 生物神经形态计算的融合: 将生物学原理(如脉冲神经网络、突触可塑性)与Transformer等现代深度学习架构相结合。
  • 高效注意力机制的探索: 针对超高分辨率视频生成等计算密集型任务,继续优化注意力机制,如滑动窗口注意力。
  • 零样本(Zero-shot)和训练无关(Training-free)的生成与编辑: 发展能够在无需特定领域训练的情况下,对生成内容进行增强或编辑的技术。

建议阅读的论文:

考虑到其潜在的理论影响、技术创新性和对未来研究方向的指引作用,以下论文值得优先阅读:

  1. “ARC Is a Vision Problem!” (Hu et al.): 对于理解通用人工智能的视觉能力和抽象推理之间的关系至关重要。
  2. “UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning” (Tian et al.)“NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards” (Hung et al.): 这两篇论文代表了多模态和生成模型在训练策略上的重要进展,对于构建更智能、更具交互性的AI系统具有指导意义。
  3. “Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer” (Mondal, Kumar): 探索了AI与生物学融合的未来方向,可能带来革命性的计算范式。
  4. “FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation” (Wu et al.): 对于解决高分辨率视频生成中的计算瓶颈和效率问题,提供了实用的技术方案。

这份摘要旨在帮助您快速把握本期 Arxiv 论文的关键信息,以便您能更有效地规划阅读和研究方向。


Table of Contents

  1. ARC Is a Vision Problem!
  2. UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
  3. : a VLA That Learns From Experience
  4. Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers
  5. Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising
  6. Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model
  7. FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation
  8. Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer
  9. NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
  10. SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

Papers

ARC Is a Vision Problem!

Authors: Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He

Published: 2025-11-18

Categories: cs.CV, cs.AI, cs.LG

Abstract:

The Abstraction and Reasoning Corpus (ARC) is designed to promote research on abstract reasoning, a fundamental aspect of human intelligence. Common approaches to ARC treat it as a language-oriented problem, addressed by large language models (LLMs) or recurrent reasoning models. However, although the puzzle-like tasks in ARC are inherently visual, existing research has rarely approached the problem from a vision-centric perspective. In this work, we formulate ARC within a vision paradigm, framing it as an image-to-image translation problem. To incorporate visual priors, we represent the inputs on a "canvas" that can be processed like natural images. It is then natural for us to apply standard vision architectures, such as a vanilla Vision Transformer (ViT), to perform image-to-image mapping. Our model is trained from scratch solely on ARC data and generalizes to unseen tasks through test-time training. Our framework, termed Vision ARC (VARC), achieves 60.4% accuracy on the ARC-1 benchmark, substantially outperforming existing methods that are also trained from scratch. Our results are competitive with those of leading LLMs and close the gap to average human performance.

Analysis:

好的,作为一名计算机视觉和机器学习领域的专家,我将根据您提供的论文摘要进行深入分析。

论文摘要分析:ARC Is a Vision Problem!

1. 论文的主要贡献(2-3句话)

这篇论文的核心贡献在于,它首次将抽象推理领域的经典数据集 ARC (Abstraction and Reasoning Corpus) 视为一个纯粹的视觉问题,并成功地构建了一个基于视觉模型(Vision Transformer)的解决方案。通过将 ARC 任务转化为图像到图像的翻译问题,该研究在仅使用 ARC 数据集进行训练的情况下,取得了显著优于现有从头训练方法的性能,并接近了人类平均水平。

2. 关键创新或方法论

  • 视觉范式重构 (Vision Paradigm Reframing): 最关键的创新是将 ARC 这个通常被视为语言或符号推理问题的任务,彻底地从视觉角度进行重新定义。
  • “画布”表示 (Canvas Representation): 论文引入了一个“画布”的概念来表示输入,使其能够被当作标准的自然图像来处理。这使得现有的成熟的计算机视觉模型能够直接应用于 ARC 任务。
  • 标准视觉架构的应用 (Application of Standard Vision Architectures): 利用了标准的视觉模型,例如 vanilla Vision Transformer (ViT),来执行图像到图像的映射。这表明了通用视觉模型在处理抽象推理任务上的潜力。
  • 从头训练与测试时训练 (Training from Scratch & Test-Time Training): 模型完全从零开始仅在 ARC 数据上训练,并且通过测试时训练 (test-time training) 来实现对未见过任务的泛化。这强调了模型学习 ARC 核心规律的能力,而非依赖预训练的通用知识。

3. 对该领域的潜在影响

  • 重新定义抽象推理的研究范式: 这项工作可能促使研究人员重新审视其他抽象推理数据集和任务,探索其潜在的视觉本质,从而开辟新的研究方向。
  • 推动通用视觉模型在复杂推理任务中的应用: 证明了像 ViT 这样的标准视觉模型不仅能处理感知任务,还能在一定程度上解决需要抽象推理的认知任务,这极大地扩展了通用视觉模型的应用边界。
  • 为 ARC 数据集的研究提供新的基线: VARC 模型在从头训练的基准上取得了显著的性能提升,为后续研究提供了更强的竞争性基线。
  • 缩小与人类在抽象推理上的差距: 接近人类平均水平的性能表明,视觉模型在理解和执行抽象规则方面取得了重要进展。

4. 可能受益于此研究的相关领域或应用

  • 教育和儿童学习: ARC 的核心在于学习和应用规则,这与儿童学习新概念和解决问题的过程类似。这项研究可能为开发更智能的教育软件或辅助学习工具提供思路。
  • 机器人和自动化: 机器人需要理解和执行复杂的指令,并根据环境进行推理。将视觉推理能力应用于机器人控制和任务规划,可以使其更加智能和灵活。
  • 人工智能的通用性研究: 这项工作是朝着实现更通用人工智能(AGI)迈出的一步,展示了如何将不同类型的智能能力(感知与推理)融合到单一模型中。
  • 图像生成和编辑: 尽管 ARC 的目标是推理,但其图像到图像的转换特性也可能启发更高级的图像编辑和内容生成技术,能够根据抽象规则生成或修改图像。
  • 符号AI与连接主义AI的融合: 这项工作展示了如何用连接主义的视觉模型来解决原本更偏向符号AI的问题,为两种AI范式之间的融合提供了新的视角。

5. 从摘要中可以推断出的局限性

  • 对 ARC 数据集的依赖性: 虽然模型在 ARC 数据集上表现出色,但其泛化能力在多大程度上能迁移到其他不同类型或更复杂的抽象推理任务上,仍需进一步验证。
  • “画布”表示的普适性: “画布”表示是否适用于所有类型的视觉推理任务,或者是否需要针对特定任务进行调整,这一点尚未明确。
  • 模型的可解释性: 尽管模型性能优异,但 Vision Transformer 在解释其决策过程方面通常存在挑战。理解模型是如何进行抽象推理的,将是未来研究的重要方向。
  • 与 LLMs 的直接比较: 摘要提到“竞争力”和“缩小差距”,但并未提供具体的性能指标对比,例如在特定任务上的准确率或效率。与顶尖 LLMs 的详细比较分析可能需要阅读全文。
  • “测试时训练”的成本: 测试时训练 (test-time training) 是一种有效的泛化手段,但它可能会增加推理时的计算成本和时间。

总结来说,这篇论文的价值在于它打破了对 ARC 数据集的传统认知,成功地将其转化为一个视觉问题,并利用了强大的视觉模型取得了突破性的进展。这不仅为 ARC 的研究开辟了新路径,也为通用视觉模型在更广泛的认知任务中的应用提供了强有力的证据,具有重要的理论和实践意义。

Key Findings:

  • Our framework, termed Vision ARC (VARC), achieves 60.4% accuracy on the ARC-1 benchmark, substantially outperforming existing methods that are also trained from scratch.
  • Our results are competitive with those of leading LLMs and close the gap to average human performance.

Links:


UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

Authors: Rui Tian, Mingfei Gao, Haiming Gang, Jiasen Lu, Zhe Gan, Yinfei Yang, Zuxuan Wu, Afshin Dehghan

Published: 2025-11-18

Categories: cs.CV

Abstract:

We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understanding, generation and editing. Building upon UniGen, we comprehensively enhance the model architecture and training pipeline to strengthen the image understanding and generation capabilities while unlocking strong image editing ability. Especially, we propose a unified Reinforcement Learning (RL) strategy that improves both image generation and image editing jointly via shared reward models. To further enhance image editing performance, we propose a light Edit Instruction Alignment stage that significantly improves the editing instruction comprehension that is essential for the success of the RL training. Experimental results show that UniGen-1.5 demonstrates competitive understanding and generation performance. Specifically, UniGen-1.5 achieves 0.89 and 4.31 overall scores on GenEval and ImgEdit that surpass the state-of-the-art models such as BAGEL and reaching performance comparable to proprietary models such as GPT-Image-1.

Analysis:

好的,这是对论文“UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning”的中文摘要,其中包含了您要求的各个方面:

论文摘要:UniGen-1.5:通过强化学习中的奖励统一增强图像生成与编辑

1. 研究问题/核心挑战: 该论文旨在解决当前统一多模态大语言模型(MLLM)在图像理解、生成和编辑能力上的不足,特别是如何有效地提升图像编辑的精细化控制能力,并实现生成与编辑任务的协同优化。现有模型在处理复杂的编辑指令理解和生成与编辑任务的联合训练方面存在挑战。

2. 主要创新与方法贡献: UniGen-1.5 的核心创新在于其增强的架构和训练流程,主要体现在以下几个方面: * 统一的强化学习(RL)策略: 提出了一种创新的统一 RL 策略,通过共享奖励模型,同时优化图像生成和图像编辑任务。这种方法能够更有效地利用文本到图像生成任务中成熟的奖励机制来指导图像编辑。 * 编辑指令对齐(Edit Instruction Alignment)阶段: 引入了一个轻量级的“编辑指令对齐”后 SFT(Supervised Fine-Tuning)阶段。该阶段专注于提升模型对编辑指令的理解能力,使其能更准确地把握目标编辑图像的语义内容,这对 RL 训练的成功至关重要。 * 增强的模型架构与训练管线: 在 UniGen 的基础上,全面增强了模型架构和训练管线,以提升图像理解和生成能力,并解锁强大的图像编辑能力。

3. 主要结果与意义: 实验结果表明,UniGen-1.5 在图像理解、生成和编辑方面均取得了具有竞争力的性能。 * 在图像生成方面,UniGen-1.5 在 GenEval 和 DPG-Bench 基准上分别取得了 0.89 和 86.83 的分数,显著优于包括 BAGEL 在内的许多先进模型。 * 在图像编辑方面,UniGen-1.5 在 ImgEdit 基准上获得了 4.31 的总分,超越了许多最新的开源模型,并达到了与 GPT-Image-1 等专有模型相当的性能。 * 这些结果表明 UniGen-1.5 在统一多模态模型领域取得了显著进展,为未来的研究奠定了坚实的基础。

4. 局限性: 论文中提到了 UniGen-1.5 的两个主要局限性: * 文本渲染能力不足: 模型在准确渲染文本字符方面存在不足,这归因于其轻量级的离散式解码器难以精确控制文本的精细结构细节。 * 视觉一致性挑战: 在图像编辑任务中,模型仍然存在视觉不一致的问题,例如在猫的毛发纹理和形状变化,以及鸟类羽毛颜色差异等方面,这表明在强制执行视觉一致性方面仍需改进。

5. 未来研究方向: 基于上述局限性,论文指出了以下未来研究方向: * 集成扩散模型: 建议将扩散模型集成到框架中,以解决文本渲染能力不足的问题,从而更好地处理需要精细结构细节的生成任务。 * 开发专门的奖励模型: 提出需要开发专门的奖励模型来强制执行视觉一致性,以解决图像编辑中的视觉不一致性问题。

总而言之,UniGen-1.5 通过引入创新的统一 RL 策略和编辑指令对齐阶段,显著提升了统一多模态大语言模型在图像生成和编辑方面的能力,并在多个基准测试中取得了最先进的性能。尽管存在一些局限性,但该研究为未来在图像生成和编辑领域的研究提供了重要的方向和基线。

Key Findings:

  • We present UniGen-1.5, a unified multimodal large language model (MLLM) for advanced image understanding, generation and editing.
  • Especially, we propose a unified Reinforcement Learning (RL) strategy that improves both image generation and image editing jointly via shared reward models.
  • To further enhance image editing performance, we propose a light Edit Instruction Alignment stage that significantly improves the editing instruction comprehension that is essential for the success of the RL training.
  • Experimental results show that UniGen-1.5 demonstrates competitive understanding and generation performance.
  • Specifically, UniGen-1.5 achieves 0.89 and 4.31 overall scores on GenEval and ImgEdit that surpass the state-of-the-art models such as BAGEL and reaching performance comparable to proprietary models such as GPT-Image-1.

Links:


: a VLA That Learns From Experience

Authors: Ali Amin, Raichelle Aniceto, Ashwin Balakrishna, Kevin Black, Ken Conley, Grace Connors, James Darpinian, Karan Dhabalia, Jared DiCarlo, Danny Driess, Michael Equi, Adnan Esmail, Yunhao Fang, Chelsea Finn, Catherine Glossop, Thomas Godden, Ivan Goryachev, Lachy Groom, Hunter Hancock, Karol Hausman, Gashon Hussein, Brian Ichter, Szymon Jakubczak, Rowan Jen, Tim Jones, Ben Katz, Liyiming Ke, Chandra Kuchi, Marinda Lamb, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Yao Lu, Vishnu Mano, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Z. Ren, Charvi Sharma, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, Will Stoeckle, Alex Swerdlow, James Tanner, Marcel Torne, Quan Vuong, Anna Walling, Haohuan Wang, Blake Williams, Sukwon Yoo, Lili Yu, Ury Zhilinsky, Zhiyuan Zhou

Published: 2025-11-18

Categories: cs.LG, cs.RO

Abstract:

We study how vision-language-action (VLA) models can improve through real-world deployments via reinforcement learning (RL). We present a general-purpose method, RL with Experience and Corrections via Advantage-conditioned Policies (RECAP), that provides for RL training of VLAs via advantage conditioning. Our method incorporates heterogeneous data into the self-improvement process, including demonstrations, data from on-policy collection, and expert teleoperated interventions provided during autonomous execution. RECAP starts by pre-training a generalist VLA with offline RL, which we call , that can then be specialized to attain high performance on downstream tasks through on-robot data collection. We show that the model trained with the full RECAP method can fold laundry in real homes, reliably assemble boxes, and make espresso drinks using a professional espresso machine. On some of the hardest tasks, RECAP more than doubles task throughput and roughly halves the task failure rate.

Analysis:

作为一名计算机视觉和机器学习领域的专家,我对这篇论文摘要进行了深入分析,并为您提供以下内容:

1. 论文的主要贡献(2-3句话的简洁总结)

本研究提出了一种名为 RECAP 的新方法,用于通过强化学习(RL)来提升视觉-语言-动作(VLA)模型在真实世界部署中的表现。RECAP 能够整合多种异构数据源,并通过优势条件策略(advantage conditioning)进行训练,从而实现 VLA 模型的自我改进。研究成果展示了其预训练模型 在折叠衣物、组装盒子和制作浓缩咖啡等复杂任务上取得了显著的性能提升。

2. 关键创新或方法论

RECAP 方法的核心创新在于其优势条件策略(advantage conditioning)的引入,以及整合异构数据源的能力。

  • 优势条件策略 (Advantage Conditioning): 这是 RECAP 的一个关键技术点。在强化学习中,优势函数(advantage function)衡量了某个动作相对于平均策略的好坏。通过将策略的输出(动作)条件化在优势函数上,RECAP 能够更有效地引导模型学习到“好”的动作,从而加速学习过程并提高性能。这是一种更精细的策略优化方式,能够让模型理解哪些行为是真正有益的。
  • 整合异构数据源: RECAP 能够融合多种不同类型的数据,包括:
    • 演示数据 (Demonstrations): 来自人类或其他模型的预先录制的行为轨迹。
    • 在线策略收集数据 (On-policy collection): 模型在实际执行任务过程中产生的数据。
    • 专家远程干预数据 (Expert teleoperated interventions): 在模型自主执行过程中,由人类专家进行实时纠正或指导产生的数据。 这种多模态、多来源的数据融合能力,使得模型能够从更广泛的经验中学习,克服单一数据源的局限性。

3. 对该领域的潜在影响

  • 推动 VLA 模型在真实世界中的广泛应用: 本研究直接解决了 VLA 模型在真实世界部署中的性能瓶颈。通过 RECAP 方法,VLA 模型能够更可靠、更高效地执行复杂任务,这将极大地加速其在机器人、智能助手等领域的落地应用。
  • 提升强化学习在复杂任务中的效率和鲁棒性: RECAP 的优势条件策略和数据融合方法,为在复杂、高维度的真实世界环境中进行强化学习训练提供了新的思路。这可能为其他需要从经验中学习的 RL 应用带来启发。
  • 降低机器人学习的门槛: 通过能够从多种数据源(包括演示和专家干预)中学习,RECAP 有可能减少对大量高质量标注数据或完全自主探索的需求,从而降低机器人学习的门槛。
  • 为通用机器人智能奠定基础: 作为预训练的“通才”模型,展示了通过持续学习和特化,可以适应多种不同任务的能力。这符合构建更通用、更智能机器人的长期愿景。

4. 可能受益的相关领域或应用

  • 机器人学:
    • 家庭服务机器人: 如论文中提到的折叠衣物、制作咖啡等任务,以及其他家务劳动。
    • 工业自动化: 机器人装配、拾取、放置等任务的自动化和优化。
    • 物流和仓储: 机器人分拣、搬运等。
  • 人机交互:
    • 智能助手: 更自然、更智能的语音和视觉交互,能够理解并执行更复杂的指令。
    • 虚拟现实/增强现实: 虚拟环境中的智能代理,能够与用户进行更真实的互动。
  • 自动驾驶: 虽然摘要未直接提及,但 VLA 模型在理解环境、规划动作方面的能力,与自动驾驶中的感知、决策环节有共通之处。
  • 医疗保健: 辅助医疗机器人进行精细操作,或用于康复训练。

5. 可从摘要推断的局限性

  • 计算资源需求: 尽管 RECAP 提高了学习效率,但训练如此复杂的 VLA 模型,尤其是在真实世界进行数据收集和 RL 训练,很可能需要大量的计算资源和时间。
  • 数据收集的成本和安全性: 在真实家庭环境中进行数据收集,需要考虑数据隐私、安全以及潜在的意外情况。专家远程干预也需要投入人力成本。
  • 泛化能力: 虽然模型在演示的几个任务上表现出色,但其在未见过的新任务上的泛化能力仍需进一步验证。摘要中提到的“通用”可能更多是指其作为基础模型的能力,而非在所有任务上都能达到顶尖水平。
  • “经验”的定义和质量: RECAP 依赖于“经验”,但经验的质量、多样性和覆盖范围对最终性能至关重要。如果收集到的经验存在偏差或不足,模型性能也会受到限制。
  • “专业”的定义: 摘要提到“专业咖啡机”,这暗示了模型可能需要针对特定领域的专业知识或设备进行微调,其通用性可能存在一定边界。
  • 的具体含义: 摘要中 的命名方式(带有数字 0.6)可能暗示了某种参数设置、性能指标或训练阶段的特定含义,但具体细节并未在摘要中展开,需要阅读全文才能理解。

总而言之,这篇论文提出的 RECAP 方法及其预训练模型 ,在解决 VLA 模型在真实世界部署中的挑战方面,展现了令人兴奋的潜力。其核心创新在于利用优势条件策略和异构数据融合来加速和优化强化学习过程,有望为机器人和人工智能的实际应用带来重大突破。

Key Findings:

  • We present a general-purpose method, RL with Experience and Corrections via Advantage-conditioned Policies (RECAP), that provides for RL training of VLAs via advantage conditioning.
  • Our method incorporates heterogeneous data into the self-improvement process, including demonstrations, data from on-policy collection, and expert teleoperated interventions provided during autonomous execution.
  • We show that the model trained with the full RECAP method can fold laundry in real homes, reliably assemble boxes, and make espresso drinks using a professional espresso machine.

Links:


Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers

Authors: Yutian Chen, Yuheng Qiu, Ruogu Li, Ali Agha, Shayegan Omidshafiei, Jay Patrikar, Sebastian Scherer

Published: 2025-11-18

Categories: cs.CV, cs.RO

Abstract:

We propose Confidence-Guided Token Merging (Co-Me), an acceleration mechanism for visual geometric transformers without retraining or finetuning the base model. Co-Me distilled a light-weight confidence predictor to rank tokens by uncertainty and selectively merge low-confidence ones, effectively reducing computation while maintaining spatial coverage. Compared to similarity-based merging or pruning, the confidence signal in Co-Me reliably indicates regions emphasized by the transformer, enabling substantial acceleration without degrading performance. Co-Me applies seamlessly to various multi-view and streaming visual geometric transformers, achieving speedups that scale with sequence length. When applied to VGGT and MapAnything, Co-Me achieves up to and speedup, making visual geometric transformers practical for real-time 3D perception and reconstruction.

Analysis:

好的,这是对论文“Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers”的全面中文摘要:

论文题目: Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers (Co-Me:置信度引导的 Token 合并用于视觉几何 Transformer)

作者: Yutian Chen, Yuheng Qiu, Ruogu Li, Ali Agha, Shayegan Omidshafiei, Jay Patrikar, Sebastian Scherer

摘要:

1. 研究问题/核心挑战:

视觉几何 Transformer(如 VGGT 和 MapAnything)在 3D 重建和场景理解方面取得了显著进展,但其计算成本高昂,尤其是 Transformer 模型中注意力机制与输入序列长度呈二次方复杂度,这严重限制了它们在资源受限环境下的实时部署。现有加速方法(如 Token Pruning)可能导致关键几何信息丢失,而基于特征相似度的 Token 合并方法则效果有限。因此,研究如何有效加速视觉几何 Transformer,同时保持其几何理解能力和重建精度,是一个关键的挑战。

2. 主要创新点/方法贡献:

本文提出了 Co-Me (Confidence-Guided Token Merging),一种无需重新训练或微调基础模型即可加速视觉几何 Transformer 的机制。其核心创新在于:

  • 置信度引导的 Token 合并: Co-Me 引入了一个轻量级的置信度预测器,该预测器通过蒸馏(distillation)自冻结的 Transformer 编码器中提取的中间特征,来估计每个 Token 的不确定性(即置信度)。
  • 选择性合并低置信度 Token: 基于预测的置信度分数,Co-Me 生成一个合并掩码,选择性地合并低置信度的 Token。这种方法旨在保留高置信度区域(通常包含重要的几何信息)的细节,同时减少低置信度区域(通常是背景或纹理稀疏区域)的计算量。
  • 自监督置信度蒸馏: 置信度预测器采用自监督方式进行训练,仅依赖于 Token 的相对置信度排序,而无需额外的标注数据。
  • 高效的合并与拆分操作: 论文设计了高效的合并(merge)和拆分(split)操作,并实现了优化的 CUDA 内核,以最小化合并过程带来的运行时开销。
  • 注意力偏置校正(Attention Bias Correction): 为了解决 Token 合并可能导致的注意力分布失真问题,引入了注意力偏置校正机制,通过添加一个 log n 的偏置项来恢复合并后注意力权重的原始分布,从而提升性能。

3. 主要结果与意义:

  • 显著的加速效果: Co-Me 在 VGGT 和 MapAnything 模型上实现了显著的加速,在 VGGT 上可达 11.3 倍,在 MapAnything 上可达 7.2 倍 的速度提升,且加速效果随序列长度的增加而增强。
  • 保持几何精度: 尽管进行了大量的 Token 合并,Co-Me 在深度估计、姿态估计和点云重建等任务上,仅造成了非常小的性能下降,甚至在某些情况下(如 DTU 数据集上的点云重建)性能略有提升。
  • 通用性与兼容性: Co-Me 是一种即插即用的加速机制,可以无缝应用于多种视觉几何 Transformer 模型,并且可以与现有的加速策略(如高效注意力机制)组合使用,以获得额外的加速。
  • 边缘设备部署能力: Co-Me 使得视觉几何 Transformer 能够部署在 NVIDIA Jetson Thor 等边缘设备上,实现近乎实时的 3D 感知和重建,为机器人导航、增强现实等应用提供了可能。

4. 提及的局限性:

  • 细小或细长结构的重建问题: 在某些失败案例中(如图 12 所示),当低置信度区域包含细小或细长的结构时(如路灯杆、自由女神像的手臂),Co-Me 的合并操作可能导致这些结构被过度平滑,从而影响局部细节的重建。
  • 合并比率的选择: 合并比率(merge ratio)的设置会影响速度和精度的权衡,需要根据具体任务和性能要求进行调整。

5. 潜在的未来研究方向:

  • 支持非均匀批处理(Non-uniform batching): 支持不同样本具有不同合并比率的批处理,以实现更灵活的加速。
  • 流式输入中的时间维度合并: 将 Token 合并应用于流式输入的时间维度,以进一步提升流式场景下的处理效率。
  • 训练阶段的应用: 将 Co-Me 应用于训练阶段,以提高训练效率。
  • 处理细小结构的方法: 进一步研究如何改进 Co-Me 在处理细小或细长结构时的鲁棒性。

总而言之,Co-Me 提出了一种新颖且有效的置信度引导 Token 合并方法,成功地解决了视觉几何 Transformer 的计算效率瓶颈问题,同时保持了其关键的几何理解能力,为实现实时、高效的 3D 感知和重建开辟了新的道路。

Key Findings:

  • We propose Confidence-Guided Token Merging (Co-Me), an acceleration mechanism for visual geometric transformers without retraining or finetuning the base model.

Links:


Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising

Authors: Yifan Wang, Liya Ji, Zhanghan Ke, Harry Yang, Ser-Nam Lim, Qifeng Chen

Published: 2025-11-18

Categories: cs.CV, cs.AI

Abstract:

We propose an approach to enhancing synthetic video realism, which can re-render synthetic videos from a simulator in photorealistic fashion. Our realism enhancement approach is a zero-shot framework that focuses on preserving the multi-level structures from synthetic videos into the enhanced one in both spatial and temporal domains, built upon a diffusion video foundational model without further fine-tuning. Specifically, we incorporate an effective modification to have the generation/denoising process conditioned on estimated structure-aware information from the synthetic video, such as depth maps, semantic maps, and edge maps, by an auxiliary model, rather than extracting the information from a simulator. This guidance ensures that the enhanced videos are consistent with the original synthetic video at both the structural and semantic levels. Our approach is a simple yet general and powerful approach to enhancing synthetic video realism: we show that our approach outperforms existing baselines in structural consistency with the original video while maintaining state-of-the-art photorealism quality in our experiments.

Analysis:

好的,这是对论文“Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising”的全面中文摘要,重点突出其在计算机视觉领域的新颖性和重要性:

论文题目: Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising (通过结构感知去噪实现零样本合成视频真实感增强)

作者: Yifan Wang, Liya Ji, Zhanghan Ke, Harry Yang, Ser-Nam Lim, Qifeng Chen

摘要:

1. 研究问题/核心挑战: 该论文旨在解决合成视频与真实世界视频之间的“域差距”问题。自动驾驶等领域需要大量数据进行模型训练,而真实世界数据的收集和标注成本高昂且难以覆盖所有极端场景。合成数据虽然可扩展,但其逼真度不足,可能导致模型在真实场景中表现不佳。现有的视频风格转换方法虽然能提升逼真度,但往往难以保持原始视频的结构和语义信息,尤其是在小物体(如交通信号灯、路标)的细节上。

2. 主要创新点/方法论贡献: 该研究提出了一种零样本(zero-shot)的合成视频真实感增强框架,核心在于利用结构感知去噪。其主要创新点包括:

  • 基于预训练扩散视频模型的零样本框架: 该方法直接利用现有的、强大的扩散视频基础模型,无需针对特定任务进行额外的微调,大大降低了应用门槛。
  • 结构感知信息注入: 关键在于将合成视频的多层次结构信息(如深度图、语义图、边缘图)作为去噪过程的条件。与直接从模拟器提取信息不同,该方法通过一个辅助模型估计这些结构信息,并将其注入到扩散模型的生成/去噪过程中。
  • DDIM Inversion 与 ControlNet 的结合: 借鉴了 DDIM Inversion 技术,将合成视频“编码”到一个与原始视频内容和运动相关的初始潜在表示(latent representation)中。然后,利用 ControlNet 结构将估计的结构信息作为条件,引导扩散模型的去噪过程,从而在生成逼真视频的同时,锚定其结构和语义。
  • 结构与语义的一致性保证: 通过结构感知信息的引导,确保增强后的视频在空间和时间维度上都与原始合成视频保持高度一致,尤其是在关键的、安全相关的物体上。
  • Classifier-Free Guidance (CFG) 的应用: 在去噪阶段,利用 CFG 技术来选择性地修改视觉风格,去除计算机生成的纹理,并将整体风格导向模型学习到的真实世界美学。

3. 主要结果与意义: * 性能超越: 实验结果表明,该方法在结构一致性方面显著优于现有的基线方法,同时保持了最先进的图像逼真度。 * 小物体细节的精确还原: 在处理交通信号灯、路标等小而关键的物体时,该方法能够更准确地保留其颜色、形状和语义信息,解决了现有方法容易出现的颜色失真、模糊或形状扭曲等问题。 * 时间一致性提升: 相较于逐帧生成的方法,该方法通过视频生成模型,显著提高了生成视频的时间一致性和整体视频质量。 * 意义: 该研究为解决合成数据与真实数据之间的域差距提供了一个有效且通用的解决方案。它不仅提升了合成视频的逼真度,更重要的是保证了其结构和语义的完整性,这对于训练更鲁棒、更可靠的自动驾驶模型至关重要。该方法为生成高质量的合成训练数据提供了一个新的视角和强大的工具。

4. 提及的局限性: * 基础模型窗口限制: 该方法受限于基础扩散模型的固定推理窗口(例如 121 帧),对于更长的视频需要采用分块处理,这可能在块边界引入时间不连续性。 * 对文本提示的敏感性: 作为零样本模型,当文本提示与源视频内容冲突时,可能会产生微小的视觉伪影。

5. 潜在的未来研究方向: * 下游任务验证: 验证通过该方法增强的合成数据在实际自动驾驶模型训练中的有效性,以证明其能否有效缩小合成-真实域差距。 * 处理更长视频: 探索如何克服固定推理窗口的限制,实现更长视频的无缝增强,并消除边界处的时间不连续性。 * 鲁棒性提升: 进一步研究如何减少对文本提示的敏感性,使其在更广泛的场景下都能产生高质量的输出。

总而言之,这篇论文提出了一种创新的零样本视频真实感增强方法,通过巧妙地结合 DDIM Inversion 和结构感知信息,在保持高逼真度的同时,极大地提升了合成视频在结构和语义上的保真度,尤其是在关键的小物体细节上,为自动驾驶等领域的高质量合成数据生成提供了重要贡献。

Key Findings:

  • We propose an approach to enhancing synthetic video realism, which can re-render synthetic videos from a simulator in photorealistic fashion.
  • Our approach is a simple yet general and powerful approach to enhancing synthetic video realism: we show that our approach outperforms existing baselines in structural consistency with the original video while maintaining state-of-the-art photorealism quality in our experiments.

Links:


Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model

Authors: Xiyuan Wang, Muhan Zhang

Published: 2025-11-18

Categories: cs.CV

Abstract:

Standard Latent Diffusion Models rely on a complex, three-part architecture consisting of a separate encoder, decoder, and diffusion network, which are trained in multiple stages. This modular design is computationally inefficient, leads to suboptimal performance, and prevents the unification of diffusion with the single-network architectures common in vision foundation models. Our goal is to unify these three components into a single, end-to-end trainable network. We first demonstrate that a naive joint training approach fails catastrophically due to ``latent collapse'', where the diffusion training objective interferes with the network's ability to learn a good latent representation. We identify the root causes of this instability by drawing a novel analogy between diffusion and self-distillation based unsupervised learning method. Based on this insight, we propose Diffusion as Self-Distillation (DSD), a new framework with key modifications to the training objective that stabilize the latent space. This approach enables, for the first time, the stable end-to-end training of a single network that simultaneously learns to encode, decode, and perform diffusion. DSD achieves outstanding performance on the ImageNet conditional generation task: FID=13.44/6.38/4.25 with only 42M/118M/205M parameters and 50 training epochs on ImageNet, without using classifier-free-guidance.

Analysis:

好的,这是对论文“Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model”的全面中文摘要:

论文题目: Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model (扩散作为自蒸馏:单一模型中的端到端潜在扩散)

作者: Xiyuan Wang, Muhan Zhang

摘要:

1. 研究问题/核心挑战:

该论文旨在解决标准潜在扩散模型(LDMs)固有的复杂性、多阶段训练以及与当前主流的单一网络视觉基础模型不兼容的问题。LDMs通常由独立的编码器、解码器和扩散网络组成,这种模块化设计导致计算效率低下、性能次优,并且阻碍了将扩散模型统一到单一网络架构中。直接将这三个组件联合端到端训练会导致灾难性的“潜在空间坍塌”,即扩散训练目标干扰了网络学习良好潜在表示的能力。

2. 主要创新点/方法贡献:

作者通过将扩散模型与自蒸馏(SD)无监督学习方法进行类比,深入分析了潜在空间坍塌的两个根本原因: * 潜在方差抑制: L2损失项隐式地包含与潜在表示方差成比例的项,迫使编码器最小化方差,导致潜在向量聚集在均值周围。 * 秩区分能力失效: 标准扩散模型的目标(预测速度)输出高秩信号,而自蒸馏需要预测器(扩散模型)输出低秩信号以避免坍塌。

基于这些洞察,论文提出了扩散作为自蒸馏(DSD)框架,通过以下两个关键技术创新来稳定训练: * 解耦(Decoupling): 通过在目标干净潜在表示上应用stop-gradient(sg)操作符,消除了对潜在方差的梯度惩罚,从而保护了潜在表示的表达能力。 * 损失变换(Loss Transformation): 分析证明了速度预测损失在数学上等价于预测干净潜在表示的损失。通过直接预测去噪后的图像潜在表示,迫使预测器充当低通滤波器,从而激活了自蒸馏稳定的秩区分机制。

此外,DSD还通过引入EMA更新目标编码器、使用数据增强以及整合辅助损失(如ViT层对齐、表示级别自蒸馏和分类损失)来进一步增强性能。

3. 主要结果及其意义:

DSD框架首次实现了编码器、解码器和扩散模型在一个单一网络中的稳定端到端训练。该方法在ImageNet 256x256条件生成任务上取得了卓越的性能,即使在参数量远小于基线模型的情况下,也能达到甚至超越最先进的水平。例如,DSD-B模型仅使用2.05亿参数,在无分类器引导的情况下取得了FID=4.25的优异成绩,显著优于参数量高达7亿的现有模型。这表明DSD在参数效率和模型统一性方面具有显著优势,为构建高效、统一的生成模型提供了一条新途径。

4. 提及的局限性:

  • 由于计算资源限制,论文未能将DSD扩展到与基线模型相匹配的更大模型规模。
  • 论文未进行实验来验证DSD作为无监督学习方法的有效性。

5. 潜在的未来研究方向:

  • 将DSD扩展到更大的模型规模,以进一步验证其可扩展性。
  • 探索DSD在纯无监督学习任务中的应用和有效性。
  • 进一步研究DSD在其他下游视觉任务中的潜力。

Key Findings:

  • We identify the root causes of this instability by drawing a novel analogy between diffusion and self-distillation based unsupervised learning method.
  • Based on this insight, we propose Diffusion as Self-Distillation (DSD), a new framework with key modifications to the training objective that stabilize the latent space.

Links:


FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation

Authors: Yunfeng Wu, Jiayi Song, Zhenxiong Tan, Zihao He, Songhua Liu

Published: 2025-11-18

Categories: cs.CV

Abstract:

The quadratic time and memory complexity of the attention mechanism in modern Transformer based video generators makes end-to-end training for ultra high resolution videos prohibitively expensive. Motivated by this limitation, we introduce a training-free approach that leverages video Diffusion Transformers pretrained at their native scale to synthesize higher resolution videos without any additional training or adaptation. At the core of our method lies an inward sliding window attention mechanism, which originates from a key observation: maintaining each query token's training scale receptive field is crucial for preserving visual fidelity and detail. However, naive local window attention, unfortunately, often leads to repetitive content and exhibits a lack of global coherence in the generated results. To overcome this challenge, we devise a dual-path pipeline that backs up window attention with a novel cross-attention override strategy, enabling the semantic content produced by local attention to be guided by another branch with a full receptive field and, therefore, ensuring holistic consistency. Furthermore, to improve efficiency, we incorporate a cross-attention caching strategy for this branch to avoid the frequent computation of full 3D attention. Extensive experiments demonstrate that our method delivers ultra-high-resolution videos with fine-grained visual details and high efficiency in a training-free paradigm. Meanwhile, it achieves superior performance on VBench, even compared to training-based alternatives, with competitive or improved efficiency. Codes are available at: https://github.com/WillWu111/FreeSwim

Analysis:

好的,作为计算机视觉和机器学习领域的专家,我将根据您提供的论文摘要进行深入分析。

论文摘要分析:FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation

1. 论文的主要贡献(2-3句话):

本研究提出了一种名为 FreeSwim 的新颖训练无关(training-free)方法,旨在解决现有基于 Transformer 的视频生成模型在处理超高分辨率视频时面临的计算成本过高问题。其核心贡献在于引入了一种改进的滑动窗口注意力机制,并结合了跨注意力覆盖策略和缓存机制,从而在不进行任何额外训练的情况下,实现高质量、高分辨率视频的生成,并展现出优异的性能和效率。

2. 关键创新或方法论:

  • 训练无关(Training-Free)的超高分辨率视频生成: 这是最核心的创新点。利用已在原生分辨率下预训练好的视频 Diffusion Transformer 模型,通过巧妙的设计,直接用于生成更高分辨率的视频,避免了昂贵的端到端训练。
  • 改进的内向滑动窗口注意力(Inward Sliding Window Attention):
    • 核心观察: 论文强调了保持查询(query)令牌在训练时的感受野(receptive field)对于保留视觉保真度和细节至关重要。
    • 挑战: 传统的局部窗口注意力容易导致内容重复和全局不一致。
    • 解决方案: FreeSwim 提出的滑动窗口注意力机制旨在克服这一挑战,但具体实现细节(如“内向”)需要进一步阅读论文才能完全理解。
  • 双路径流水线(Dual-Path Pipeline)与跨注意力覆盖策略(Cross-Attention Override Strategy):
    • 目的: 解决局部窗口注意力带来的全局不一致问题。
    • 机制: 将局部窗口注意力的输出与一个具有完整感受野的另一分支(通过跨注意力)进行融合。这使得局部注意力产生的语义内容能够被具有全局视角的另一分支所指导,从而确保整体的一致性。
  • 跨注意力缓存策略(Cross-Attention Caching Strategy):
    • 目的: 提高效率。
    • 机制: 为具有完整感受野的另一分支引入缓存机制,避免了频繁计算完整的 3D 注意力,从而显著降低了计算开销。

3. 对该领域的潜在影响:

  • 降低超高分辨率视频生成的门槛: 训练无关的特性极大地降低了研究和应用超高分辨率视频生成的成本和技术门槛,使得更多研究者和开发者能够探索和利用这一领域。
  • 推动视频生成模型的可扩展性: 该方法为解决 Transformer 模型在处理高分辨率数据时的二次复杂度问题提供了一个有效的范例,可能启发其他领域(如图像生成)的类似研究。
  • 提升视频生成质量和效率的平衡: 在保证生成质量的同时,显著提高了效率,这对于实时或近实时的视频生成应用具有重要意义。
  • 为视频编辑和增强提供新工具: 训练无关的特性也可能使其在视频超分辨率、视频修复等任务中具有潜在应用价值,无需重新训练模型即可提升现有视频的质量。

4. 可能受益的相关领域或应用:

  • 电影和媒体制作: 生成更高分辨率、更逼真的电影片段、特效素材。
  • 虚拟现实(VR)和增强现实(AR): 创建沉浸式、高细节的虚拟环境和交互体验。
  • 游戏开发: 生成高质量的游戏过场动画和游戏内场景。
  • 医学影像: 生成高分辨率的医学视频,辅助诊断和研究。
  • 科学可视化: 生成高分辨率的模拟和实验过程可视化视频。
  • 视频编辑和后期制作: 提供强大的视频增强和风格迁移工具。
  • 内容创作平台: 赋能用户生成高质量的短视频或长视频内容。

5. 从摘要中可以推断出的局限性:

  • 依赖于预训练模型: 该方法的核心是利用已有的预训练模型。其生成视频的质量和风格在很大程度上受限于预训练模型的性能和训练数据。如果预训练模型本身存在缺陷或不适用于特定任务,FreeSwim 的效果也会受到影响。
  • “内向”滑动窗口注意力的具体细节未知: 摘要中提到了“内向”滑动窗口注意力,但具体如何实现以及其在何种程度上限制了感受野的扩展,需要进一步阅读论文来理解。这可能在某些情况下限制其捕捉极远距离依赖关系的能力。
  • 全局一致性的“保证”程度: 虽然提出了双路径流水线来确保全局一致性,但“确保”的程度以及在何种复杂场景下可能出现不一致,仍需通过实验结果来验证。
  • 计算效率的相对性: 尽管声称提高了效率,但与传统的低分辨率生成相比,超高分辨率视频生成本身仍然是计算密集型的。其效率提升是相对于“端到端训练超高分辨率模型”而言的,而非绝对的低计算量。
  • 对特定 Transformer 架构的依赖性: 该方法是基于“现代 Transformer 基于视频生成器”的,可能对特定的 Transformer 架构和注意力机制设计有一定依赖性。

总而言之,FreeSwim 论文的亮点在于其“训练无关”的超高分辨率视频生成能力,通过巧妙的注意力机制设计和多分支融合策略,有效地解决了现有方法的计算瓶颈,为视频生成领域带来了新的可能性。其潜在影响广泛,但具体效果和适用范围仍需结合论文的详细内容和实验结果进行评估。

Key Findings:

  • Motivated by this limitation, we introduce a training-free approach that leverages video Diffusion Transformers pretrained at their native scale to synthesize higher resolution videos without any additional training or adaptation.
  • At the core of our method lies an inward sliding window attention mechanism, which originates from a key observation: maintaining each query token's training scale receptive field is crucial for preserving visual fidelity and detail.
  • To overcome this challenge, we devise a dual-path pipeline that backs up window attention with a novel cross-attention override strategy, enabling the semantic content produced by local attention to be guided by another branch with a full receptive field and, therefore, ensuring holistic consistency.
  • Extensive experiments demonstrate that our method delivers ultra-high-resolution videos with fine-grained visual details and high efficiency in a training-free paradigm.

Links:


Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer

Authors: Kallol Mondal, Ankush Kumar

Published: 2025-11-18

Categories: cs.NE, cs.AI, cs.CV, cs.ET, stat.ML

Abstract:

Attention is the brain's ability to selectively focus on a few specific aspects while ignoring irrelevant ones. This biological principle inspired the attention mechanism in modern Transformers. Transformers now underpin large language models (LLMs) such as GPT, but at the cost of massive training and inference energy, leading to a large carbon footprint. While brain attention emerges from neural circuits, Transformer attention relies on dot-product similarity to weight elements in the input sequence. Neuromorphic computing, especially spiking neural networks (SNNs), offers a brain-inspired path to energy-efficient intelligence. Despite recent work on attention-based spiking Transformers, the core attention layer remains non-neuromorphic. Current spiking attention (i) relies on dot-product or element-wise similarity suited to floating-point operations, not event-driven spikes; (ii) keeps attention matrices that suffer from the von Neumann bottleneck, limiting in-memory computing; and (iii) still diverges from brain-like computation. To address these issues, we propose the Spiking STDP Transformer (STDPT), a neuromorphic Transformer that implements self-attention through spike-timing-dependent plasticity (STDP), embedding query--key correlations in synaptic weights. STDP, a core mechanism of memory and learning in the brain and widely studied in neuromorphic devices, naturally enables in-memory computing and supports non-von Neumann hardware. On CIFAR-10 and CIFAR-100, our model achieves 94.35\% and 78.08\% accuracy with only four timesteps and 0.49 mJ on CIFAR-100, an 88.47\% energy reduction compared to a standard ANN Transformer. Grad-CAM shows that the model attends to semantically relevant regions, enhancing interpretability. Overall, STDPT illustrates how biologically inspired attention can yield energy-efficient, hardware-friendly, and explainable neuromorphic models.

Analysis:

好的,这是对论文“Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer”的全面中文摘要:

论文题目: Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer (通过突触可塑性实现注意力机制:一种受生物启发的脉冲神经形态Transformer)

作者: Kallol Mondal, Ankush Kumar

摘要:

1. 主要问题/研究问题:

现代Transformer模型在自然语言处理(NLP)和计算机视觉等领域取得了巨大成功,但其巨大的计算量和高能耗(导致碳足迹增加)是其主要缺点。现有基于脉冲神经网络(SNN)的Transformer模型虽然在能效方面有所改进,但其核心的注意力机制仍然依赖于非神经形态的计算方式,例如浮点数点积相似性计算、需要显式存储的注意力矩阵(导致冯·诺依曼瓶颈)以及与生物大脑计算方式的差异。因此,研究如何构建一种真正生物启发、能量高效且支持内存计算的脉冲神经形态Transformer注意力机制是本文要解决的核心问题。

2. 关键创新/方法贡献:

本文提出了一种名为Spiking STDP Transformer (S²TDPT) 的新型神经形态Transformer架构,其核心创新在于:

  • 基于STDP的注意力机制: S²TDPT将注意力机制的计算完全基于尖峰时间依赖可塑性 (Spike-Timing-Dependent Plasticity, STDP)。STDP是一种模拟生物大脑中突触可塑性的核心机制,它通过精确的尖峰时间交互来编码信息相关性,而不是依赖于浮点数相似性。这使得注意力权重的计算能够直接嵌入到突触权重中,实现了内存计算 (in-memory computing)
  • 消除中间注意力分数矩阵: 通过将Q(Query)和K(Key)的关联性直接编码到突触权重中,S²TDPT避免了显式计算和存储N×N的中间注意力分数矩阵,从而消除了冯·诺依曼瓶颈,显著减少了内存带宽需求。
  • 纯加法运算: 整个注意力模块的计算过程被设计为纯加法运算,这与脉冲神经网络的事件驱动特性高度兼容,进一步提升了能效。
  • 生物学上的合理性: 该模型通过模拟生物大脑中突触可塑性和尖峰时间编码的方式来计算注意力,使其在计算原理上更接近生物大脑,增强了模型的可解释性。

3. 主要结果及其意义:

  • 性能表现: 在CIFAR-10和CIFAR-100数据集上,S²TDPT取得了优异的分类准确率,分别为94.35%和78.08%。
  • 能效提升: 在仅使用四个时间步的情况下,S²TDPT在CIFAR-100上的能耗仅为0.49 mJ,相比于标准的ANN Transformer,能耗降低了88.47%。与现有的Spikformer等脉冲Transformer相比,能效也显著提升。
  • 可解释性: 通过Grad-CAM可视化分析,S²TDPT能够准确地将注意力集中在与分类任务相关的语义区域,表明其注意力机制具有良好的可解释性。
  • 意义: S²TDPT的成功表明,通过将生物学原理(如STDP)融入Transformer的注意力机制,可以构建出在性能、能效和生物学合理性方面都具有显著优势的神经形态模型。这为开发更高效、更具可解释性的AI系统提供了新的方向,并为未来在神经形态硬件上部署复杂的AI模型铺平了道路。

4. 论文中提到的局限性:

  • 当前实现: 目前的实现仍然依赖于GPU上的反向传播进行训练,而非完全的端到端神经形态硬件上的在线学习。
  • 神经元模型: 模型使用了多步Leaky-Integrate-and-Fire (LIF) 神经元,虽然这是标准做法,但论文也提到可以探索其他更先进的脉冲神经元模型以进一步提升性能。
  • 数据集: 主要在CIFAR-10和CIFAR-100等图像分类数据集上进行了评估,未来可以扩展到更大规模的数据集(如ImageNet)或更复杂的任务(如NLP)。

5. 潜在的未来研究方向:

  • 端到端神经形态硬件实现: 将S²TDPT部署到实际的神经形态硬件上进行训练和推理,以充分发挥其低功耗优势。
  • 在线学习: 研究基于STDP的在线学习方法,实现模型在设备上的实时自适应和学习。
  • 更复杂的任务和数据集: 将S²TDPT扩展到自然语言处理、视频理解等更复杂的任务,以及更大规模的数据集。
  • 探索其他脉冲神经元模型: 集成更先进的脉冲神经元模型,以进一步提升模型的精度和能效。
  • 与其他生物学机制的结合: 探索将更多生物学上的学习和计算机制(如Hebbian学习、不同类型的突触可塑性)融入Transformer架构。

总而言之,这篇论文提出了一种具有开创性的脉冲神经形态Transformer架构,通过将STDP机制引入注意力计算,成功地解决了现有Transformer模型在能耗和生物学合理性方面存在的关键问题,为构建更高效、更智能的AI系统提供了重要的理论和实践基础。

Key Findings:

  • To address these issues, we propose the Spiking STDP Transformer (STDPT), a neuromorphic Transformer that implements self-attention through spike-timing-dependent plasticity (STDP), embedding query--key correlations in synaptic weights.

Links:


NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

Authors: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria

Published: 2025-11-18

Categories: cs.RO, cs.AI

Abstract:

Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.

Analysis:

作为一名在计算机视觉和机器学习领域的专家,我对这篇论文摘要进行了深入分析。以下是我的评估:

1. 论文的主要贡献(2-3句话的简洁总结)

本研究提出了 NORA-1.5,一个在预训练 NORA 模型基础上增强了流匹配动作专家的视觉-语言-动作(VLA)模型。通过引入基于世界模型和偏离真实情况的奖励信号进行后训练,NORA-1.5 在模拟和真实世界基准测试中均展现出显著的性能提升和可靠性增强,为构建更可靠的具身智能体提供了有效途径。

2. 关键创新或方法论

  • 流匹配(Flow-Matching)的动作专家集成: 这是 NORA-1.5 架构上的一个核心改进。流匹配是一种生成模型技术,用于学习数据分布的连续变换。将其应用于动作生成,意味着模型能够更平滑、更准确地生成一系列动作,这对于需要精细控制和连续运动的具身任务至关重要。
  • 结合世界模型(WM)和偏离真实情况的奖励模型进行后训练: 这是论文在训练策略上的一个重要创新。
    • 动作条件世界模型: 这种模型能够预测给定动作后,环境状态会如何变化,并评估这些变化是否朝着目标前进。这提供了一种内在的、基于预测的奖励信号,能够指导模型生成更具目的性的动作。
    • 偏离真实情况的启发式: 这种奖励机制旨在区分“好”动作和“差”动作,可能通过与期望的或最优的动作序列进行比较来实现。这提供了一种更直接的反馈,帮助模型避免产生无效或有害的动作。
  • 直接偏好优化(DPO)的应用: DPO 是一种无需显式学习奖励函数即可直接从偏好数据中优化策略的方法。结合上述奖励模型构建的偏好数据集,DPO 能够有效地将模型调整到更符合人类或预设标准的行为。

3. 对该领域的潜在影响

  • 提升具身智能体的可靠性和泛化能力: 当前 VLA 模型在部署到不同环境或实体时存在可靠性和泛化性不足的问题。NORA-1.5 的方法,特别是其创新的奖励机制和后训练策略,有望显著改善这一点,使其在更广泛的场景下表现更稳定。
  • 推动 VLA 模型在真实世界中的应用: 论文强调了在模拟和真实机器人设置下的评估,表明其方法具有实际部署的潜力。更可靠的 VLA 模型是实现智能机器人、自动化助手等应用的关键。
  • 为 VLA 模型训练提供新的范式: 将世界模型和偏好学习相结合的奖励驱动后训练方法,为 VLA 模型的设计和训练提供了新的思路,可能启发后续研究。
  • 降低对大量标注数据的依赖: 相较于传统的强化学习方法,DPO 和世界模型可能在一定程度上减少对大量手工标注奖励信号的需求,通过模型自身的预测和评估来指导学习。

4. 可能受益的相关领域或应用

  • 机器人学: 尤其是在需要与物理环境交互的任务中,如家庭服务机器人、工业自动化、自动驾驶等。
  • 虚拟现实(VR)和增强现实(AR): 用于创建更具交互性和沉浸感的虚拟体验,以及更智能的 AR 应用。
  • 游戏 AI: 开发更智能、更具适应性的游戏 NPC。
  • 人机交互: 构建更自然、更直观的人机协作系统。
  • 多模态学习: 进一步探索视觉、语言和动作之间的深层联系。

5. 从摘要中可以推断出的局限性

  • 计算成本: 流匹配模型和世界模型的训练通常需要大量的计算资源。虽然摘要未明确提及,但这是这类模型普遍存在的挑战。
  • 奖励模型的准确性: 尽管论文提出了创新的奖励模型,但其有效性仍然依赖于世界模型和偏离真实情况启发式的准确性。如果这些奖励信号本身存在偏差或不准确,可能会限制最终模型的性能。
  • “偏离真实情况”的定义: 摘要中“偏离真实情况的启发式”的具体实现细节并未完全披露。其有效性可能取决于如何精确地定义和量化“偏离”以及“好”与“差”的动作。
  • 对特定实体的适应性: 虽然论文提到“目标实体”,但摘要并未说明模型在适应全新、高度不同的实体时,需要多大的调整或数据量。
  • 泛化到未见过任务的能力: 尽管论文声称提高了泛化能力,但摘要并未提供具体证据表明模型能处理与训练数据完全不同类型的新任务。

总而言之,NORA-1.5 的研究在 VLA 模型领域具有重要的理论和实践意义。其核心在于通过引入更精细的动作生成机制(流匹配)和更智能的奖励信号(世界模型+偏离真实情况),并结合 DPO 进行高效的后训练,从而显著提升了具身智能体的可靠性和性能。这为构建能够胜任更复杂、更具挑战性现实世界任务的智能体铺平了道路。

Key Findings:

  • In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert.
  • This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks.
  • To further improve robustness and task success, we develop a set of reward models for post-training VLA policies.

Links:


SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

Authors: Meiying Gu, Jiawei Zhang, Jiahe Li, Xiaohan Yu, Haonan Luo, Jin Zheng, Xiao Bai

Published: 2025-11-18

Categories: cs.CV

Abstract:

Recent advances in optimizing Gaussian Splatting for scene geometry have enabled efficient reconstruction of detailed surfaces from images. However, when input views are sparse, such optimization is prone to overfitting, leading to suboptimal reconstruction quality. Existing approaches address this challenge by employing flattened Gaussian primitives to better fit surface geometry, combined with depth regularization to alleviate geometric ambiguities under limited viewpoints. Nevertheless, the increased anisotropy inherent in flattened Gaussians exacerbates overfitting in sparse-view scenarios, hindering accurate surface fitting and degrading novel view synthesis performance. In this paper, we propose \net{}, a method that reconstructs more accurate and detailed surfaces while preserving high-quality novel view rendering. Our key insight is to introduce Stereo Geometry-Texture Alignment, which bridges rendering quality and geometry estimation, thereby jointly enhancing both surface reconstruction and view synthesis. In addition, we present a Pseudo-Feature Enhanced Geometry Consistency that enforces multi-view geometric consistency by incorporating both training and unseen views, effectively mitigating overfitting caused by sparse supervision. Extensive experiments on the DTU, BlendedMVS, and Mip-NeRF360 datasets demonstrate that our method achieves the state-of-the-art performance.

Analysis:

好的,这是对论文“SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction”的全面中文摘要,其中包含了您要求的各个部分:

论文题目: SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

作者: Meiying Gu, Jiawei Zhang, Jiahe Li, Xiaohan Yu, Haonan Luo, Jin Zheng, Xiao Bai


全面摘要

1. 研究问题/核心挑战:

该论文主要解决了在稀疏视图条件下进行高质量三维表面重建新视图合成的挑战。现有的基于3D高斯泼溅(3DGS)的方法在视图充足时表现出色,但在输入图像数量很少的情况下,容易出现过拟合,导致重建的表面质量下降,并且新视图合成效果不佳。虽然一些方法尝试使用扁平化的高斯原语来更好地拟合表面几何,并引入深度正则化,但扁平化高斯固有的各向异性反而加剧了稀疏视图下的过拟合问题。

2. 主要创新点/方法贡献:

SparseSurf 提出了一种新颖的方法,旨在同时实现更准确、更精细的表面重建高质量的新视图合成。其核心贡献包括:

  • 立体几何-纹理对齐 (Stereo Geometry-Texture Alignment): 引入了一种新颖的机制,将渲染质量与几何估计联系起来。通过估计和更新立体视图图像,并利用预训练的立体匹配网络来获得几何先验,从而实现更可靠的几何监督,并随着训练的进行,立体视图的质量提升会反过来增强几何先验的准确性。
  • 伪特征增强几何一致性 (Pseudo-Feature Enhanced Geometry Consistency): 为了解决扁平化高斯在稀疏视图下过拟合的风险,该方法引入了一种新的几何一致性约束。它通过结合训练视图伪(虚拟)视图来强制执行多视图几何一致性。具体来说,它利用多视图特征表示,并通过特征蒸馏来增强伪视图的特征表示,从而有效缓解了稀疏监督带来的过拟合问题。
  • 训练视图特征对齐 (Train-view Feature Alignment): 为了进一步提高鲁棒性,该方法还引入了训练视图特征对齐,利用高置信度的特征来强制执行像素级别的多视图一致性,从而进一步提升表面细节。

3. 主要结果与意义:

  • 定量结果: 在 DTU、BlendedMVS 和 Mip-NeRF360 等多个数据集上进行了广泛实验。SparseSurf 在 DTU 数据集上的 Chamfer Distance (CD) 指标上取得了最先进的性能,无论是在小重叠还是大重叠的稀疏视图设置下,都显著优于现有方法。在 Mip-NeRF360 数据集上,其新视图合成性能也达到了最高水平(SSIM 指标)。
  • 定性结果: 可视化结果表明,SparseSurf 能够重建出更准确、更完整、细节更丰富的表面,并且在稀疏视图下能够生成清晰、无伪影的新视图图像,有效避免了现有方法中常见的几何失真和模糊问题。
  • 意义: SparseSurf 的成功表明,通过巧妙地结合立体几何先验和伪视图特征一致性,可以有效地克服稀疏视图下 3DGS 的过拟合问题,从而在保持高质量渲染的同时,实现更可靠的三维表面重建。这降低了对输入图像数量的要求,为实际应用中的三维重建提供了更便捷的解决方案。

4. 提及的局限性:

论文中提到,在极端稀疏视图的情况下,遮挡问题是不可避免的,并且在这些区域,表面重建可能会失败。

5. 潜在的未来研究方向:

虽然论文没有明确列出未来研究方向,但基于其提出的方法和遇到的局限性,可以推测以下潜在方向:

  • 更鲁棒的遮挡处理: 进一步研究如何更有效地处理稀疏视图下的遮挡区域,以实现更完整的表面重建。
  • 更高效的立体匹配和特征提取: 探索更轻量级或更高效的立体匹配网络和特征提取模型,以进一步提高训练和推理效率。
  • 自适应的正则化策略: 开发能够根据输入视图的稀疏程度和场景复杂度自适应调整正则化强度的策略,以获得更优的性能。
  • 结合其他先验信息: 探索将其他类型的先验信息(如语义信息、物体类别信息等)融入到 SparseSurf 框架中,以进一步提升重建的准确性和鲁棒性。
  • 动态场景重建: 将 SparseSurf 的思想扩展到动态场景的重建,以应对更复杂的真实世界应用。

总而言之,SparseSurf 是一项重要的研究成果,它通过创新的“立体几何-纹理对齐”和“伪特征增强几何一致性”方法,有效解决了稀疏视图下 3DGS 的过拟合问题,在三维表面重建和新视图合成方面均取得了显著的性能提升,为在图像稀疏条件下进行高质量三维重建开辟了新的可能性。

Key Findings:

  • Nevertheless, the increased anisotropy inherent in flattened Gaussians exacerbates overfitting in sparse-view scenarios, hindering accurate surface fitting and degrading novel view synthesis performance.
  • In this paper, we propose \net{}, a method that reconstructs more accurate and detailed surfaces while preserving high-quality novel view rendering.
  • In addition, we present a Pseudo-Feature Enhanced Geometry Consistency that enforces multi-view geometric consistency by incorporating both training and unseen views, effectively mitigating overfitting caused by sparse supervision.
  • Extensive experiments on the DTU, BlendedMVS, and Mip-NeRF360 datasets demonstrate that our method achieves the state-of-the-art performance.

Links: