Arxiv Computer Vision Papers - 2025-09-30
Executive Summary
好的,这是一份针对2025年9月28日Arxiv计算机视觉论文的每日报告执行摘要,旨在帮助忙碌的研究人员快速了解最新进展:
Arxiv 计算机视觉每日报告执行摘要 (2025-09-28)
概述与主要趋势:
今天的论文集呈现出计算机视觉领域几个关键趋势的持续深化和融合。生成式AI 仍然是核心焦点,尤其是在图像生成、3D内容创建和多模态交互方面。3D表示与生成 取得了显著进展,从新的渲染技术到统一的3D潜在空间。此外,效率和实用性 成为重要考量,体现在对快速模型、无监督学习和实际应用(如机器人操作和肖像修改)的关注。多模态学习,特别是结合大型语言模型(LLMs)进行少样本学习,也显示出其日益增长的重要性。
特别重要或创新的论文:
- "HunyuanImage 3.0 Technical Report" (Siyu Cao et al.): 作为大型图像生成模型的技术报告,这篇论文通常代表了该领域最前沿的进展,可能包含新的架构、训练策略或性能突破,对理解生成式AI的未来方向至关重要。
- "UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation" (Guanjun Wu et al.): 这篇论文通过统一几何和外观的潜在空间实现单阶段3D生成,代表了3D内容创建效率和质量的重大飞跃,有望简化3D资产生成流程。
- "Score Distillation of Flow Matching Models" (Mingyuan Zhou et al.): 结合了流匹配模型和分数蒸馏,这可能为生成模型提供新的训练范式,提升生成质量和效率,对扩散模型和生成式AI研究者具有重要意义。
- "VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning" (Wenhao Li et al.): 利用LLMs连接视觉和文本进行少样本学习,这代表了多模态AI在解决数据稀缺问题上的一个强大方向,预示着LLMs在更广泛视觉任务中的应用潜力。
新兴研究方向或技术:
- 统一的3D潜在空间 (Unified 3D Latents):如UniLat3D所示,将几何和外观信息整合到单一潜在表示中,是实现高效、高质量3D生成的重要方向。
- 事件相机数据的新型表示 (Predictive Representation of Events):F3模型为事件相机数据提供了一种预测性表示,这对于处理高动态、低延迟视觉信息至关重要,可能在自动驾驶和机器人领域有广泛应用。
- 基于强化学习的数据生成 (RL-based Data Generation):BRIDGE项目利用RL生成深度估计数据,为解决特定任务的数据稀缺问题提供了新的思路。
- LLMs在视觉任务中的深度融合 (Deep Integration of LLMs in Vision):VT-FSL展示了LLMs不仅作为文本理解工具,还能作为连接不同模态、赋能复杂视觉任务(如少样本学习)的强大桥梁。
- 可微分渲染的实用化 (Practical Differentiable Rendering):Triangle Splatting+通过不透明三角形实现可微分渲染,提高了渲染效率和实用性,对NeRFs和3D重建等领域有益。
建议阅读全文的论文:
对于希望深入了解特定领域的忙碌研究人员,我建议优先阅读以下论文:
- 对于生成式AI和大型模型感兴趣的:
- "HunyuanImage 3.0 Technical Report"
- "Score Distillation of Flow Matching Models"
- 对于3D视觉和内容生成感兴趣的:
- "UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation"
- "Triangle Splatting+: Differentiable Rendering with Opaque Triangles"
- 对于多模态学习和LLMs应用感兴趣的:
- "VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning"
- 对于机器人和实际应用感兴趣的:
- "AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation"
- "BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation"
这份摘要旨在提供一个高层次的概览,帮助您快速识别与您研究兴趣最相关的最新进展。
Table of Contents
- HunyuanImage 3.0 Technical Report
- Fast Feature Field (): A Predictive Representation of Events
- Score Distillation of Flow Matching Models
- Triangle Splatting+: Differentiable Rendering with Opaque Triangles
- Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives
- UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation
- BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
- CharGen: Fast and Fluent Portrait Modification
- VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
- AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
Papers
HunyuanImage 3.0 Technical Report
Authors: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong
Published: 2025-09-28
Categories: cs.CV
Abstract:
We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Analysis:
以下是“HunyuanImage 3.0 Technical Report”的摘要:
1. 主要问题或研究问题 该论文旨在解决现有图像生成模型在透明度、可复现性以及在复杂文本指令遵循、推理和概念泛化方面的局限性。特别是,许多最先进的图像生成系统是闭源的,限制了研究社区的进一步探索。HunyuanImage 3.0的目标是开发一个开源的多模态模型,该模型在图像生成性能上可与领先的闭源模型媲美或超越,并能统一多模态理解和生成。
2. 关键创新或方法论贡献 * 统一多模态框架: HunyuanImage 3.0是一个原生的多模态模型,在一个自回归框架内统一了多模态理解和生成,其图像生成模块已公开。 * 大规模MoE架构: 该模型基于Hunyuan-A13B,一个预训练的MoE大型语言模型(LLM),总参数超过800亿,推理时每token激活130亿参数,使其成为迄今为止最大、最强大的开源图像生成模型。 * 数据处理: 采用了细致的数据整理流程,包括三阶段过滤(从100亿原始图像中保留不到45%)、双语分层标注方案(支持短到超长的描述、风格属性和事实实体),以及通过专门代理和双向验证进行事实基础化。 * 推理数据集构建: 引入了自动化的思维链(CoT)推理过程,通过文本到文本(T2T)和文本到图像(T2TI)推理数据进行微调,以增强模型的逻辑推理和视觉表现能力。 * 广义因果注意力机制: 整合了文本和图像模态的注意力机制,确保文本token只关注前序token,而图像token可以关注同一图像段内的所有前序和后序图像token,以处理异构数据模态。 * 广义2D旋转位置嵌入(RoPE): 扩展了RoPE以支持图像token的2D位置编码,同时保持与传统文本生成和预训练LLM的兼容性。 * 自动分辨率: 模型能够根据上下文自动确定图像的尺寸和宽高比,通过特殊的token来指导生成具有所需结构属性的图像。 * 多阶段训练策略: 采用渐进式预训练(包括T2I、LM、MMU、INTL和CoT任务),以及多阶段后训练优化(SFT、DPO、MixGRPO、SRPO和ReDA),以系统地提升生成能力、减少物理失真、增强文本-图像对齐和视觉质量。
3. 主要结果及其意义 * 领先的图像生成性能: 自动和人工评估的文本-图像对齐和视觉质量结果表明,HunyuanImage 3.0与之前的最先进模型(如Seedream 4.0、Nano Banana、GPT-Image和HunyuanImage 2.1)相比,性能相当或超越。 * 开源影响力: 作为迄今为止最大、最强大的开源图像生成模型,其代码和权重(在GitHub上公开)的发布旨在促进社区探索新想法,推动多模态生态系统的发展。 * SSAE评估: 在结构化语义对齐评估(SSAE)指标上,HunyuanImage 3.0在所有细粒度字段中都达到了与领先模型相当的性能。 * GSB评估: 在GSB(Good/Same/Bad)评估中,HunyuanImage 3.0相对于HunyuanImage 2.1取得了14.10%的相对胜率,相对于Seedream 4.0、Nano Banana和GPT-Image也取得了显著胜率,表明其图像生成质量可与领先的闭源商业模型媲美。 * 专家激活分析: 专家模态偏好热图和KL散度分析表明,MoE中的专家在不同模态上变得越来越专业化,这表明MoE可以通过将不同模态的责任分散给专业化专家来增强多模态建模。
4. 论文中提到的局限性 * 当前发布范围: 本次发布仅包含文本到图像(T2I)的能力,图像到图像(I2I)任务的训练仍在进行中,未来才会发布。 * AIGC对数据分布的影响: AIGC图像的扩散通过扭曲自然数据分布和损害模型收敛性带来了重大挑战,尽管论文中提到了缓解策略。
5. 潜在的未来研究方向 * 图像到图像任务: 论文明确指出,图像到图像任务的训练正在进行中,未来将发布此功能,这将是模型能力的重要扩展。 * 多模态生态系统探索: 通过发布开源模型,鼓励社区探索基于最先进基础模型的新想法,从而促进动态和充满活力的多模态生态系统。 * 更复杂的推理和泛化: 进一步探索和增强模型的思维链训练和推理能力,以处理更复杂、更细致的用户意图和场景。 * 数据策展和模型优化: 持续改进数据策展技术和模型优化策略,以进一步提升生成图像的真实感、清晰度和对人类偏好的对齐。
Key Findings:
- We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available.
- We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models.
- By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem.
Links:
Fast Feature Field (): A Predictive Representation of Events
Authors: Richeek Das, Kostas Daniilidis, Pratik Chaudhari
Published: 2025-09-29
Categories: cs.CV, cs.AI, cs.LG, cs.RO
Abstract:
This paper develops a mathematical argument and algorithms for building representations of data from event-based cameras, that we call Fast Feature Field (). We learn this representation by predicting future events from past events and show that it preserves scene structure and motion information. exploits the sparsity of event data and is robust to noise and variations in event rates. It can be computed efficiently using ideas from multi-resolution hash encoding and deep sets - achieving 120 Hz at HD and 440 Hz at VGA resolutions. represents events within a contiguous spatiotemporal volume as a multi-channel image, enabling a range of downstream tasks. We obtain state-of-the-art performance on optical flow estimation, semantic segmentation, and monocular metric depth estimation, on data from three robotic platforms (a car, a quadruped robot and a flying platform), across different lighting conditions (daytime, nighttime), environments (indoors, outdoors, urban, as well as off-road) and dynamic vision sensors (resolutions and event rates). Our implementations can predict these tasks at 25-75 Hz at HD resolution.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Richeek Das, Kostas Daniilidis, Pratik Chaudhari撰写的论文“Fast Feature Field (): A Predictive Representation of Events”的全面摘要。
论文摘要:Fast Feature Field (): 一种事件的预测性表示
这篇论文介绍了Fast Feature Field (),这是一种从事件相机数据构建高效表示的新方法。事件相机因其高动态范围、高时间分辨率和低功耗而备受关注,但其原始数据固有的稀疏性、噪声和异步性给下游任务带来了挑战。
1. 解决的主要问题或研究问题: 该研究旨在解决事件相机数据表示的根本性问题。传统的基于帧的计算机视觉算法难以直接处理事件数据,因为其稀疏、异步和噪声特性。论文的核心目标是开发一种能够有效捕捉场景结构和运动信息、对噪声和事件速率变化具有鲁棒性,并能高效计算的事件数据表示,从而为各种下游计算机视觉任务提供支持。
2. 关键创新或方法论贡献: * 预测性表示的学习: 的核心创新在于它被学习为过去事件的统计量,足以预测未来事件。论文从数学上论证了这种预测性表示能够保留场景的结构和运动信息。 * 多分辨率哈希编码与深度集架构: 为了高效计算并利用事件数据的稀疏性, 采用了多分辨率哈希编码(类似于神经渲染领域)和置换不变的深度集(Deep Set)架构。哈希编码将事件坐标映射到特征空间,并通过池化和卷积操作进行时间聚合和空间平滑。 * 鲁棒性训练目标: 针对事件数据的噪声和事件速率的极端不平衡,论文采用了一种加权Focal Loss变体作为训练目标,而非传统的均方误差。这使得 对噪声和事件速率变化具有更强的鲁棒性,并有助于防止特征坍塌。 * 多通道图像表示: 将事件表示为一个连续时空体积内的多通道图像,使其能够无缝集成到任何标准计算机视觉算法和基于RGB数据的神经网络架构中。
3. 主要结果及其意义: * 最先进的性能: 在多个下游任务(光流估计、语义分割和单目深度估计)上取得了最先进的性能,显著优于现有方法。 * 高效计算: 的计算效率极高,在HD分辨率下达到120 Hz,在VGA分辨率下达到440 Hz。基于 的下游任务预测在HD分辨率下也能达到25-75 Hz,比现有最先进的事件基方法快2-5倍。 * 强大的泛化能力: 在不同机器人平台(汽车、四足机器人、飞行平台)、不同光照条件(白天、夜晚)和不同环境(室内、室外、城市、越野)下表现出强大的泛化能力,无需额外的训练。 * 对机器人感知的影响: 为实时、可泛化的事件感知提供了基础,有望使机器人能够在各种具有挑战性的条件下更有效地运行。
4. 论文中提到的局限性: * 当前实现中的稠密卷积: 尽管论文强调了利用事件数据稀疏性的重要性,但目前的 实现仍使用稠密2D卷积层,而非稀疏卷积。作者指出,这是因为PyTorch中稠密卷积目前比稀疏卷积稍快,但预计未来会改变。 * 对伪标签和同步的依赖: 在语义分割和深度估计等任务中,论文依赖于从RGB图像生成的伪标签和LiDAR数据。这要求RGB相机和事件相机之间的时间戳精确同步和外部校准,DSEC数据集中存在一些对齐问题。 * 未完全利用事件极性: 论文为了简化和降低计算成本,忽略了事件的极性信息,而仅关注事件的存在与否。虽然作者提到其技术可以适应包含极性的事件,但这会增加内存和计算开销。
5. 潜在的未来研究方向: * 更全局的特征表示: 论文指出, 架构可以扩展以构建更全局的特征(例如,通过更多的卷积层和预测更大的未来补丁),从而产生更丰富的语义特征,类似于视觉皮层。 * 增量式更新: 可以通过一些簿记操作在每个事件之后进行增量式更新,这对于光流和深度估计等任务非常有用。 * 稀疏卷积的优化: 随着稀疏卷积在硬件和软件层面得到更好的支持,基于稀疏卷积的 实现有望在事件数量非常少(例如,极端低光照条件)的场景中表现更快。 * 跨模态数据池化: 作者暗示,将来自不同机器人平台和环境的数据进行池化,将进一步提高 方法的鲁棒性。 * 神经形态计算和ASIC的应用: 将 与神经形态计算或直接在像素上执行计算的ASIC结合,可以进一步提高实际性能和能源效率。
总而言之,这篇论文通过引入Fast Feature Field (),为事件相机数据处理领域做出了重大贡献。它提供了一种数学上合理、计算高效且对噪声和事件速率鲁棒的事件表示,为事件相机在各种机器人感知任务中的广泛应用铺平了道路。
Key Findings:
- We obtain state-of-the-art performance on optical flow estimation, semantic segmentation, and monocular metric depth estimation, on data from three robotic platforms (a car, a quadruped robot and a flying platform), across different lighting conditions (daytime, nighttime), environments (indoors, outdoors, urban, as well as off-road) and dynamic vision sensors (resolutions and event rates).
Links:
Score Distillation of Flow Matching Models
Authors: Mingyuan Zhou, Yi Gu, Huangjie Zheng, Liangchen Song, Guande He, Yizhe Zhang, Wenze Hu, Yinfei Yang
Published: 2025-09-29
Categories: cs.CV, cs.AI, cs.LG
Abstract:
Diffusion models achieve high-quality image generation but are limited by slow iterative sampling. Distillation methods alleviate this by enabling one- or few-step generation. Flow matching, originally introduced as a distinct framework, has since been shown to be theoretically equivalent to diffusion under Gaussian assumptions, raising the question of whether distillation techniques such as score distillation transfer directly. We provide a simple derivation -- based on Bayes' rule and conditional expectations -- that unifies Gaussian diffusion and flow matching without relying on ODE/SDE formulations. Building on this view, we extend Score identity Distillation (SiD) to pretrained text-to-image flow-matching models, including SANA, SD3-Medium, SD3.5-Medium/Large, and FLUX.1-dev, all with DiT backbones. Experiments show that, with only modest flow-matching- and DiT-specific adjustments, SiD works out of the box across these models, in both data-free and data-aided settings, without requiring teacher finetuning or architectural changes. This provides the first systematic evidence that score distillation applies broadly to text-to-image flow matching models, resolving prior concerns about stability and soundness and unifying acceleration techniques across diffusion- and flow-based generators. We will make the PyTorch implementation publicly available.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Mingyuan Zhou等人撰写的论文“Score Distillation of Flow Matching Models”的全面摘要。
论文摘要:“Score Distillation of Flow Matching Models”
1. 解决的主要问题或研究问题: 扩散模型在图像生成方面表现出色,但其迭代采样过程缓慢,限制了实际应用。蒸馏方法旨在通过实现一步或几步生成来加速这一过程。流匹配(Flow Matching)作为一种独立的框架被引入,后来被证明在高斯假设下与扩散模型理论等价。这引发了一个关键问题:扩散模型中使用的蒸馏技术(特别是分数蒸馏)是否可以直接且有效地应用于流匹配模型,以及在应用过程中是否需要进行模型特定的调整或教师模型微调。
2. 关键创新或方法论贡献: * 统一的理论视角: 论文通过基于贝叶斯规则和条件期望的简单推导,统一了高斯扩散和流匹配,而无需依赖复杂的ODE/SDE公式。这表明在理论上,两种框架在最佳解决方案上是等价的,主要区别在于时间步长的加权分布。 * SiD-DiT框架的扩展与应用: 论文将分数同一性蒸馏(Score identity Distillation, SiD)方法扩展到预训练的文本到图像流匹配模型,这些模型均采用DiT(Diffusion Transformer)骨干网络,包括SANA、SD3-Medium、SD3.5-Medium/Large和FLUX.1-dev。 * 开箱即用(Out-of-the-box)的适用性: 实验证明,SiD-DiT只需对流匹配和DiT模型进行适度调整,即可在数据无关(data-free)和数据辅助(data-aided)设置下,无需教师模型微调或架构更改,直接应用于这些模型。 * 对抗性学习集成: 在数据辅助设置中,SiD通过在判别器特征中引入空间池化,将对抗性学习(Diffusion GAN)整合到DiT骨干网络中,进一步提升了性能,且未引入额外参数。
3. 主要结果及其意义: * 广泛适用性: 论文首次系统性地证明了分数蒸馏可以广泛应用于文本到图像流匹配模型,解决了先前关于稳定性和合理性的担忧。 * 性能提升: SiD-DiT在数据无关设置下,在SANA-Sprint模型上持续优于SANA-Sprint,并在SD3系列模型上匹配或超越教师模型性能。在数据辅助设置下,通过对抗性学习,SiD2-DiT在FID(Fréchet Inception Distance)方面实现了显著降低,同时保持了CLIP和GenEval分数。 * 效率与鲁棒性: SiD-DiT框架在不同架构、噪声调度和模型规模的DiT流匹配模型上展现出高效性和鲁棒性,使用单一代码库和超参数配置即可实现。 * 统一加速技术: 论文统一了扩散和流匹配生成器中的加速技术,为未来研究提供了坚实的理论和经验基础。
4. 论文中提及的局限性: * FLUX.1-DEV的性能差距: SiD-DiT在FLUX.1-DEV上的性能提升相对温和,部分原因归因于指导机制的不匹配(FLUX.1-DEV采用学习到的指导嵌入,而非传统的CFG)。 * 度量指标的解释: 论文指出,FID、CLIP和GenEval等度量指标在比较不同模型家族和规模时应谨慎解释,视觉检查可能与这些指标的结论不完全一致。 * 数据质量对对抗性学习的影响: 虽然对抗性学习可以增加样本多样性并改善FID,但如果使用的数据集质量有限(如MidJourney-v6-llava),可能无法显著提升视觉质量,且生成的图像风格可能不符合用户偏好。
5. 潜在的未来研究方向: * 针对FLUX.1-DEV的定制化: 通过将学习到的指导嵌入集成到蒸馏目标中,或开发结合CFG和模型特定指导的混合方法,进一步优化SiD-DiT以适应FLUX.1-DEV的独特设计。 * 探索时间步长加权分布的影响: 对不同p(t)和wt如何影响性能进行系统性研究,以更好地理解和优化蒸馏过程。 * 统一生成建模和快速采样策略: 论文为未来在统一生成建模和快速采样策略方面的研究提供了理论和经验基础,鼓励进一步探索。
Key Findings:
- This provides the first systematic evidence that score distillation applies broadly to text-to-image flow matching models, resolving prior concerns about stability and soundness and unifying acceleration techniques across diffusion- and flow-based generators.
- We will make the PyTorch implementation publicly available.
Links:
Triangle Splatting+: Differentiable Rendering with Opaque Triangles
Authors: Jan Held, Renaud Vandeghen, Sanghyun Son, Daniel Rebain, Matheus Gadelha, Yi Zhou, Ming C. Lin, Marc Van Droogenbroeck, Andrea Tagliasacchi
Published: 2025-09-29
Categories: cs.CV
Abstract:
Reconstructing 3D scenes and synthesizing novel views has seen rapid progress in recent years. Neural Radiance Fields demonstrated that continuous volumetric radiance fields can achieve high-quality image synthesis, but their long training and rendering times limit practicality. 3D Gaussian Splatting (3DGS) addressed these issues by representing scenes with millions of Gaussians, enabling real-time rendering and fast optimization. However, Gaussian primitives are not natively compatible with the mesh-based pipelines used in VR headsets, and real-time graphics applications. Existing solutions attempt to convert Gaussians into meshes through post-processing or two-stage pipelines, which increases complexity and degrades visual quality. In this work, we introduce Triangle Splatting+, which directly optimizes triangles, the fundamental primitive of computer graphics, within a differentiable splatting framework. We formulate triangle parametrization to enable connectivity through shared vertices, and we design a training strategy that enforces opaque triangles. The final output is immediately usable in standard graphics engines without post-processing. Experiments on the Mip-NeRF360 and Tanks & Temples datasets show that Triangle Splatting+achieves state-of-the-art performance in mesh-based novel view synthesis. Our method surpasses prior splatting approaches in visual fidelity while remaining efficient and fast to training. Moreover, the resulting semi-connected meshes support downstream applications such as physics-based simulation or interactive walkthroughs. The project page is https://trianglesplatting2.github.io/trianglesplatting2/.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供这篇论文“Triangle Splatting+: Differentiable Rendering with Opaque Triangles”的全面摘要。
论文摘要:Triangle Splatting+: Differentiable Rendering with Opaque Triangles
1. 主要问题或研究问题: 近年来,3D场景重建和新视角合成取得了显著进展,特别是神经辐射场(NeRF)和3D高斯泼溅(3DGS)等方法。NeRF提供了高质量的图像合成,但训练和渲染时间长;3DGS实现了实时渲染和快速优化,但其高斯基元与VR头显和实时图形应用中使用的基于网格的渲染管线不兼容。现有解决方案通过后处理或两阶段管线将高斯转换为网格,这增加了复杂性并降低了视觉质量。
本研究旨在解决的核心问题是:如何在保持高视觉质量、实时性能和与现有图形管线兼容性的前提下,直接优化计算机图形学中最基本的基元——不透明三角形,以实现3D场景重建和新视角合成?
2. 关键创新或方法论贡献: Triangle Splatting+引入了一个可微分的泼溅框架,直接优化三角形,并提出了以下关键创新:
- 顶点共享的三角形参数化: 论文重新定义了三角形的参数化方式,通过共享顶点集实现三角形之间的连接性,而非像之前方法那样保持孤立。这使得三角形能够通过共同顶点自然连接,从而形成半连接网格,提高了结构一致性。
- 强制不透明三角形的训练策略: 设计了一种定制的训练策略,在训练过程中逐步强制三角形变为完全不透明。这解决了以往泼溅方法中三角形可能保持半透明的问题,确保最终输出的网格可以直接导入标准图形引擎而无需后处理。
- 结合视觉保真度和几何精度的训练策略: 该策略在训练初期允许三角形平滑(软过渡)和半透明,以确保梯度流动,并在训练后期逐渐收敛到锐利、不透明的三角形。
- 改进的剪枝和稠密化策略: 引入了基于最大体渲染权重(而非单纯不透明度)的剪枝策略,以有效移除冗余三角形,避免在三角形变得不透明后产生伪影。稠密化通过中点细分引入新的顶点和三角形,同时保持连接性。
- 直接兼容游戏引擎: 最终输出是仅由不透明三角形组成的半连接网格,无需任何后处理即可立即用于标准图形引擎,支持物理交互、可步行场景和场景编辑等下游应用。
3. 主要结果及其意义: * 最先进的性能: 在Mip-NeRF360和Tanks & Temples数据集上的实验表明,Triangle Splatting+在基于网格的新视角合成方面取得了最先进的性能,在所有指标上均优于现有方法。与2DGS和Triangle Splatting等方法相比,在相似顶点数量下,PSNR提高了4-10 dB。 * 高视觉保真度与效率: 该方法在视觉保真度上超越了以往的泼溅方法,同时保持了高效和快速的训练速度(Mip-NeRF360数据集上39分钟,T&T数据集上25分钟)。 * 支持下游应用: 生成的半连接网格能够支持物理模拟、交互式场景漫游、对象提取和移除等下游应用,而无需完全水密网格。这极大地扩展了辐射场表示的实用性。
4. 论文中提到的局限性: * 稀疏区域的重建: 在初始点云稀疏覆盖的背景区域,几何结构可能不完整,保真度较低。 * 训练视角外的性能下降: 当移动到训练视角范围之外时,视觉质量会下降,因为不透明三角形的使用会使伪影更加明显。 * 透明物体表示困难: 对于玻璃或瓶子等透明物体,仅使用不透明三角形进行表示仍然具有挑战性。
5. 潜在的未来研究方向: * 更完整的点云初始化: 通过更完整的点云初始化来改善稀疏区域的重建质量。 * 结合替代表示: 引入其他表示形式,例如三角化的天空穹顶,以解决背景区域的局限性。 * 透明物体处理: 探索如何使用不透明三角形或结合其他机制来有效表示透明物体。
总而言之,Triangle Splatting+通过直接优化具有共享顶点连接性的不透明三角形,成功地弥合了辐射场优化与传统计算机图形学之间的鸿沟。其创新性的参数化和训练策略不仅实现了卓越的视觉质量和高效的训练,还确保了输出与现有图形管线的无缝兼容性,为VR/AR应用、游戏引擎和模拟框架的实际集成铺平了道路。
Key Findings:
- Reconstructing 3D scenes and synthesizing novel views has seen rapid progress in recent years.
- Experiments on the Mip-NeRF360 and Tanks & Temples datasets show that Triangle Splatting+achieves state-of-the-art performance in mesh-based novel view synthesis.
- Our method surpasses prior splatting approaches in visual fidelity while remaining efficient and fast to training.
Links:
Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives
Authors: AmirHossein Zamani, Bruno Roy, Arianna Rampini
Published: 2025-09-29
Categories: cs.GR, cs.CV
Abstract:
Recent 3D generative models produce high-quality textures for 3D mesh objects. However, they commonly rely on the heavy assumption that input 3D meshes are accompanied by manual mesh parameterization (UV mapping), a manual task that requires both technical precision and artistic judgment. Industry surveys show that this process often accounts for a significant share of asset creation, creating a major bottleneck for 3D content creators. Moreover, existing automatic methods often ignore two perceptually important criteria: (1) semantic awareness (UV charts should align semantically similar 3D parts across shapes) and (2) visibility awareness (cutting seams should lie in regions unlikely to be seen). To overcome these shortcomings and to automate the mesh parameterization process, we present an unsupervised differentiable framework that augments standard geometry-preserving UV learning with semantic- and visibility-aware objectives. For semantic-awareness, our pipeline (i) segments the mesh into semantic 3D parts, (ii) applies an unsupervised learned per-part UV-parameterization backbone, and (iii) aggregates per-part charts into a unified UV atlas. For visibility-awareness, we use ambient occlusion (AO) as an exposure proxy and back-propagate a soft differentiable AO-weighted seam objective to steer cutting seams toward occluded regions. By conducting qualitative and quantitative evaluations against state-of-the-art methods, we show that the proposed method produces UV atlases that better support texture generation and reduce perceptible seam artifacts compared to recent baselines. Our implementation code is publicly available at: https://github.com/AHHHZ975/Semantic-Visibility-UV-Param.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供AmirHossein Zamani, Bruno Roy, Arianna Rampini撰写的论文“Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives”的全面摘要。
论文摘要:基于语义和可见性目标的3D网格参数化无监督表示学习
1. 主要问题或研究问题: 当前3D生成模型在生成高质量纹理方面表现出色,但普遍依赖于手动网格参数化(UV映射),这是一个耗时且需要技术和艺术判断的任务。现有自动化方法通常忽略了两个关键的感知标准:(1) 语义感知,即UV图表应与3D形状中语义相似的部分对齐;(2) 可见性感知,即切割缝应位于不易被观察到的区域。这导致了纹理生成和渲染中可见的接缝伪影,并限制了UV图表在语义上的一致性。本研究旨在解决这些局限性,自动化网格参数化过程,并使其生成的UV图表在语义和可见性方面更优。
2. 关键创新或方法论贡献: 本文提出了一种无监督、可微分的框架,通过引入语义感知和可见性感知目标,增强了标准的几何保持UV学习。 * 语义感知(Semantic-Awareness): 引入了一种“分区-参数化”策略。 * (i) 将网格分割成语义3D部分(使用形状直径函数ShDF进行分区)。 * (ii) 对每个语义部分独立应用一个无监督学习的、保持几何的UV参数化骨干网络。 * (iii) 将这些部分图表聚合并打包成一个统一的UV图集。 * 可见性感知(Visibility-Awareness): * 使用环境光遮蔽(AO)作为曝光代理。 * 反向传播一个软可微分的AO加权接缝目标,以引导切割缝向被遮挡区域移动,从而减少可见的接缝伪影。 * 两阶段训练流程: * 第一阶段:几何保持网格参数化学习,使用基于MLP的网络和可微分几何目标生成低失真UV映射。 * 第二阶段:学习感知目标,引入语义感知和可见性感知模块,为纹D纹理绘制等任务提供指导。
3. 主要结果及其意义: 通过与现有最先进方法的定性和定量评估,本文展示了: * 语义一致性: 提出的方法能够生成UV图集,其图表与网格的3D语义部分更好地对齐,从而简化纹理编辑、传输和跨形状对应。 * 减少接缝伪影: 可见性感知目标成功地将切割缝引导到曝光度较低(更被遮挡)的区域,显著减少了纹理生成和渲染中可感知的接缝伪影。 * 几何质量保持: 尽管引入了语义和可见性目标,但模型仍能保持良好的几何特性,如共形性(角度保持)和等面积性(面积保持),仅有轻微的性能下降。 * 自动化和效率: 该框架实现了3D网格参数化的自动化,解决了手动UV映射的瓶颈问题。
4. 论文中提及的局限性: * 聚合器简单性: 当前的网格聚合器是简单且确定性的网格划分,虽然有效,但未来可以替换为更高级的打包求解器(启发式或基于优化的)。 * 定量指标的轻微下降: 尽管感知质量有所提高,但在某些数值指标(如共形性和等面积性)上,与纯几何优化的基线相比,存在轻微的下降。 * AO作为可见性代理: 尽管AO是有效的可见性代理,但它可能无法完全捕捉所有与人类感知相关的可见性因素。
5. 潜在的未来研究方向: * 联合学习UV参数化和纹理生成,以进一步提升3D生成模型和更广泛的3D内容创作。 * 探索更先进的打包求解器,以优化UV图集的空间利用率。 * 研究更复杂的可见性代理或直接的人类感知模型,以更精确地引导接缝放置。
这篇论文通过将语义和可见性目标整合到无监督的3D网格参数化框架中,为计算机图形学领域做出了重要贡献,尤其是在自动化纹理映射和减少视觉伪影方面。
Key Findings:
- To overcome these shortcomings and to automate the mesh parameterization process, we present an unsupervised differentiable framework that augments standard geometry-preserving UV learning with semantic- and visibility-aware objectives.
- By conducting qualitative and quantitative evaluations against state-of-the-art methods, we show that the proposed method produces UV atlases that better support texture generation and reduce perceptible seam artifacts compared to recent baselines.
Links:
UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation
Authors: Guanjun Wu, Jiemin Fang, Chen Yang, Sikuang Li, Taoran Yi, Jia Lu, Zanwei Zhou, Jiazhong Cen, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Xinggang Wang, Qi Tian
Published: 2025-09-29
Categories: cs.CV, cs.AI, cs.GR
Abstract:
High-fidelity 3D asset generation is crucial for various industries. While recent 3D pretrained models show strong capability in producing realistic content, most are built upon diffusion models and follow a two-stage pipeline that first generates geometry and then synthesizes appearance. Such a decoupled design tends to produce geometry-texture misalignment and non-negligible cost. In this paper, we propose UniLat3D, a unified framework that encodes geometry and appearance in a single latent space, enabling direct single-stage generation. Our key contribution is a geometry-appearance Unified VAE, which compresses high-resolution sparse features into a compact latent representation -- UniLat. UniLat integrates structural and visual information into a dense low-resolution latent, which can be efficiently decoded into diverse 3D formats, e.g., 3D Gaussians and meshes. Based on this unified representation, we train a single flow-matching model to map Gaussian noise directly into UniLat, eliminating redundant stages. Trained solely on public datasets, UniLat3D produces high-quality 3D assets in seconds from a single image, achieving superior appearance fidelity and geometric quality. More demos \& code are available at https://unilat3d.github.io/
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供对Guanjun Wu等人撰写的论文“UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation”的全面摘要。
UniLat3D: 几何-外观统一潜在空间实现单阶段3D生成
1. 主要问题或研究问题: 当前高保真3D资产生成领域面临的主要挑战是,大多数现有方法(尤其是基于扩散模型的方法)采用两阶段流水线:首先生成几何结构,然后合成外观(纹理)。这种解耦设计常常导致几何与纹理不匹配(几何-纹理错位),并且引入了显著的计算成本和冗余步骤。论文旨在解决如何实现高效、高质量的单阶段3D生成,避免几何与外观分离带来的问题。
2. 关键创新或方法论贡献: * 统一的潜在表示(UniLat): 论文提出了UniLat,这是一种新颖的统一潜在空间表示,能够将3D资产的几何信息和外观信息编码到单个紧凑的低分辨率潜在表示中。这与传统方法中几何和外观分离的潜在空间形成鲜明对比。 * 几何-外观统一VAE(UniVAE): 引入了一个统一的变分自编码器(UniVAE),用于将高分辨率稀疏特征压缩成紧凑的UniLat表示。UniVAE能够将结构和视觉信息整合到密集的低分辨率潜在空间中。 * 单阶段生成框架: 基于UniLat统一表示,论文训练了一个单一的流匹配(flow-matching)模型,可以直接将高斯噪声映射到UniLat,从而实现直接的单阶段3D生成,消除了传统两阶段流水线中的冗余步骤。 * 多格式解码能力: UniLat可以高效地解码成多种3D格式,包括3D高斯(3D Gaussians)和网格(meshes),这增强了其通用性和实用性。
3. 主要结果及其意义: * 卓越的性能: UniLat3D在公开数据集上进行训练,能够从单张图像在数秒内生成高质量的3D资产。 * 高外观保真度和几何质量: 实验结果表明,UniLat3D在外观保真度和几何质量方面表现出色,优于现有的两阶段方法,并能更好地与条件图像对齐。 * 效率提升: 通过单阶段生成,UniLat3D显著减少了生成时间,例如,3D高斯生成可在8秒内完成,使用FlashAttention-3甚至可缩短至3秒。网格生成虽然需要36秒,但考虑到更高的分辨率和后处理,仍具竞争力。 * 用户研究验证: 用户研究结果显示,UniLat3D在图像对齐和对象质量方面获得了超过35%的投票,优于其他模型。
4. 论文中提及的局限性: * 初步探索: 论文指出,UniLat3D模型仍处于初步探索阶段。 * 训练数据: 目前仅使用公开数据集进行训练。作者认为,注入更多高质量数据将无疑进一步提高模型性能并扩大规模。 * 高分辨率潜在空间的效率: 在更高分辨率(例如32³)下训练流匹配Transformer时,计算成本显著增加。目前流模型在处理高分辨率潜在空间时的效率仍有待提高。
5. 潜在的未来研究方向: * 数据规模与质量: 探索如何利用更多高质量的训练数据来进一步提升模型性能和可扩展性。 * 流模型效率: 研究更高效的流模型设计,以适应更高分辨率的潜在空间,从而生成更详细的3D结果,例如通过块级计算和轻量级注意力机制。 * 多模态集成: 将UniLat集成到大型多模态模型中,以促进跨模态理解和生成。 * 扩展到4D表示: 将UniLat扩展到4D表示,以支持动态3D内容的生成。 * 统一对象与场景生成: 进一步统一对象和场景生成,利用紧凑的统一表示。
总而言之,UniLat3D通过引入几何-外观统一的潜在空间和单阶段流匹配生成模型,为高保真3D资产生成提供了一个新颖且高效的范式,有效解决了传统两阶段方法中几何-纹理错位和计算成本高昂的问题。其在公开数据集上取得的卓越性能和用户研究结果,凸显了统一表示在3D生成领域的巨大潜力。
Key Findings:
- In this paper, we propose UniLat3D, a unified framework that encodes geometry and appearance in a single latent space, enabling direct single-stage generation.
- Our key contribution is a geometry-appearance Unified VAE, which compresses high-resolution sparse features into a compact latent representation -- UniLat.
Links:
BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
Authors: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
Published: 2025-09-29
Categories: cs.CV, cs.AI
Abstract:
Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He撰写的论文“BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation”的全面摘要。
论文摘要:BRIDGE——构建用于单目深度估计的强化学习深度到图像数据生成引擎
1. 主要问题或研究问题: 单目深度估计(MDE)是计算机视觉中的一项基础任务,但传统方法受限于数据稀缺性和质量,这严重阻碍了其鲁棒性。现有数据集在高质量、精确的真值深度标注、细节和多样性方面存在不足,且未能充分利用现有深度数据,这成为MDE模型训练的关键瓶颈。
2. 关键创新或方法论贡献: 该论文提出了BRIDGE框架,其核心创新在于: * RL优化的深度到图像(D2I)数据生成引擎: BRIDGE引入了一个强化学习(RL)优化的D2I生成模型。该模型能够从多样化的源深度图合成超过2000万张视觉真实且几何精确的RGB图像,每张图像都与其真值深度内在配对。这种方法有效缓解了数据稀缺性和质量问题,并扩展了训练数据的规模和领域多样性。RL优化确保了生成图像不仅视觉真实,而且几何精确和一致,避免了传统D2I模型中常见的几何伪影和结构失真。 * 混合监督训练策略: 为了充分利用生成数据,BRIDGE采用了一种混合监督策略。该策略结合了教师模型生成的伪标签和高精度真值深度。具体而言,首先使用教师模型生成初始伪标签,然后通过基于相似性的方法(如SSIM和梯度分析)筛选高精度真值深度区域,并将其与伪标签融合。这种两阶段训练过程(先用伪标签进行大规模预训练,再用真值深度进行精细调整)确保了模型在学习广泛几何一致性的同时,也能在关键区域实现高精度和细节捕捉。 * 高效的数据生成和利用范式: 通过RL驱动的D2I范式,BRIDGE能够高效生成大规模高质量RGB-D数据,有效解决了数据稀缺和质量问题。
3. 主要结果及其意义: * 卓越的性能和训练效率: BRIDGE在多个挑战性基准测试(包括室内、室外和合成动画环境)上均取得了最先进(SOTA)的性能。它在定量和复杂场景细节捕捉方面持续优于现有方法,例如,仅使用约2000万数据(相比Depth Anything V2的6200万数据)就超越了Depth Anything V2等模型。 * 强大的泛化能力和鲁棒性: 该模型在零样本深度估计方面表现出色,尤其是在室内场景数据集(如NYUv2、ScanNet、ETH3D)上,能够完美地生成与目标对齐的精细结构预测。它还能准确估计反射表面(如镜子)的深度,并处理复杂细节和相似颜色的物体,展现了对“野外”数据的强大泛化能力。 * 促进通用和鲁棒的深度特征: 创新的数据生成和训练范式有助于培养更通用和鲁棒的深度特征,为更高效和可泛化的MDE解决方案铺平了道路。
4. 论文中提及的局限性: * KITTI数据集上的性能: 尽管在大多数数据集上表现优异,但BRIDGE在KITTI数据集上未能达到最佳性能,这主要归因于该数据集固有的稀疏性。论文指出,模型旨在捕捉精细的全局和局部深度信息,而KITTI评估未能充分反映这一点。 * 伪标签的固有噪声和不准确性: 论文承认,教师模型生成的伪标签虽然覆盖范围广,但其固有的噪声和不准确性(尤其是在边界和精细细节处)仍然是进一步提升深度估计性能的瓶颈。混合监督策略正是为了缓解这一问题而设计的。
5. 潜在的未来研究方向: 论文中没有明确提出未来的研究方向,但从其贡献和局限性中可以推断出一些潜在方向: * 进一步优化D2I引擎: 探索更先进的RL技术或生成模型架构,以进一步提高生成图像的视觉真实感、几何精确性和多样性,尤其是在处理更复杂的场景和物体时。 * 改进混合监督策略: 研究更智能的伪标签筛选和融合机制,例如,结合不确定性估计或自适应权重,以更好地平衡伪标签的广度和真值深度的精度。 * 解决特定数据集的局限性: 针对KITTI等稀疏或特定领域的数据集,开发更专门的训练策略或数据增强方法,以提升模型在这些场景下的性能。 * 探索更广泛的应用: 鉴于BRIDGE生成的RGB-D数据的高质量和多样性,可以探索其在其他3D计算机视觉任务中的应用,如3D重建、场景理解、机器人导航等。 * 模型可解释性: 深入研究RL-D2I引擎和MDE模型内部的工作机制,以提高模型的可解释性,从而更好地理解其成功之处并指导未来的改进。
Key Findings:
- To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps.
- This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features.
Links:
CharGen: Fast and Fluent Portrait Modification
Authors: Jan-Niklas Dihlmann, Arnela Killguss, Hendrik P. A. Lensch
Published: 2025-09-29
Categories: cs.GR, cs.CV
Abstract:
Interactive editing of character images with diffusion models remains challenging due to the inherent trade-off between fine-grained control, generation speed, and visual fidelity. We introduce CharGen, a character-focused editor that combines attribute-specific Concept Sliders, trained to isolate and manipulate attributes such as facial feature size, expression, and decoration with the StreamDiffusion sampling pipeline for more interactive performance. To counteract the loss of detail that often accompanies accelerated sampling, we propose a lightweight Repair Step that reinstates fine textures without compromising structural consistency. Throughout extensive ablation studies and in comparison to open-source InstructPix2Pix and closed-source Google Gemini, and a comprehensive user study, CharGen achieves two-to-four-fold faster edit turnaround with precise editing control and identity-consistent results. Project page: https://chargen.jdihlmann.com/
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Jan-Niklas Dihlmann, Arnela Killguss, Hendrik P. A. Lensch撰写的论文“CharGen: Fast and Fluent Portrait Modification”的全面摘要。
论文摘要:CharGen: 快速流畅的人像修改
1. 主要问题或研究问题 当前,使用扩散模型进行交互式角色图像编辑面临着一个固有的挑战,即在精细控制、生成速度和视觉保真度之间存在权衡。现有的方法往往难以同时实现这三点,导致编辑过程要么缺乏精确控制,要么速度缓慢,要么在加速采样时丢失细节。
2. 关键创新或方法论贡献 CharGen 提出了一种以角色为中心的编辑器,通过以下三个关键创新来解决上述问题:
- 属性特定概念滑块(Attribute-specific Concept Sliders): CharGen 预训练了针对特定属性(如面部特征大小、表情、装饰等)的概念滑块。这些滑块通过 LoRA 适配器进行训练,旨在隔离和操纵特定属性,同时保持其他属性的独立性,从而实现精细、连续的控制。论文强调了 LoRA 合并(LoRA merging)策略,它通过对 LoRA 权重矩阵求和来预组合多个概念滑块,以确保在多属性编辑时的稳定性和一致性,避免了 LoRA 堆叠(LoRA stacking)可能导致的累积失真和细节丢失。
- StreamDiffusion 采样管线集成: 为了实现更具交互性的性能,CharGen 将预训练的概念滑块与 StreamDiffusion 采样管线集成。StreamDiffusion 以其实时生成能力而闻名,通过一系列优化(如 Stream Batch、RCFG、Input-Output Queues 等)显著加快了推理速度。这种集成使得 CharGen 能够实现两到四倍的编辑周转速度。
- 轻量级修复步骤(Lightweight Repair Step): 为了抵消加速采样过程中经常伴随的细节丢失,CharGen 引入了一个轻量级的修复步骤。该修复步骤旨在恢复精细纹理,同时不损害图像的结构一致性。论文探讨了两种修复方法:训练专门的修复滑块(Repair Slider)和基于 ControlNet 的修复,并最终选择了修复滑块,因为它在细节增强和结构保持之间取得了最佳平衡。
3. 主要结果及其意义 CharGen 在广泛的消融研究、与开源 InstructPix2Pix 和闭源 Google Gemini 的比较以及全面的用户研究中展示了其有效性:
- 编辑速度显著提升: CharGen 实现了两到四倍的编辑周转速度,显著优于 InstructPix2Pix 和 Google Gemini 等现有方法,使其更适合交互式工作流程。
- 精确的编辑控制和身份一致性: 概念滑块提供了对特定面部属性的精细、连续控制,能够进行局部调整,同时保持角色身份的一致性。用户研究证实了 CharGen 在单属性和多属性编辑场景中的优势。
- 视觉保真度高: 轻量级修复步骤成功地恢复了加速采样过程中丢失的细节,确保了高质量的视觉输出,同时保持了结构一致性。
- 多属性编辑能力: LoRA 合并方法使得 CharGen 能够同时修改多个属性,并保持一致性,这在 InstructPix2Pix 和 Gemini 等方法中是一个挑战。
4. 论文中提及的局限性 * 强转换的局限性: CharGen 在处理极端年龄变化等强转换时表现出一定的局限性,其滑块训练更侧重于精细调整而非剧烈变化。 * 概念滑块间的干扰: 尽管 LoRA 合并实现了多滑块使用,但某些组合仍可能出现干扰效应,例如年龄修改会影响唇部大小,或化妆-年龄组合会降低图像清晰度。这表明独立训练的滑块可能缺乏跨属性感知。 * 潜在的偏见和伦理问题: 扩散模型固有的训练数据分布可能导致系统在不同人口群体之间表现出偏见。此外,系统操纵面部属性的能力可能被滥用于创建深度伪造或误导性内容。
5. 潜在的未来研究方向 * 扩展到更广泛的图像编辑领域: 将 CharGen 的属性特定方法扩展到面部特征以外的更广泛图像编辑领域。 * 缓解概念滑块间的干扰: 开发策略以减轻概念滑块之间不必要的交互。 * 改进离散属性的训练方法: 改进针对具有离散而非连续变化的属性的训练方法。 * 探索更复杂的 LoRA 集成技术: 探索更复杂的 LoRA 集成技术,以增强细节生成。
总而言之,CharGen 论文通过结合属性特定的概念滑块、StreamDiffusion 采样管线和轻量级修复步骤,成功地在交互式角色图像编辑中平衡了精细控制、生成速度和视觉保真度。它为计算机视觉领域的可控生成编辑提供了一个新颖且高效的解决方案,尽管仍需关注其在强转换、滑块交互和伦理方面的局限性。
Key Findings:
- We introduce CharGen, a character-focused editor that combines attribute-specific Concept Sliders, trained to isolate and manipulate attributes such as facial feature size, expression, and decoration with the StreamDiffusion sampling pipeline for more interactive performance.
- To counteract the loss of detail that often accompanies accelerated sampling, we propose a lightweight Repair Step that reinstates fine textures without compromising structural consistency.
Links:
VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
Authors: Wenhao Li, Qiangchang Wang, Xianjing Meng, Zhibin Wu, Yilong Yin
Published: 2025-09-29
Categories: cs.CV, cs.LG, I.4.9
Abstract:
Few-shot learning (FSL) aims to recognize novel concepts from only a few labeled support samples. Recent studies enhance support features by incorporating additional semantic information or designing complex semantic fusion modules. However, they still suffer from hallucinating semantics that contradict the visual evidence due to the lack of grounding in actual instances, resulting in noisy guidance and costly corrections. To address these issues, we propose a novel framework, bridging Vision and Text with LLMs for Few-Shot Learning (VT-FSL), which constructs precise cross-modal prompts conditioned on Large Language Models (LLMs) and support images, seamlessly integrating them through a geometry-aware alignment. It mainly consists of Cross-modal Iterative Prompting (CIP) and Cross-modal Geometric Alignment (CGA). Specifically, the CIP conditions an LLM on both class names and support images to generate precise class descriptions iteratively in a single structured reasoning pass. These descriptions not only enrich the semantic understanding of novel classes but also enable the zero-shot synthesis of semantically consistent images. The descriptions and synthetic images act respectively as complementary textual and visual prompts, providing high-level class semantics and low-level intra-class diversity to compensate for limited support data. Furthermore, the CGA jointly aligns the fused textual, support, and synthetic visual representations by minimizing the kernelized volume of the 3-dimensional parallelotope they span. It captures global and nonlinear relationships among all representations, enabling structured and consistent multimodal integration. The proposed VT-FSL method establishes new state-of-the-art performance across ten diverse benchmarks, including standard, cross-domain, and fine-grained few-shot learning scenarios. Code is available at https://github.com/peacelwh/VT-FSL.
Analysis:
以下是Wenhao Li, Qiangchang Wang, Xianjing Meng, Zhibin Wu, Yilong Yin撰写的论文“VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning”的全面摘要:
1. 主要问题或研究问题 该论文旨在解决少样本学习(FSL)中的一个核心挑战:如何有效地识别仅通过少量带标签支持样本学习到的新概念。现有方法通过整合额外的语义信息(如类别描述)或设计复杂的语义融合模块来增强支持特征,但这些方法往往会产生与视觉证据相矛盾的“幻觉”语义,导致指导信息不准确和修正成本高昂。
2. 关键创新或方法论贡献 VT-FSL(Bridging Vision and Text with LLMs for Few-Shot Learning)提出了一种新颖的框架,通过以下两个关键模块解决了上述问题:
- 跨模态迭代提示(Cross-modal Iterative Prompting, CIP):该模块利用大型语言模型(LLMs)和支持图像,以结构化推理的方式迭代生成精确的类别描述。这些描述不仅丰富了对新类别的语义理解,还能够零样本合成语义一致的图像。生成的描述和合成图像分别作为互补的文本和视觉提示,提供高级别的类别语义和低级别类别内多样性,以弥补有限支持数据的问题。
- 跨模态几何对齐(Cross-modal Geometric Alignment, CGA):该模块通过最小化融合的文本、支持和合成视觉表示所跨越的3维平行六面体的核化体积,共同对齐这些表示。CGA捕获了所有表示之间的全局和非线性关系,实现了结构化和一致的多模态整合。
3. 主要结果及其意义 VT-FSL方法在十个不同的基准测试中(包括标准、跨领域和细粒度少样本学习场景)建立了新的最先进性能。平均准确率提高了4.2%。具体来说: * 在miniImageNet和tieredImageNet上,VT-FSL在1-shot和5-shot设置下均显著优于现有方法,例如在miniImageNet的1-shot任务中,比次优方法高出4.35%至15.31%。 * 在细粒度数据集(如CUB、Cars、Dogs)上,VT-FSL在挑战性的1-shot任务中比次优方法SUITED高出3.0%-10.3%,表明其能够捕获细微的类别间差异并保持类别内一致性。 * 消融研究证实了文本提示、视觉提示和核化体积对比损失(对齐损失)的互补性和有效性。 * 与仅依赖类别名称或简单提示的LLM方法相比,VT-FSL生成的文本语义更丰富、更精确。 * 核化体积对比学习(特别是使用RBF核)在捕获非线性关系和实现全局一致对齐方面优于InfoNCE和线性体积损失。 * VT-FSL在训练和推理时间方面也表现出高效性,比现有LLM基线方法更快,同时实现了更高的准确率。
4. 论文中提及的局限性 * 领域泛化能力:尽管在跨领域数据集(如Places和Plantae)上进行了评估,但这些设置与源领域仍存在一定相似性。VT-FSL在更具挑战性的分布偏移(如医学图像)下的鲁棒性尚未得到充分评估。 * 外部生成模型质量依赖:VT-FSL的性能依赖于外部生成模型(LLMs和文本到图像模型)的质量。较弱的LLMs可能产生通用或嘈杂的描述,低质量的图像合成可能引入误导性视觉信号。 * 核化体积对比损失的理论行为:在处理高维、嘈杂或语义纠缠的特征分布时,核化体积对比损失的理论行为仍有待深入探索。
5. 潜在的未来研究方向 * 进一步研究核化体积对比损失的收敛特性和对核选择的敏感性。 * 探索如何提高VT-FSL在更具挑战性的分布偏移场景下的鲁棒性。 * 提升生成模型的质量,以提供更精确和视觉上更忠实的语义先验,从而进一步增强VT-FSL的性能。 * 深入理解VT-FSL的解释性和泛化能力,特别是在多模态少样本学习的背景下。
Key Findings:
- Few-shot learning (FSL) aims to recognize novel concepts from only a few labeled support samples.
- To address these issues, we propose a novel framework, bridging Vision and Text with LLMs for Few-Shot Learning (VT-FSL), which constructs precise cross-modal prompts conditioned on Large Language Models (LLMs) and support images, seamlessly integrating them through a geometry-aware alignment.
- These descriptions not only enrich the semantic understanding of novel classes but also enable the zero-shot synthesis of semantically consistent images.
- The proposed VT-FSL method establishes new state-of-the-art performance across ten diverse benchmarks, including standard, cross-domain, and fine-grained few-shot learning scenarios.
Links:
AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
Authors: Ryosuke Takanami, Petr Khrapchenkov, Shu Morikuni, Jumpei Arima, Yuta Takaba, Shunsuke Maeda, Takuya Okubo, Genki Sano, Satoshi Sekioka, Aoi Kadoya, Motonari Kambara, Naoya Nishiura, Haruto Suzuki, Takanori Yoshimoto, Koya Sakamoto, Shinnosuke Ono, Hu Yang, Daichi Yashima, Aoi Horo, Tomohiro Motoda, Kensuke Chiyoma, Hiroshi Ito, Koki Fukuda, Akihito Goto, Kazumi Morinaga, Yuya Ikeda, Riko Kawada, Masaki Yoshikawa, Norio Kosuge, Yuki Noguchi, Kei Ota, Tatsuya Matsushima, Yusuke Iwasawa, Yutaka Matsuo, Tetsuya Ogata
Published: 2025-09-29
Categories: cs.RO, cs.AI, cs.CV
Abstract:
As robots transition from controlled settings to unstructured human environments, building generalist agents that can reliably follow natural language instructions remains a central challenge. Progress in robust mobile manipulation requires large-scale multimodal datasets that capture contact-rich and long-horizon tasks, yet existing resources lack synchronized force-torque sensing, hierarchical annotations, and explicit failure cases. We address this gap with the AIRoA MoMa Dataset, a large-scale real-world multimodal dataset for mobile manipulation. It includes synchronized RGB images, joint states, six-axis wrist force-torque signals, and internal robot states, together with a novel two-layer annotation schema of sub-goals and primitive actions for hierarchical learning and error analysis. The initial dataset comprises 25,469 episodes (approx. 94 hours) collected with the Human Support Robot (HSR) and is fully standardized in the LeRobot v2.1 format. By uniquely integrating mobile manipulation, contact-rich interaction, and long-horizon structure, AIRoA MoMa provides a critical benchmark for advancing the next generation of Vision-Language-Action models. The first version of our dataset is now available at https://huggingface.co/datasets/airoa-org/airoa-moma .
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Ryosuke Takanami等人撰写的论文“AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation”的全面摘要。
论文摘要:AIRoA MoMa Dataset: 用于移动操作的大规模分层数据集
1. 主要问题或研究问题: 随着机器人从受控环境向非结构化人类环境过渡,构建能够可靠遵循自然语言指令的通用智能体成为一个核心挑战。目前,鲁棒的移动操作需要大规模、多模态数据集,这些数据集应能捕捉接触密集型和长时程任务。然而,现有资源普遍缺乏同步的力-扭矩传感、分层标注以及明确的失败案例,这限制了视觉-语言-动作(VLA)模型在实际世界中的发展。
2. 关键创新或方法论贡献: 为了解决上述空白,本论文引入了 AIRoA MoMa Dataset,这是一个大规模、真实世界、多模态的移动操作数据集,其关键创新和贡献包括: * 多模态数据集成: 数据集同步包含了RGB图像、关节状态、六轴腕部力-扭矩信号以及机器人内部状态,特别强调了力-扭矩传感,以支持接触密集型任务的学习。 * 新颖的两层分层标注方案: 引入了子目标(sub-goals)和原始动作(primitive actions)的两层标注结构。这种分层设计有助于分层学习和细粒度的错误分析,使得模型能够学习高层任务规划和低层运动控制。 * 包含明确的失败案例: 数据集有意包含了失败案例的记录和标注(约占总数据集的6.6%),这对于研究错误检测、恢复和从负面示例中学习至关重要。 * 标准化数据格式和开放管道: 数据集完全标准化为LeRobot v2.1格式,确保了与现有VLA架构的直接兼容性、可复现性和广泛可访问性。同时,论文发布了一个开源数据处理和打包管道。 * 专注于移动操作、接触密集交互和长时程任务: 与现有主要关注桌面操作的数据集不同,AIRoA MoMa 明确地将移动操作、涉及物理接触的交互以及需要多步骤分解的长时程任务作为核心。
3. 主要结果及其意义: * 数据集规模: 初始数据集包含25,469个情景(约94小时),由丰田人类支持机器人(HSR)收集。这些情景涵盖了七个主要的家庭任务和40多个子任务。 * 数据特性: 数据集展示了技能分布的长尾模式,基础操作(如“抓取”、“打开”、“放置”)占据主导地位。任务持续时间集中在短到中等范围(4到12秒),表明数据集主要由离散的、短时程活动组成,非常适合训练基础和反应性策略。 * 对VLA模型的推动: 通过独特地整合移动操作、接触密集交互和长时程结构,AIRoA MoMa 为下一代视觉-语言-动作模型的发展提供了一个关键基准,有望加速通用机器人智能体的开发。
4. 论文中提及的局限性: * 数据多样性仍有提升空间: 尽管数据集努力涵盖多种家庭环境和任务,但为了实现人类水平的通用能力,仍需要更多样化的机器人数据,涵盖更广泛的物体、环境、任务和情境。 * 隐私过滤的局限性: 尽管采用了基于YOLO的检测器进行隐私过滤,自动排除包含人类出现的情景,但仍需持续关注和改进隐私保护技术。 * 当前版本未包含恢复行为和人机交互信号: 论文提到未来计划将扩展数据集,以包含恢复行为和人机交互信号(如自然语言和语音),这表明当前版本尚未完全覆盖这些方面。
5. 潜在的未来研究方向: * 扩展数据集覆盖范围: 计划通过增加情景数量、从多个站点和多样化环境中收集数据来扩展数据集的覆盖范围。 * 整合恢复行为和人机交互信号: 未来版本将纳入恢复行为以及自然语言和语音等人类-机器人交互信号,以进一步提升数据集的实用性。 * 推动通用机器人智能体发展: AIRoA MoMa 数据集将作为关键基准,促进能够处理接触密集、长时程移动操作任务的下一代通用机器人智能体的开发。
Key Findings:
- It includes synchronized RGB images, joint states, six-axis wrist force-torque signals, and internal robot states, together with a novel two-layer annotation schema of sub-goals and primitive actions for hierarchical learning and error analysis.
Links: