Arxiv Computer Vision Papers - 2025-09-10
Executive Summary
好的,这是一份针对2025年9月9日Arxiv计算机视觉论文的执行摘要,旨在帮助忙碌的研究人员快速了解最新进展:
Arxiv 计算机视觉每日报告:2025年9月9日
执行摘要
今天的Arxiv计算机视觉论文集展示了该领域在3D视觉与生成、多模态推理以及效率与鲁棒性方面的持续快速发展。特别值得关注的是,3D重建和新视角合成技术正通过结合高斯溅射(Gaussian Splatting)和生成模型实现显著的质量和速度提升。同时,多模态理解,尤其是图像与表格数据的结合,以及扩散模型在3D和可控生成方面的应用,也显示出强大的潜力。
1. 主要主题与趋势:
- 3D视觉与生成: 显著关注从2D图像生成3D对象、6D姿态估计、3D重建(特别是毛发)以及新视角合成。高斯溅射技术在多个3D任务中被广泛应用,以提高效率和质量。
- 多模态与推理: 出现了结合视觉和文本(尤其是表格数据)进行复杂推理的基准和方法。
- 生成模型与控制: 扩散模型在实现精细的空间控制和3D资产生成方面持续演进,并探索了如何提升其效率和多视图一致性。
- 效率与鲁棒性: 在图像压缩、语义水印和3D检测等领域,研究人员致力于提升模型的效率、鲁棒性和泛化能力。
2. 显著或创新论文:
- "RayGaussX: Accelerating Gaussian-Based Ray Marching for Real-Time and High-Quality Novel View Synthesis" (Blanc et al.):该论文通过优化高斯溅射的渲染过程,实现了实时、高质量的新视角合成,是该领域效率提升的重要一步。
- "DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation" (Yin et al.):展示了如何有效地将多视图扩散模型“提升”到3D资产生成,为3D内容创作提供了强大的新工具。其即插即用的特性具有很高的实用价值。
- "One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation" (Geng et al.):结合了单图像到3D生成和生成式域随机化,以解决单次6D姿态估计的挑战,为机器人和AR/VR应用提供了新的思路。
3. 新兴研究方向或技术:
- 高斯溅射(Gaussian Splatting)的泛化与优化: 不仅用于新视角合成,还扩展到毛发重建等更精细的3D结构,并持续进行渲染效率优化。
- 扩散模型在3D领域的深度融合: 从2D图像生成3D对象、多视图一致性到直接生成3D资产,扩散模型正成为3D内容生成的核心驱动力。
- 多模态表格图像理解: "Visual-TableQA"的出现表明,对复杂视觉信息(如表格图像)进行开放域推理的需求日益增长,这将推动更高级的视觉语言模型发展。
- 生成式域随机化(Generative Domain Randomization): 在数据稀缺或泛化能力要求高的任务中,利用生成模型创建多样化训练数据,以提升模型鲁棒性。
4. 建议阅读全文的论文:
对于不同兴趣的研究人员,以下论文值得深入阅读:
- 对于3D视觉和实时渲染研究者:
- "RayGaussX: Accelerating Gaussian-Based Ray Marching for Real-Time and High-Quality Novel View Synthesis" (Blanc et al.) - 了解高斯溅射的最新优化技术。
- "DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation" (Yin et al.) - 探索扩散模型在3D资产生成中的应用。
- "HairGS: Hair Strand Reconstruction based on 3D Gaussian Splatting" (Pan et al.) - 了解高斯溅射在精细结构重建中的创新应用。
- 对于多模态和推理研究者:
- "Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images" (Lompo, Haraoui) - 了解表格图像理解的最新基准和挑战。
- 对于生成模型和控制研究者:
- "Universal Few-Shot Spatial Control for Diffusion Models" (Nguyen et al.) - 探索扩散模型在少量样本下实现通用空间控制的方法。
- 对于鲁棒性和泛化研究者:
- "One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation" (Geng et al.) - 了解生成式域随机化在6D姿态估计中的应用。
这份摘要旨在提供一个高层次的概览,帮助您快速识别与您研究方向相关的关键进展。
Table of Contents
- One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
- Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
- RayGaussX: Accelerating Gaussian-Based Ray Marching for Real-Time and High-Quality Novel View Synthesis
- HairGS: Hair Strand Reconstruction based on 3D Gaussian Splatting
- SEEC: Segmentation-Assisted Multi-Entropy Models for Learned Lossless Image Compression
- Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity
- Universal Few-Shot Spatial Control for Diffusion Models
- MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
- DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation
- Dimensionally Reduced Open-World Clustering: DROWCULA
Papers
One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
Authors: Zheng Geng, Nan Wang, Shaocong Xu, Chongjie Ye, Bohan Li, Zhaoxi Chen, Sida Peng, Hao Zhao
Published: 2025-09-09
Categories: cs.CV
Abstract:
Estimating the 6D pose of arbitrary unseen objects from a single reference image is critical for robotics operating in the long-tail of real-world instances. However, this setting is notoriously challenging: 3D models are rarely available, single-view reconstructions lack metric scale, and domain gaps between generated models and real-world images undermine robustness. We propose OnePoseViaGen, a pipeline that tackles these challenges through two key components. First, a coarse-to-fine alignment module jointly refines scale and pose by combining multi-view feature matching with render-and-compare refinement. Second, a text-guided generative domain randomization strategy diversifies textures, enabling effective fine-tuning of pose estimators with synthetic data. Together, these steps allow high-fidelity single-view 3D generation to support reliable one-shot 6D pose estimation. On challenging benchmarks (YCBInEOAT, Toyota-Light, LM-O), OnePoseViaGen achieves state-of-the-art performance far surpassing prior approaches. We further demonstrate robust dexterous grasping with a real robot hand, validating the practicality of our method in real-world manipulation. Project page: https://gzwsama.github.io/OnePoseviaGen.github.io/
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Zheng Geng等人撰写的论文“One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation”的全面摘要。
论文摘要:One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation
1. 主要问题或研究问题: 该论文旨在解决机器人技术中一个核心且极具挑战性的问题:如何仅凭一张参考图像,对任意未见过的物体进行一次性(one-shot)6D姿态估计。这一任务的难点在于:3D模型通常难以获取;单视图重建缺乏度量尺度信息;以及生成模型与真实世界图像之间存在的域差距会严重影响姿态估计的鲁棒性。
2. 关键创新或方法论贡献: 作者提出了一个名为 OnePoseViaGen 的端到端管道,通过两个关键组件来应对上述挑战:
- 生成式单视图3D纹理网格模型: 论文首先利用改进的Hi3DGen模型,从一张RGB-D锚点图像生成一个高保真、纹理化的3D对象模型。这个模型在对象中心坐标系中是标准化(无度量尺度)的,为后续的姿态估计奠定了基础。
- 粗到精的度量对齐模块: 针对生成模型缺乏度量尺度的问题,OnePoseViaGen设计了一个粗到精的对齐策略。它结合了多视图特征匹配(使用SuperGlue)和PnP求解器进行粗略姿态和尺度估计,然后通过渲染-比较(render-and-compare)细化(基于FoundationPose)迭代地优化姿态和度量尺度,从而将标准化模型与真实世界场景中的对象精确对齐。
- 文本引导的生成式域随机化策略: 为了弥合生成模型与真实图像之间的域差距,论文引入了一种文本驱动的生成式数据增强方法。该方法利用文本提示(通过VLM生成)和3D生成模型(Trellis)生成结构一致但纹理多样的3D变体。这些变体在随机化的光照、背景和遮挡条件下渲染,形成大规模合成数据集,用于姿态估计器的有效微调,显著提升了鲁棒性和泛化能力。
3. 主要结果及其意义: OnePoseViaGen在多个具有挑战性的基准数据集上(YCBInEOAT, Toyota-Light, LM-O)取得了显著优于现有方法的最新性能。例如,在YCBInEOAT数据集上,其平均ADD分数达到了81.27,远超其他方法在复杂对象上的表现。在LM-O和TOYL数据集上,该方法在BOP基准指标上也显示出一致的改进。此外,论文通过在真实机器人手上进行鲁棒的灵巧抓取实验,验证了该方法在实际机器人操作中的实用性和有效性。这些结果表明,生成式建模可以显著提升一次性6D姿态估计的性能,尤其是在处理未见对象和复杂场景时。
4. 论文中提及的局限性: 尽管OnePoseViaGen取得了令人鼓舞的成果,但论文也指出其在处理可变形或关节式对象时仍面临挑战。在这种情况下,对象形状的变化可能导致6D姿态估计不准确。
5. 潜在的未来研究方向: 未来的工作将侧重于将测试时训练(test-time training)整合到推理管道中,以实现对可变形对象几何形状的持续细化和准确姿态估计。这将充分利用生成模型在6D姿态估计任务中的灵活性和泛化能力。
总而言之,OnePoseViaGen通过结合创新的单视图3D模型生成、精细的度量对齐以及文本引导的域随机化策略,为一次性6D姿态估计提供了一个强大且实用的解决方案,显著推动了机器人感知领域的发展。
Key Findings:
- On challenging benchmarks (YCBInEOAT, Toyota-Light, LM-O), OnePoseViaGen achieves state-of-the-art performance far surpassing prior approaches.
- We further demonstrate robust dexterous grasping with a real robot hand, validating the practicality of our method in real-world manipulation.
Links:
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
Authors: Boammani Aser Lompo, Marc Haraoui
Published: 2025-09-09
Categories: cs.CV, cs.CL
Abstract:
Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
Analysis:
好的,这是一篇关于“Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images”论文的全面摘要,用中文写成:
论文摘要:Visual-TableQA:基于表格图像推理的开放域基准
1. 主要问题或研究问题 该论文旨在解决现有视觉语言模型(VLMs)在处理渲染表格图像时,在规模、多样性和推理深度方面存在的局限性。尽管表格图像的视觉推理是现代VLMs的关键能力,但现有基准数据集未能充分挑战模型理解复杂表格结构和进行深度推理的能力。
2. 关键创新或方法论贡献 * 引入Visual-TableQA数据集: 论文提出了一个大规模、开放域的多模态数据集Visual-TableQA,专门用于评估和增强对复杂表格数据的视觉推理能力。该数据集包含2.5k个结构丰富的LaTeX渲染表格和6k个推理密集型问答对。 * 模块化、可扩展且完全自主的生成管道: 数据集通过一个创新的生成管道创建,该管道成本低廉(总成本低于100美元),并涉及多个推理型大型语言模型(LLMs)协同工作,扮演生成、验证和启发等不同角色。 * 多模型协同数据生成(“启发”)和LLM评审过滤: 为了促进多样性和创造性,该管道采用“跨模型启发”机制,即更强的模型提供布局和主题的“种子”,较弱的模型在此基础上进行细化和扩展,从而将多样化的推理模式和视觉结构提炼到数据集中。LLM评审团用于过滤和验证生成的数据质量。 * LaTeX作为中间表示: 论文利用LLMs生成复杂的LaTeX表格代码,而非直接生成渲染图像,这大大降低了生成成本并提高了复杂性。
3. 主要结果及其意义 * 模型泛化能力: 经验结果表明,在Visual-TableQA上微调的模型能够稳健地泛化到外部基准测试,尽管数据集是合成的,但其性能优于一些专有模型。 * 有效评估视觉推理: Visual-TableQA能有效评估VLMs的视觉推理能力,其模型排名与ReachQA等平衡视觉识别和推理的数据集高度相关,但与ChartQA(侧重识别)或MATH-Vision(侧重推理)的关联性较弱,表明其作为综合性视觉推理基准的独特地位。 * 图像格式的挑战性: 模型在Visual-TableQA-CIT(文本代码格式)上的表现平均比在Visual-TableQA(图像格式)上高出6.26%,突显了图像格式在视觉推理方面带来的额外挑战。 * 对推理能力的显著提升: 在Visual-TableQA上微调的模型在推理任务上的平均增益显著高于在ReachQA上微调的模型,表明Visual-TableQA在知识蒸馏,特别是需要符号解释和多步推理的任务方面更有效。
4. 局限性 * LaTeX表达能力的局限性: 尽管LaTeX作为中间表示有效,但在处理更复杂或视觉丰富的图像时,其表达能力有限。 * 数据质量评估: 尽管ROSCOE等自动指标提供了有用的见解,但它们仍不如人类判断可靠,人类标注者在确保合成数据集质量方面仍扮演关键角色。 * 模型泛化一致性: 某些模型(如Qwen2.5-VL-7B-Instruct)未能始终从Visual-TableQA的监督中受益,这表明在泛化方面可能存在局限性。 * 评估中的模糊性: 复杂推理任务的评估并非完美无缺,一个问题可能存在多种有效答案,这使得LLM评审团难以完全自信地评估正确性,可能导致评估中的模糊性。
5. 潜在的未来研究方向 * 鲁棒的双向图像到文本编码系统: 开发一个能够更有效地处理复杂视觉内容的双向图像到文本编码系统是一个开放且有前景的研究领域。 * 针对特定错误类型的合成监督: 通过合成监督来解决模型在特定错误类型(如数据提取不完整、幻觉等)上的问题。 * 进一步探索跨模型启发机制: 持续优化和探索跨模型启发机制,以进一步提高生成数据的多样性和创造性。
总而言之,这篇论文通过引入Visual-TableQA数据集及其创新的生成管道,为评估和提升VLMs在复杂表格图像视觉推理方面的能力提供了重要贡献,并为未来的研究指明了方向。
Key Findings:
- Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data.
- Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature.
Links:
RayGaussX: Accelerating Gaussian-Based Ray Marching for Real-Time and High-Quality Novel View Synthesis
Authors: Hugo Blanc, Jean-Emmanuel Deschaud, Alexis Paljic
Published: 2025-09-09
Categories: cs.CV
Abstract:
RayGauss has achieved state-of-the-art rendering quality for novel-view synthesis on synthetic and indoor scenes by representing radiance and density fields with irregularly distributed elliptical basis functions, rendered via volume ray casting using a Bounding Volume Hierarchy (BVH). However, its computational cost prevents real-time rendering on real-world scenes. Our approach, RayGaussX, builds on RayGauss by introducing key contributions that accelerate both training and inference. Specifically, we incorporate volumetric rendering acceleration strategies such as empty-space skipping and adaptive sampling, enhance ray coherence, and introduce scale regularization to reduce false-positive intersections. Additionally, we propose a new densification criterion that improves density distribution in distant regions, leading to enhanced graphical quality on larger scenes. As a result, RayGaussX achieves 5x to 12x faster training and 50x to 80x higher rendering speeds (FPS) on real-world datasets while improving visual quality by up to +0.56 dB in PSNR. Project page with videos and code: https://raygaussx.github.io/.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Hugo Blanc, Jean-Emmanuel Deschaud, Alexis Paljic撰写的论文“RayGaussX: Accelerating Gaussian-Based Ray Marching for Real-Time and High-Quality Novel View Synthesis”的全面摘要。
RayGaussX: 加速基于高斯的光线步进以实现实时高质量新视图合成
1. 论文解决的主要问题或研究问题: 该论文旨在解决现有RayGauss方法在实时渲染和处理真实世界场景时的计算成本过高问题。RayGauss通过使用不规则分布的椭圆基函数结合边界体积层次结构(BVH)进行体渲染光线投射,在合成和室内场景中实现了最先进的渲染质量。然而,其高计算成本阻碍了在真实世界场景中的实时应用,并且在户外环境中性能略有下降,训练和推理时间仍然显著。
2. 关键创新或方法论贡献: RayGaussX在RayGauss的基础上,引入了多项关键创新以显著加速训练和推理: * 高效光线采样(Efficient Ray Sampling): 整合了空闲空间跳过(empty-space skipping)和自适应采样(adaptive sampling)策略,以减少渲染方程计算所需的样本数量,从而加速渲染。空闲空间跳过利用BVH避免采样完全透明区域,自适应采样则根据透射率和到摄像机的距离动态调整采样步长。 * 优化光线一致性和内存访问效率: 通过高斯空间重排序(spatial reordering of Gaussians)(使用Z-order曲线)和光线重排序(ray reordering)来增强光线一致性,以更好地适应GPU并行计算,提高内存访问效率并减少warp发散。 * 限制高度各向异性高斯(Limiting Highly Anisotropic Gaussian): 引入了尺度正则化函数(scale regularization function)(各向同性损失),以最小化假阳性交集。这通过约束高斯轴对齐边界框(AABB)与椭球体本身的体积比来实现,减少了BVH遍历中的不必要计算。 * 新颖的稠密化准则(Novel Densification Criterion): 提出了一种新的稠密化准则,通过引入校正因子来加权3D空间中的梯度,改善了远距离区域的密度分布,从而在更大场景中实现增强的图形质量。
3. 主要结果及其重要性: RayGaussX在真实世界数据集上取得了显著的性能提升: * 训练速度: 实现了5到12倍的训练加速。 * 渲染速度(FPS): 实现了50到80倍的渲染速度提升。 * 视觉质量: 在PSNR方面,视觉质量提高了高达+0.56 dB。 * 与现有方法对比: 在NeRF Synthetic和NSVF Synthetic数据集上,RayGaussX在渲染质量上略优于RayGauss,同时渲染速度快了三倍。在Mip-NeRF360、Tanks&Temples和Deep Blending等真实世界数据集上,RayGaussX在保持或略微提升视觉质量的同时,显著超越了RayGauss和3D Gaussian Splatting等方法,尤其在户外场景中表现更佳。
这些结果表明RayGaussX成功地将RayGauss的渲染质量与实时性能相结合,使其适用于更广泛的真实世界场景。
4. 论文中提及的局限性: * 硬件要求: 该方法需要高端GPU(实验中使用NVIDIA RTX 4090),而Gaussian Splatting及其变体可以在移动设备或Web-GL环境中运行。 * 抗锯齿处理: 目前的方法未能妥善处理抗锯齿问题,这超出了本论文的范围。
5. 潜在的未来研究方向: * 进一步加速渲染: 未来的工作可以通过新的优化进一步加速渲染。 * 抗锯齿处理: 解决抗锯齿问题,以进一步提升渲染质量。 * 应用扩展: RayGaussX的快速训练和高质量渲染使其成为需要高精度应用(如表面重建、逆渲染、SLAM、相机优化和重打光)的强大框架。
总而言之,RayGaussX通过引入一系列创新的加速策略,成功地将基于高斯的光线步进方法从计算密集型提升为实时可用的新视图合成解决方案,同时保持了卓越的渲染质量,特别是在处理复杂真实世界场景方面表现出色。
Key Findings:
- RayGauss has achieved state-of-the-art rendering quality for novel-view synthesis on synthetic and indoor scenes by representing radiance and density fields with irregularly distributed elliptical basis functions, rendered via volume ray casting using a Bounding Volume Hierarchy (BVH).
- Our approach, RayGaussX, builds on RayGauss by introducing key contributions that accelerate both training and inference.
- Additionally, we propose a new densification criterion that improves density distribution in distant regions, leading to enhanced graphical quality on larger scenes.
Links:
HairGS: Hair Strand Reconstruction based on 3D Gaussian Splatting
Authors: Yimin Pan, Matthias Nießner, Tobias Kirschstein
Published: 2025-09-09
Categories: cs.CV
Abstract:
Human hair reconstruction is a challenging problem in computer vision, with growing importance for applications in virtual reality and digital human modeling. Recent advances in 3D Gaussians Splatting (3DGS) provide efficient and explicit scene representations that naturally align with the structure of hair strands. In this work, we extend the 3DGS framework to enable strand-level hair geometry reconstruction from multi-view images. Our multi-stage pipeline first reconstructs detailed hair geometry using a differentiable Gaussian rasterizer, then merges individual Gaussian segments into coherent strands through a novel merging scheme, and finally refines and grows the strands under photometric supervision. While existing methods typically evaluate reconstruction quality at the geometric level, they often neglect the connectivity and topology of hair strands. To address this, we propose a new evaluation metric that serves as a proxy for assessing topological accuracy in strand reconstruction. Extensive experiments on both synthetic and real-world datasets demonstrate that our method robustly handles a wide range of hairstyles and achieves efficient reconstruction, typically completing within one hour. The project page can be found at: https://yimin-pan.github.io/hair-gs/
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Yimin Pan, Matthias Niessner, Tobias Kirschstein撰写的论文“HairGS: Hair Strand Reconstruction based on 3D Gaussian Splatting”的全面摘要。
HairGS: 基于3D高斯泼溅的头发股重建
1. 主要问题或研究问题: 该论文旨在解决计算机视觉领域中人发重建的挑战性问题。现有方法在处理复杂发型、频繁遮挡以及头发股的连接性和拓扑结构方面存在局限性。特别是,许多方法侧重于几何精度,而忽略了头发股固有的拓扑结构和连通性,这对于虚拟现实和数字人建模等应用至关重要。
2. 关键创新或方法贡献: HairGS提出了一种新颖的多阶段优化流程,将3D高斯泼溅(3DGS)框架扩展到股级头发几何重建,其主要贡献包括: * 多阶段优化流程: * 几何重建(第一阶段): 利用可微分高斯光栅化器和自适应稠密化,从多视图图像中重建详细的头发几何结构。通过结合RGB、方向和掩膜损失(包括新引入的双向方向损失和掩膜损失)进行优化,以确保准确的几何和方向。 * 股生成(第二阶段): 引入了一种新颖的合并方案,基于距离和角度启发式方法,将单个高斯段合并成连贯的头发股。每个头发股被表示为链接关节的链,每个段被建模为圆柱体。 * 生长与细化(第三阶段): 在光度监督下对头发股进行细化和生长。通过结合光度损失和角度平滑度损失来优化关节位置,以防止形成尖锐角度。通过逐渐放宽合并阈值来促进更长的股形成。 * 拓扑准确性评估新指标: 提出了一种名为“股一致性”(Strand Consistency, SC)的新评估指标,用于量化股重建中的拓扑准确性,解决了现有指标忽略头发股连接性和拓扑结构的问题。该指标通过衡量每个真实股中与单个预测股匹配点的最高比例来评估连通性。
3. 主要结果及其意义: * 鲁棒性和效率: 在合成(USC-HairSalon, Cem Yuksel)和真实世界(NeRSemble)数据集上的广泛实验表明,HairGS能够鲁棒地处理各种发型,包括直发、卷发和长发,并能准确捕捉细微细节和浮动股。 * 性能优势: 该方法在所有评估指标上均优于现有的基于SfM(如LP-MVS、Strand Integration)和数据驱动(如Neural Haircut)方法,尤其是在具有挑战性的卷发样本上表现出色,并实现了最高的股一致性。 * 重建速度: HairGS的重建过程高效,通常在一小时内完成,显著快于许多计算密集型、基于学习的方法(例如,Neural Strands需要48小时,Neural Haircut需要120小时)。
4. 论文中提及的局限性: * 合并标准: 当前的合并标准可能无法始终有效地将同一股中的高斯点合并,导致重建的股可能比实际更短。 * 与头皮的连接: 重建的股不一定附着在头皮上,这限制了它们在渲染引擎中的直接使用。
5. 潜在的未来研究方向: * 改进合并算法: 可以通过使用匈牙利算法的变体进行最优匹配来解决合并标准的问题,从而实现更有效的股合并。 * 头皮连接: 未来的工作可以通过将股根部固定到表面并像[28, 34]中那样生长股来解决与头皮连接的问题,从而提高其在渲染应用中的实用性。 * 扩展应用: 该框架可以自然地扩展到其他线状结构(如电缆或电线)的重建,只需对分割模型进行最小的调整。
总而言之,HairGS通过将3D高斯泼溅框架与创新的多阶段优化流程和股级拓扑评估相结合,为多视图图像的人发重建提供了一个高效且鲁棒的解决方案。其提出的股一致性指标填补了现有评估方法在拓扑准确性方面的空白,为该领域的研究提供了新的视角。
Key Findings:
- Our multi-stage pipeline first reconstructs detailed hair geometry using a differentiable Gaussian rasterizer, then merges individual Gaussian segments into coherent strands through a novel merging scheme, and finally refines and grows the strands under photometric supervision.
- To address this, we propose a new evaluation metric that serves as a proxy for assessing topological accuracy in strand reconstruction.
Links:
SEEC: Segmentation-Assisted Multi-Entropy Models for Learned Lossless Image Compression
Authors: Chunhang Zheng, Zichang Ren, Dou Li
Published: 2025-09-09
Categories: cs.CV
Abstract:
Recently, learned image compression has attracted considerable attention due to its superior performance over traditional methods. However, most existing approaches employ a single entropy model to estimate the probability distribution of pixel values across the entire image, which limits their ability to capture the diverse statistical characteristics of different semantic regions. To overcome this limitation, we propose Segmentation-Assisted Multi-Entropy Models for Lossless Image Compression (SEEC). Our framework utilizes semantic segmentation to guide the selection and adaptation of multiple entropy models, enabling more accurate probability distribution estimation for distinct semantic regions. Specifically, SEEC first extracts image features and then applies semantic segmentation to identify different regions, each assigned a specialized entropy model to better capture its unique statistical properties. Finally, a multi-channel discrete logistic mixture likelihood is employed to model the pixel value distributions effectively. Experimental results on benchmark datasets demonstrate that SEEC achieves state-of-the-art compression ratios while introducing only minimal encoding and decoding latency. With superior performance, the proposed model also supports Regions of Interest (ROIs) coding condition on the provided segmentation mask. Our code is available at https://github.com/chunbaobao/SEEC.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Chunhang Zheng, Zichang Ren, Dou Li撰写的论文“SEEC: Segmentation-Assisted Multi-Entropy Models for Learned Lossless Image Compression”的全面摘要。
论文《SEEC: Segmentation-Assisted Multi-Entropy Models for Learned Lossless Image Compression》摘要
1. 主要问题或研究问题: 当前基于学习的图像无损压缩方法大多采用单一熵模型来估计整个图像的像素值概率分布。然而,这种单一模型难以有效捕捉图像中不同语义区域(如天空、道路、植被等)之间多样化的统计特性,从而限制了压缩性能的进一步提升。论文旨在解决如何更准确地建模图像中异构语义区域的像素值分布,以实现更高的无损图像压缩比。
2. 关键创新或方法贡献: * 分割辅助多熵模型(SMEM): 论文提出了SEEC(Segmentation-Assisted Multi-Entropy Models for Lossless Image Compression)框架,其核心创新在于利用语义分割来指导多个熵模型的选择和自适应。通过将图像划分为不同的语义区域,并为每个区域分配专门的熵模型,SEEC能够更准确地估计像素值分布,从而显著提高压缩性能。 * 多通道离散逻辑混合似然(Multi-channel Discrete Logistic Mixture Likelihood): 为了有效建模自然图像中像素值的复杂分布,SEEC采用了一种多通道离散逻辑混合似然模型。该模型能够预测每个图像通道的混合系数,并为每个通道和每个混合分量分配特定的混合权重,以更好地捕捉不同语义区域的独特统计特性。 * 区域兴趣(ROIs)编码策略: 论文提出了一种基于分割掩码的ROIs编码策略。该策略允许对感兴趣区域(前景)进行无损压缩,而对非感兴趣区域(背景)则采用更宽松的保真度进行重建,从而在保持重要区域无损的同时,降低整体比特率和编码/解码时间。 * 语义感知图像压缩器(SIC): SEEC框架包含SIC模块,用于从输入图像中提取语义感知特征,并将其压缩为潜在表示。该模块结合了超先验模型和Swin-Attention机制,以增强特征提取能力。
3. 主要结果及其意义: * 最先进的压缩比: 在DIV2K、CLIC.p、CLIC.m、Kodak、Adobe Portrait和Urban100等基准数据集上的实验结果表明,SEEC在无损图像压缩方面取得了最先进的压缩比。与传统方法(如FLIF)相比,SEEC的比特率降低了5.2%至14.1%。与DLPR等先进学习方法相比,SEEC的比特率最多可降低3.0%。 * 最小的编码和解码延迟: 尽管引入了语义分割和多熵模型,SEEC仍能保持最小的编码和解码延迟。与单一熵模型变体相比,多熵模型仅引入了微小的额外时间开销。 * 语义分割的有效性: 消融研究证实,分割辅助多熵模型和多通道离散逻辑混合似然都对SEEC的性能提升做出了实质性贡献。使用正确的分割掩码对于性能至关重要,随机或不正确的掩码会导致性能下降。 * ROIs编码的效率: ROIs编码策略通过跳过非ROIs的熵编码阶段,将运行时减少了25%,同时保持了ROIs内的无损重建,展示了其灵活性和效率。
4. 论文中提及的局限性: 论文中没有明确提及显著的局限性。然而,可以推断的潜在局限性可能包括: * 对分割模型性能的依赖: SEEC的性能在一定程度上依赖于语义分割模型的准确性。如果分割模型产生不准确的掩码,可能会影响熵模型的选择和像素值分布估计的准确性。 * 计算开销(尽管已优化): 尽管论文指出分割模型和掩码存储引入的开销很小(平均0.02 bpp),但对于资源受限的设备或实时应用,额外的分割步骤仍可能是一个考虑因素。 * N值(语义类别数量)的选择: 论文将语义类别数量N设置为2(前景和背景),以平衡模型复杂性和性能。对于更复杂的场景或需要更细粒度压缩的应用,N值的选择可能需要进一步研究和优化。
5. 潜在的未来研究方向: * 更精细的语义分割集成: 探索更先进或更细粒度的语义分割技术,以识别更多语义类别,并为每个类别分配更专业的熵模型,从而进一步提高压缩性能。 * 自适应N值选择: 研究如何根据图像内容或应用需求,自适应地确定语义类别N的数量,而不是固定为2。 * 动态熵模型选择: 探索更动态的熵模型选择机制,例如基于图像特征或区域复杂性,自动选择最适合的熵模型,而不是硬性分配。 * 结合其他先进压缩技术: 将SEEC框架与生成模型、注意力机制或其他先进的图像压缩技术相结合,以探索进一步的性能提升。 * 扩展到视频压缩: 将分割辅助多熵模型的思想扩展到视频压缩领域,以处理视频帧中动态变化的语义内容。
Key Findings:
- To overcome this limitation, we propose Segmentation-Assisted Multi-Entropy Models for Lossless Image Compression (SEEC).
- Experimental results on benchmark datasets demonstrate that SEEC achieves state-of-the-art compression ratios while introducing only minimal encoding and decoding latency.
Links:
Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity
Authors: Sung Ju Lee, Nam Ik Cho
Published: 2025-09-09
Categories: cs.CV
Abstract:
Semantic watermarking techniques for latent diffusion models (LDMs) are robust against regeneration attacks, but often suffer from detection performance degradation due to the loss of frequency integrity. To tackle this problem, we propose a novel embedding method called Hermitian Symmetric Fourier Watermarking (SFW), which maintains frequency integrity by enforcing Hermitian symmetry. Additionally, we introduce a center-aware embedding strategy that reduces the vulnerability of semantic watermarking due to cropping attacks by ensuring robust information retention. To validate our approach, we apply these techniques to existing semantic watermarking schemes, enhancing their frequency-domain structures for better robustness and retrieval accuracy. Extensive experiments demonstrate that our methods achieve state-of-the-art verification and identification performance, surpassing previous approaches across various attack scenarios. Ablation studies confirm the impact of SFW on detection capabilities, the effectiveness of the center-aware embedding against cropping, and how message capacity influences identification accuracy. Notably, our method achieves the highest detection accuracy while maintaining superior image fidelity, as evidenced by FID and CLIP scores. Conclusively, our proposed SFW is shown to be an effective framework for balancing robustness and image fidelity, addressing the inherent trade-offs in semantic watermarking. Code available at https://github.com/thomas11809/SFWMark
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Sung Ju Lee和Nam Ik Cho撰写的论文“Semantic Watermarking Reinvented: Enhancing Robustness and Generation Quality with Fourier Integrity”的全面摘要。
论文摘要:语义水印的重塑:通过傅里叶完整性增强鲁棒性和生成质量
1. 主要问题或研究问题: 该论文旨在解决现有针对潜在扩散模型(LDMs)的语义水印技术所面临的核心挑战。尽管这些技术对再生攻击具有鲁棒性,但它们通常由于频率完整性的丧失而导致检测性能下降。此外,这些方法在面对裁剪攻击时也表现出脆弱性。因此,研究问题是如何开发一种语义水印框架,既能保持频率完整性以提高检测性能和生成质量,又能增强对空间攻击(如裁剪)的鲁棒性。
2. 关键创新或方法论贡献: 该论文提出了两项关键创新来解决上述问题:
- Hermitian对称傅里叶水印(SFW): 针对频率完整性丧失的问题,作者提出了一种新颖的嵌入方法SFW。通过强制执行Hermitian对称性,SFW确保水印嵌入在傅里叶域中保持统计一致性,从而在逆傅里叶变换后获得实值信号。这不仅提高了水印的可检索性和生成模型的稳定性,还充分利用了傅里叶域的实部和虚部信息进行检测。
- 中心感知嵌入策略: 为了减少语义水印对裁剪攻击的脆弱性,论文引入了一种中心感知嵌入策略。该策略仅对潜在向量空间域的中心区域应用傅里叶变换进行水印嵌入,而不是对整个空间矩阵进行操作。这种方法确保了水印信息在空间上更具弹性区域的保留,从而增强了对裁剪攻击的鲁棒性。
论文将这些技术应用于现有语义水印方案(如Tree-Ring和RingID),并提出了两种具体实现:Hermitian对称Tree-Ring (HSTR) 和 Hermitian对称QR码 (HSQR),后者将QR码的二进制模式拆分并分别嵌入到傅里叶域自由半区域的实部和虚部中。
3. 主要结果及其重要性: 通过广泛的实验,论文展示了其方法的卓越性能:
- 最先进的检测性能: HSTR和HSQR在验证和识别任务中均实现了最先进的检测性能,在各种攻击场景(包括信号处理失真、再生攻击和裁剪攻击)下均超越了现有方法。
- 频率完整性与生成质量的平衡: 提出的SFW方法通过保持频率完整性,在水印鲁棒性和生成质量之间取得了更好的平衡。FID和CLIP分数证明,HSTR和HSQR在保持高检测准确性的同时,也保持了卓越的图像保真度,避免了现有方法(如RingID)中出现的可见环状伪影。
- 对裁剪攻击的鲁棒性: 中心感知嵌入策略显著提高了对裁剪攻击的鲁棒性,即使在极端裁剪(如0.2的裁剪比例)下,HSTR和HSQR也比RingID等方法表现出更平稳的性能下降。
- 消息容量的可扩展性: HSQR在不同水印消息容量下表现出最高的识别准确性,即使在最大容量下也能保持接近完美的准确性,展示了其卓越的可扩展性。
- 傅里叶域的充分利用: 论文结果表明,潜在空间水印不受传统低中频约束的限制,通过统计结构化编码,水印信息可以分布在更宽的频率范围内,同时保持鲁棒性。
4. 论文中提及的局限性: 论文中明确提及的局限性主要包括:
- 非恶意篡改的范围: 论文的方法主要设计用于应对典型的、非恶意的分发或转换过程中的内容变化,而非检测外围篡改或对抗性攻击。后者需要不同的威胁模型和设计考虑。
- 计算成本(针对基线): 某些基线方法,如Zodiac,由于需要多次扩散生成和潜在向量优化迭代,其计算成本过高,不适合实际应用。虽然本文提出的方法通过“生成时合并”方案避免了这一问题,但这是对现有方法的一个观察。
- 再生攻击强度: 论文通过消融研究探讨了扩散模型中再生攻击的噪声强度,以确保攻击强度足够,但并未明确指出其方法在面对未来可能出现的更极端或更复杂的对抗性攻击时的表现。
5. 潜在的未来研究方向: 论文提出了以下未来研究方向:
- 自适应嵌入策略: 探索自适应嵌入策略,以进一步增强对对抗性攻击和极端失真的鲁棒性。
- 多样化生成架构: 将所提出的方法扩展到潜在扩散模型之外的更多样化的生成架构。
- 实时部署: 进一步优化方法,使其与低功耗、高吞吐量的AI推理加速器(如NPU)兼容,以实现可扩展、节能环境中的无缝部署。
总而言之,这篇论文通过引入Hermitian对称傅里叶水印和中心感知嵌入策略,成功地重塑了潜在扩散模型中的语义水印技术。它不仅解决了频率完整性丧失和裁剪攻击脆弱性的关键问题,还在鲁棒性、生成质量和可扩展性之间取得了卓越的平衡,为数字内容溯源和版权保护领域提供了重要进展。
Key Findings:
- To tackle this problem, we propose a novel embedding method called Hermitian Symmetric Fourier Watermarking (SFW), which maintains frequency integrity by enforcing Hermitian symmetry.
- Additionally, we introduce a center-aware embedding strategy that reduces the vulnerability of semantic watermarking due to cropping attacks by ensuring robust information retention.
- To validate our approach, we apply these techniques to existing semantic watermarking schemes, enhancing their frequency-domain structures for better robustness and retrieval accuracy.
- Extensive experiments demonstrate that our methods achieve state-of-the-art verification and identification performance, surpassing previous approaches across various attack scenarios.
- Notably, our method achieves the highest detection accuracy while maintaining superior image fidelity, as evidenced by FID and CLIP scores.
Links:
Universal Few-Shot Spatial Control for Diffusion Models
Authors: Kiet T. Nguyen, Chanhuyk Lee, Donggyun Kim, Dong Hoon Lee, Seunghoon Hong
Published: 2025-09-09
Categories: cs.CV
Abstract:
Spatial conditioning in pretrained text-to-image diffusion models has significantly improved fine-grained control over the structure of generated images. However, existing control adapters exhibit limited adaptability and incur high training costs when encountering novel spatial control conditions that differ substantially from the training tasks. To address this limitation, we propose Universal Few-Shot Control (UFC), a versatile few-shot control adapter capable of generalizing to novel spatial conditions. Given a few image-condition pairs of an unseen task and a query condition, UFC leverages the analogy between query and support conditions to construct task-specific control features, instantiated by a matching mechanism and an update on a small set of task-specific parameters. Experiments on six novel spatial control tasks show that UFC, fine-tuned with only 30 annotated examples of novel tasks, achieves fine-grained control consistent with the spatial conditions. Notably, when fine-tuned with 0.1% of the full training data, UFC achieves competitive performance with the fully supervised baselines in various control tasks. We also show that UFC is applicable agnostically to various diffusion backbones and demonstrate its effectiveness on both UNet and DiT architectures. Code is available at https://github.com/kietngt00/UFC.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Kiet T. Nguyen等人撰写的论文“Universal Few-Shot Spatial Control for Diffusion Models”的全面摘要。
论文《Universal Few-Shot Spatial Control for Diffusion Models》全面摘要
1. 论文主要问题或研究问题
该论文旨在解决预训练文本到图像(T2I)扩散模型在空间控制方面的局限性。尽管现有方法(如ControlNet)通过引入控制适配器显著提升了图像生成的精细控制能力,但这些适配器通常需要针对每种新的空间控制任务进行独立训练,这不仅计算成本高昂,而且需要大量的标注数据。当遇到与训练任务显著不同的新颖空间条件时,现有适配器的适应性有限,泛化能力较差。因此,核心研究问题是如何开发一种通用、数据高效的少样本控制适配器,使其能够以最少的标注数据(例如,几十个图像-条件对)泛化到各种新颖的空间条件。
2. 关键创新或方法论贡献
为了解决上述挑战,作者提出了通用少样本控制(Universal Few-Shot Control, UFC)框架,其主要创新点包括:
- 通用控制适配器设计: UFC引入了一个通用的控制适配器,能够将异构空间条件(如边缘图、深度图、姿态等)统一为与图像特征兼容的控制特征。这通过补丁级匹配机制实现,该机制利用查询条件和支持集图像-条件对之间的类比关系,构建任务特定的控制特征。支持集图像的视觉特征作为任务无关的基底,而条件之间的补丁级相似性分数则用于计算选择相关特征的权重。
- 高效的少样本适应机制: 为了在数据稀缺的情况下快速适应新任务而不发生过拟合,UFC结合了情景式元学习(episodic meta-learning)和参数高效微调(parameter-efficient fine-tuning)。在元训练阶段,模型学习一个通用的参数集,并在新任务上仅微调一小组任务特定参数(例如,偏置或LoRA参数),从而实现高效的测试时适应。
- 架构无关性: UFC的设计具有通用性,可以与不同的扩散模型骨干(如UNet和DiT)以及现有的适配器架构(如ControlNet)兼容,通过在多层注入控制特征来增强模型的空间控制能力。
3. 主要结果及其意义
论文通过在六个新颖空间控制任务(Canny、HED、深度、法线、姿态、Densepose)上的广泛实验,验证了UFC的有效性:
- 卓越的少样本性能: UFC在仅使用30个标注示例进行微调的情况下,实现了与空间条件高度一致的精细控制。在少样本设置下,UFC在可控性方面显著优于所有现有少样本和免训练基线方法。
- 与全监督基线竞争: 值得注意的是,当仅使用0.1%的完整训练数据进行微调时,UFC在各种控制任务中达到了与全监督基线(ControlNet和Uni-ControlNet)相当的性能,尤其是在Densepose等密集条件任务上表现出色。这表明UFC在数据效率方面具有显著优势。
- 对不同骨干的兼容性: 实验证明UFC能够成功应用于UNet和DiT两种不同的扩散模型骨干,并能利用更强大的DiT骨干实现更精细的空间控制。
- 对新颖3D结构条件的泛化: UFC还展示了其在3D网格、线框和点云等更具挑战性的新颖空间条件下的有效性,进一步验证了其强大的泛化能力。
这些结果表明,UFC为T2I扩散模型提供了一种通用、数据高效且灵活的少样本空间控制解决方案,极大地提升了空间控制方法的实用性和灵活性。
4. 论文中提及的局限性
论文也坦诚地指出了UFC的几个局限性:
- 主要面向空间控制生成: UFC框架主要设计用于空间控制生成,而非需要保留条件图像外观的任务,例如风格迁移、图像修复或去模糊等逆问题。
- 需要少量标注数据进行微调: 尽管是少样本方法,UFC仍需要为每个新任务提供少量标注数据进行微调。这与大型语言模型通过上下文学习(in-context learning)直接适应新任务的方式不同,后者无需微调。
5. 潜在的未来研究方向
基于上述局限性,论文提出了以下未来研究方向:
- 扩展框架以处理外观保留任务: 将UFC框架扩展到能够处理风格迁移、图像修复等需要保留条件图像外观的任务。
- 实现无需微调的上下文学习: 探索开发类似大型语言模型的能力,使空间控制图像生成能够通过上下文学习,仅从少量示例中适应新任务,而无需任何微调。
Key Findings:
- However, existing control adapters exhibit limited adaptability and incur high training costs when encountering novel spatial control conditions that differ substantially from the training tasks.
- To address this limitation, we propose Universal Few-Shot Control (UFC), a versatile few-shot control adapter capable of generalizing to novel spatial conditions.
- Experiments on six novel spatial control tasks show that UFC, fine-tuned with only 30 annotated examples of novel tasks, achieves fine-grained control consistent with the spatial conditions.
Links:
MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
Authors: Saad Lahlali, Alexandre Fournier Montgieux, Nicolas Granger, Hervé Le Borgne, Quoc Cuong Pham
Published: 2025-09-09
Categories: cs.CV
Abstract:
Annotating 3D data remains a costly bottleneck for 3D object detection, motivating the development of weakly supervised annotation methods that rely on more accessible 2D box annotations. However, relying solely on 2D boxes introduces projection ambiguities since a single 2D box can correspond to multiple valid 3D poses. Furthermore, partial object visibility under a single viewpoint setting makes accurate 3D box estimation difficult. We propose MVAT, a novel framework that leverages temporal multi-view present in sequential data to address these challenges. Our approach aggregates object-centric point clouds across time to build 3D object representations as dense and complete as possible. A Teacher-Student distillation paradigm is employed: The Teacher network learns from single viewpoints but targets are derived from temporally aggregated static objects. Then the Teacher generates high quality pseudo-labels that the Student learns to predict from a single viewpoint for both static and moving objects. The whole framework incorporates a multi-view 2D projection loss to enforce consistency between predicted 3D boxes and all available 2D annotations. Experiments on the nuScenes and Waymo Open datasets demonstrate that MVAT achieves state-of-the-art performance for weakly supervised 3D object detection, significantly narrowing the gap with fully supervised methods without requiring any 3D box annotations. % \footnote{Code available upon acceptance} Our code is available in our public repository (\href{https://github.com/CEA-LIST/MVAT}{code}).
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Saad Lahlali等人撰写的论文“MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection”的全面摘要。
论文摘要:MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
1. 主要问题或研究问题: 3D目标检测在自动驾驶和机器人等领域至关重要,但其主要瓶颈在于获取精确3D边界框标注的高昂成本。虽然弱监督方法通过利用成本较低的2D边界框标注来缓解这一问题,但仅依赖2D框会引入投影模糊性(一个2D框可能对应多个有效3D姿态)和单视角下物体部分可见性导致的3D框估计困难。现有方法通常依赖启发式或先验知识来解决这些模糊性,但忽略了序列数据中自然存在的时间多视角信息。
2. 关键创新或方法论贡献: MVAT(Multi-View Aware Teacher)提出了一种新颖的弱监督3D目标检测框架,通过利用序列数据中固有的时间多视角信息来解决上述挑战。其核心创新和贡献包括: * 时间多视角聚合: MVAT聚合跨时间的以物体为中心的点云,以构建尽可能密集和完整的3D物体表示,从而解决单视角下的稀疏性和模糊性问题。 * Teacher-Student蒸馏范式: 采用两阶段的Teacher-Student蒸馏框架。 * Teacher网络训练: Teacher网络从单视角学习,但其目标是从时间聚合的静态物体中推导出来的。这使得Teacher能够学习鲁棒的3D几何。 * 伪标签生成与Student网络训练: Teacher生成高质量的伪标签,Student网络则从单视角输入中学习预测静态和移动物体。这种策略使Student能够有效学习底层3D几何并处理遮挡和移动物体等挑战性情况。 * 多视角2D投影损失: 整个框架融入了多视角2D投影损失,以强制预测的3D边界框与所有可用的2D标注之间保持一致性,作为强大的监督信号。 * 静态/移动物体分离: 限制聚合到静态实例,因为移动物体在没有地面真值运动信息的情况下难以对齐。通过分析点云质心的时间一致性来识别静态物体。
3. 主要结果及其意义: MVAT在nuScenes和Waymo Open数据集上的实验结果表明,它在弱监督3D目标检测方面取得了最先进的性能,显著缩小了与全监督方法之间的差距,且无需任何3D边界框标注。 * nuScenes数据集: MVAT在nuScenes验证集上实现了47.6%的mAP和49.1%的NDS,显著优于先前的领先方法ALPI [5],mAP提升了+5.8%。这使得弱监督方法达到了全监督Oracle性能的81.0%,证明了在仅使用2D标注的情况下,在弥合差距方面迈出了重要一步。 * 挑战性类别表现: 在卡车(+7.2)、巴士(+5.4)、障碍物(+15.8)和交通锥(+8.6)等经常被遮挡或几何稀疏的挑战性物体类别上,MVAT的表现尤为突出,验证了时间聚合的有效性。 * Waymo Open数据集: MVAT是第一个在该数据集上报告弱监督性能指标的方法,在L1难度下,车辆、行人和骑行者的AP分别达到了Oracle的91.3%、89.4%和87.4%,展示了方法的通用性。 * 半弱监督设置: 在仅使用2%的3D地面真值框的情况下,MVAT的性能优于使用更强弱标签(3D点标注)的Point-DETR3D,进一步验证了其多视角时间策略的信息量。
4. 论文中提及的局限性: * 管道复杂性: MVAT对静态和移动物体的分离引入了管道复杂性,这可能限制其在高速公路等动态环境中的性能。 * 非刚性类别: 尽管MVAT在静态和移动物体上表现良好,但对于行人等非刚性类别,其性能可能仍有提升空间。
5. 潜在的未来研究方向: * 显式运动建模: 结合显式运动建模可以改善移动物体的聚合质量,可能消除静态/移动分离的需要,并改进非刚性类别(如行人)的模型。 * 辅助任务: 通过引入辅助任务来预测聚合3D物体视图的空间点分布,以单帧输入为条件,可以丰富Teacher和Student网络的训练目标。这将提供超越3D边界框的额外几何监督,鼓励网络学习更全面的3D形状表示,并可能提高其从稀疏、部分观测中推断完整物体几何形状的能力。
这篇论文通过巧妙地利用时间多视角数据,为弱监督3D目标检测领域带来了突破,有效地解决了长期存在的投影模糊性和部分可见性问题,为未来该领域的研究开辟了新的方向。
Key Findings:
- We propose MVAT, a novel framework that leverages temporal multi-view present in sequential data to address these challenges.
- Our approach aggregates object-centric point clouds across time to build 3D object representations as dense and complete as possible.
- Experiments on the nuScenes and Waymo Open datasets demonstrate that MVAT achieves state-of-the-art performance for weakly supervised 3D object detection, significantly narrowing the gap with fully supervised methods without requiring any 3D box annotations.
Links:
DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation
Authors: Ze-Xin Yin, Jiaxiong Qiu, Liu Liu, Xinjie Wang, Wei Sui, Zhizhong Su, Jian Yang, Jin Xie
Published: 2025-09-09
Categories: cs.CV
Abstract:
The labor- and experience-intensive creation of 3D assets with physically based rendering (PBR) materials demands an autonomous 3D asset creation pipeline. However, most existing 3D generation methods focus on geometry modeling, either baking textures into simple vertex colors or leaving texture synthesis to post-processing with image diffusion models. To achieve end-to-end PBR-ready 3D asset generation, we present Lightweight Gaussian Asset Adapter (LGAA), a novel framework that unifies the modeling of geometry and PBR materials by exploiting multi-view (MV) diffusion priors from a novel perspective. The LGAA features a modular design with three components. Specifically, the LGAA Wrapper reuses and adapts network layers from MV diffusion models, which encapsulate knowledge acquired from billions of images, enabling better convergence in a data-efficient manner. To incorporate multiple diffusion priors for geometry and PBR synthesis, the LGAA Switcher aligns multiple LGAA Wrapper layers encapsulating different knowledge. Then, a tamed variational autoencoder (VAE), termed LGAA Decoder, is designed to predict 2D Gaussian Splatting (2DGS) with PBR channels. Finally, we introduce a dedicated post-processing procedure to effectively extract high-quality, relightable mesh assets from the resulting 2DGS. Extensive quantitative and qualitative experiments demonstrate the superior performance of LGAA with both text-and image-conditioned MV diffusion models. Additionally, the modular design enables flexible incorporation of multiple diffusion priors, and the knowledge-preserving scheme leads to efficient convergence trained on merely 69k multi-view instances. Our code, pre-trained weights, and the dataset used will be publicly available via our project page: https://zx-yin.github.io/dreamlifting/.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Ze-Xin Yin等人撰写的论文“DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation”的全面摘要。
论文摘要:DreamLifting: 一种提升多视角扩散模型用于3D资产生成的插件模块
1. 主要问题或研究问题: 当前3D资产生成方法主要集中在几何建模,通常将纹理烘焙为简单的顶点颜色,或将纹理合成留给图像扩散模型的后处理阶段。这导致生成的3D资产缺乏物理渲染(PBR)材料,无法实现逼真的重打光和渲染。因此,该论文旨在解决如何实现端到端、可用于PBR的3D资产生成,以满足现代图形管线对高质量、可重打光3D资产的需求。
2. 关键创新或方法论贡献: 论文提出了轻量级高斯资产适配器(Lightweight Gaussian Asset Adapter, LGAA),这是一个新颖的框架,通过利用多视角(MV)扩散先验,以一种新颖的视角统一了几何和PBR材料的建模。LGAA采用模块化设计,包含三个核心组件:
- LGAA Wrapper: 重用并适配MV扩散模型的网络层。这些层封装了从数十亿图像中获得的知识,从而实现了数据高效的更好收敛。它通过冻结预训练层并注入可学习的零初始化卷积层来适应知识流,最大化地保留了预训练先验。
- LGAA Switcher: 为了整合几何和PBR合成的多个扩散先验(包括MV RGB扩散先验和MV PBR材料扩散先验),LGAA Switcher通过可学习的零初始化卷积层,以层级方式对齐不同先验。这避免了早期训练阶段的先验冲突,并实现了对齐的渐进式自适应增长。
- LGAA Decoder: 设计了一个经过驯化的变分自编码器(VAE),用于预测带有PBR通道的2D高斯泼溅(2DGS)。通过解码到更高的空间分辨率,它能够生成更多的高斯基元,从而捕获更详细的几何和外观信息。
- 图像基可微分延迟着色方案: 引入该方案以将渲染的G-buffer信息与最终的RGB外观联系起来,从而减少几何和外观同时生成固有的模糊性,增强了PBR材料的真实感。
- 专用后处理程序: 引入了一个专门的后处理程序,可以有效地从生成的2DGS中提取高质量、可重打光的网格资产。这包括通过TSDF融合提取网格、连续重网格化以获得水密网格,以及利用可微分渲染器初始化和优化PBR纹理贴图。
3. 主要结果及其意义: * 卓越的性能: 广泛的定量和定性实验表明,LGAA在文本和图像条件下的MV扩散模型上均表现出卓越的性能。它能够生成准确的几何形状和精细的PBR贴图,超越了现有最先进的方法(如3DTopia-XL)。 * 数据高效性: 知识保留方案使得模型在仅6.9万个多视角实例上进行训练即可实现高效收敛,而其他方法(如3DTopia-XL)需要25.6万个3D实例。 * 模块化和灵活性: 模块化设计允许灵活地整合多个扩散先验,并能与更强大的基础模型无缝集成,从而实现可扩展的性能改进。 * 端到端PBR资产生成: 实现了端到端、高质量、可用于PBR的3D资产生成,生成的资产具有准确的PBR材料,支持逼真的重打光。 * 高效的网格提取: 整个流程(从高斯泼溅到高质量、UV映射的3D网格)在NVIDIA GeForce RTX 4090 GPU上仅需不到30秒。
4. 论文中提及的局限性: * 数据集限制: 由于该方法通过训练额外的适配器来利用预训练的MV扩散模型进行3D资产生成,因此用于训练适配器的数据集必须符合MV扩散模型最初训练所用的数据集的约定。 * 内部结构缺乏正则化: 该方法仅通过像素级损失进行监督,导致实例的内部结构缺乏适当的正则化。
5. 潜在的未来研究方向: * 探索将LGAA方法与原生3D生成方案相结合,以改进结构建模。
总而言之,这篇论文通过引入LGAA框架,为PBR就绪的3D资产生成提供了一种新颖且高效的解决方案。它巧妙地利用了预训练多视角扩散模型中封装的丰富先验知识,并通过模块化设计、数据高效的训练以及图像基可微分渲染,实现了高质量、可重打光的3D资产的端到端生成。尽管存在一些局限性,但其在性能和效率上的显著提升,为计算机视觉和图形学领域的3D内容生成开辟了新的道路。
Key Findings:
- To achieve end-to-end PBR-ready 3D asset generation, we present Lightweight Gaussian Asset Adapter (LGAA), a novel framework that unifies the modeling of geometry and PBR materials by exploiting multi-view (MV) diffusion priors from a novel perspective.
- Finally, we introduce a dedicated post-processing procedure to effectively extract high-quality, relightable mesh assets from the resulting 2DGS.
Links:
Dimensionally Reduced Open-World Clustering: DROWCULA
Authors: Erencem Ozbey, Dimitrios I. Diochnos
Published: 2025-09-08
Categories: cs.CV, cs.LG
Abstract:
Working with annotated data is the cornerstone of supervised learning. Nevertheless, providing labels to instances is a task that requires significant human effort. Several critical real-world applications make things more complicated because no matter how many labels may have been identified in a task of interest, it could be the case that examples corresponding to novel classes may appear in the future. Not unsurprisingly, prior work in this, so-called, `open-world' context has focused a lot on semi-supervised approaches. Focusing on image classification, somehow paradoxically, we propose a fully unsupervised approach to the problem of determining the novel categories in a particular dataset. Our approach relies on estimating the number of clusters using Vision Transformers, which utilize attention mechanisms to generate vector embeddings. Furthermore, we incorporate manifold learning techniques to refine these embeddings by exploiting the intrinsic geometry of the data, thereby enhancing the overall image clustering performance. Overall, we establish new State-of-the-Art results on single-modal clustering and Novel Class Discovery on CIFAR-10, CIFAR-100, ImageNet-100, and Tiny ImageNet. We do so, both when the number of clusters is known or unknown ahead of time. The code is available at: https://github.com/DROWCULA/DROWCULA.
Analysis:
好的,作为计算机视觉和机器学习领域的专家,我将为您提供Erencem Ozbey和Dimitrios I. Diochnos撰写的论文“Dimensionally Reduced Open-World Clustering: DROWCULA”的全面摘要。
论文摘要:Dimensionally Reduced Open-World Clustering: DROWCULA
1. 主要问题或研究问题: 该论文旨在解决开放世界(Open-World)环境下的图像分类和聚类问题,特别是“新颖类别发现”(Novel Class Discovery, NCD)。在开放世界中,数据集中可能出现未知的、未标记的新类别实例,这使得传统的监督学习和半监督学习方法面临挑战。现有NCD方法主要依赖半监督学习,需要少量标记数据作为引导。该论文的核心研究问题是:如何在完全无监督的开放世界设定下,有效地识别和聚类数据集中的新颖类别,甚至在聚类数量未知的情况下也能实现。
2. 关键创新或方法论贡献: DROWCULA(Dimensionally Reduced Open-World Clustering)方法提出了一个完全无监督的框架,其主要创新点包括: * 完全无监督的NCD: 首次提出在完全无监督的开放世界设定下进行新颖类别发现,无需任何预先标记的数据。 * Vision Transformers (ViT) 嵌入: 利用预训练的Vision Transformers(如DINOv2)作为特征提取器,生成高质量的图像向量嵌入,有效捕捉图像的复杂特征。 * 流形学习降维: 结合非线性降维技术(如UMAP和t-SNE)来处理高维ViT嵌入。这些技术通过利用数据的内在几何结构来细化嵌入,克服了维度灾难,并显著提高了聚类性能和计算效率。 * 聚类数量估计: 提出了一种在聚类数量未知时估计最佳聚类数量的方法,通过优化内部聚类有效性指标(如Silhouette Score)并结合贝叶斯优化来实现。 * 非欧几里得距离度量: 在初步探索中,研究了非欧几里得距离度量(如测地距离),发现其在保留局部结构方面优于欧几里得距离,尤其是在高维空间中。
3. 主要结果及其重要性: DROWCULA在多个基准数据集(CIFAR-10、CIFAR-100、ImageNet-100和Tiny ImageNet)上取得了显著的SOTA(State-of-the-Art)结果,无论聚类数量已知或未知: * 单模态聚类和NCD的SOTA: 在所有测试数据集上,DROWCULA在完全无监督设定下,超越了现有的半监督NCD方法和最新的聚类算法,尤其是在新颖类别发现的准确性方面表现出色。例如,在CIFAR-100数据集上,DROWCULA的准确性是ORCA的两倍,RankStats的2.6倍,DTC的4.2倍。 * 降维的有效性: 实验证明,UMAP和t-SNE等流形学习技术显著提升了聚类性能,并且在内存效率上也有巨大优势。 * 内部有效性指标与外部指标的相关性: 论文展示了Silhouette Score、Calinski-Harabasz Index和Davies-Bouldin Index等内部指标与外部聚类准确性(ACC)之间的高度相关性,这对于在无监督环境中选择最佳聚类数量至关重要。
4. 论文中提及的局限性: * 预训练模型依赖: 尽管DROWCULA在聚类阶段是无监督的,但其性能高度依赖于预训练的Vision Transformers(如DINOv2),这些模型本身可能是在监督或自监督方式下训练的,这引入了潜在的“隐性监督”。 * 计算成本: 某些降维技术(如t-SNE)和聚类有效性指标(如Silhouette Score)在计算上可能较为昂贵,尤其是在大规模数据集上。 * 内部指标的局限性: 尽管内部指标与外部指标高度相关,但在某些情况下,内部指标的最大值/最小值可能不完全对应于最佳聚类性能。
5. 潜在的未来研究方向: * 进一步开发无监督学习技术: 探索其他无监督学习技术,以进一步增强特征表示的质量,从而提高聚类性能。 * 利用已知数据集特征: 研究如何利用已知数据集的特征来提升特征表示的质量,可能通过更先进的自监督或无监督预训练方法。 * 直接实现NCD算法: 在DROWCULA的框架下,直接实现新的NCD算法,以进一步扩展该领域的研究。 * 扩展到其他数据模态: 将DROWCULA的无监督框架应用于其他数据模态,如文本、音频等,以验证其通用性。
总而言之,DROWCULA论文为开放世界环境下的无监督图像聚类和新颖类别发现提供了一个强大且通用的框架。通过结合Vision Transformers的强大嵌入能力和流形学习的降维优势,该方法在无需任何人工标注的情况下,在多个基准数据集上取得了显著的SOTA性能,为未来无监督基础模型和数据密集型计算机视觉任务的发展奠定了基础。
Key Findings:
- Several critical real-world applications make things more complicated because no matter how many labels may have been identified in a task of interest, it could be the case that examples corresponding to novel classes may appear in the future.
- Focusing on image classification, somehow paradoxically, we propose a fully unsupervised approach to the problem of determining the novel categories in a particular dataset.
- Our approach relies on estimating the number of clusters using Vision Transformers, which utilize attention mechanisms to generate vector embeddings.
- Overall, we establish new State-of-the-Art results on single-modal clustering and Novel Class Discovery on CIFAR-10, CIFAR-100, ImageNet-100, and Tiny ImageNet.
Links: