Marigold架构设计原理：从Stable Diffusion到图像分析模型的转变

张

张建站

2026/5/10 12:45:20

10分钟阅读

Marigold架构设计原理从Stable Diffusion到图像分析模型的转变【免费下载链接】Marigold[CVPR 2024 - Oral, Best Paper Award Candidate] Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation项目地址: https://gitcode.com/gh_mirrors/ma/MarigoldMarigold作为CVPR 2024的杰出成果创新性地将Stable Diffusion等扩散模型从图像生成领域转变为强大的图像分析工具。本文将深入解析这一突破性架构如何实现从生成到分析的范式转换以及其在单目深度估计等任务中的核心设计原理。架构概览扩散模型的创造性复用Marigold的核心创新在于将图像生成模型逆向改造为图像理解工具。传统扩散模型通过逐步去噪生成图像而Marigold则巧妙地将这一过程转化为从单张输入图像中提取深度、法向量等几何信息的过程。图1Marigold架构可同时输出深度图、表面法向量、材质属性等多种图像分析结果从项目代码结构来看Marigold通过三个核心管道实现不同任务深度估计marigold/marigold_depth_pipeline.py光照/外观不变性分析marigold/marigold_iid_pipeline.py法向量估计marigold/marigold_normals_pipeline.py 核心组件从生成到分析的关键改造1. 扩散模型的逆向工程Marigold保留了Stable Diffusion的核心组件UNet、VAE、CLIP编码器但通过以下关键修改实现功能转变def __init__( self, unet: UNet2DConditionModel, vae: AutoencoderKL, scheduler: Union[DDIMScheduler, LCMScheduler], text_encoder: CLIPTextModel, tokenizer: CLIPTokenizer, scale_invariant: Optional[bool] True, shift_invariant: Optional[bool] True, )上述代码片段来自marigold/marigold_depth_pipeline.py的构造函数新增的scale_invariant和shift_invariant参数是实现深度估计的关键创新确保模型对输入图像的尺度和位移变化具有鲁棒性。2. 条件输入机制的重新设计与生成模型不同Marigold将输入图像作为条件信号而非随机噪声。通过修改UNet的条件输入路径模型学会从给定图像中推断几何信息而非生成新图像。这一转变体现在__call__方法中def __call__( self, input_image: Union[Image.Image, torch.Tensor], denoising_steps: Optional[int] None, ensemble_size: int 1, processing_res: Optional[int] None, ) - MarigoldDepthOutput:3. 多任务输出头设计Marigold架构支持多种视觉任务输出通过不同的解码器分支实现深度估计头生成精确的深度图法向量头预测表面法线方向不确定性估计量化预测置信度深度估计工作流程解析Marigold的深度估计流程体现了从生成到分析的完整转变图像编码输入图像通过VAE编码到潜在空间条件扩散在CLIP文本编码器辅助下UNet对潜在表示进行去噪多尺度处理通过marigold/util/image_util.py实现不同分辨率的特征融合集成预测通过多次推理ensemble_size参数提高结果鲁棒性后处理应用尺度和位移不变性校正图2Marigold深度估计结果示例展示了对各种场景的精确深度推断能力关键技术创新点1. 尺度与位移不变性Marigold通过引入尺度不变损失和位移不变损失解决了传统深度估计的关键挑战self.scale_invariant scale_invariant self.shift_invariant shift_invariant这些特性使模型能够处理不同尺度的输入图像无需依赖相机内参信息。2. 集成推理机制通过多次随机推理并融合结果ensemble_size 1Marigold显著提高了深度估计的鲁棒性这一功能在marigold/util/ensemble.py中实现。3. 轻量级优化针对不同计算资源Marigold提供了灵活的推理选项可调节的去噪步数denoising_steps处理分辨率控制processing_res批处理大小优化batch_size 实验验证与应用场景Marigold在多个基准数据集上展示了卓越性能NYU Depth v2KITTIETH3DScanNet项目提供了完整的评估脚本可在script/depth/eval/目录下找到各种评估配置。总结扩散模型的新范式Marigold架构通过巧妙改造扩散模型开创了图像分析的新范式。其核心价值在于复用大规模预训练生成模型的视觉知识无需大量标注数据即可实现高精度几何估计统一框架支持多种视觉任务通过src/trainer/目录下的训练代码开发者可以进一步扩展Marigold的能力适应更多特定领域的图像分析需求。Marigold的成功证明了扩散模型不仅是强大的生成工具更可以通过创新设计转变为理解视觉世界的强大引擎为计算机视觉领域开辟了新的研究方向。【免费下载链接】Marigold[CVPR 2024 - Oral, Best Paper Award Candidate] Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation项目地址: https://gitcode.com/gh_mirrors/ma/Marigold创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

【OSG学习笔记】Day 25: OSG 设计架构解析

学了这么多天有些云里雾里的，我们从架构上在学习下。 OpenSceneGraph (OSG) 设计架构 OpenSceneGraph（简称OSG）是基于OpenGL的开源高性能三维图形引擎，广泛应用于仿真、虚拟现实、三维可视化等领域。 OSG的核心魅力在于其清晰的层…...

2026/5/10 12:44:26 阅读更多 →

MiniCPM-o-4.5-nvidia-FlagOS开源镜像：FlagOS软件栈赋能的NVIDIA GPU原生推理方案

MiniCPM-o-4.5-nvidia-FlagOS开源镜像：FlagOS软件栈赋能的NVIDIA GPU原生推理方案想快速体验一个能看懂图片、还能跟你聊天的AI助手吗？今天要介绍的MiniCPM-o-4.5-nvidia-FlagOS开源镜像，就是一个开箱即用的多模态AI解决方案。它基于FlagOS…...

2026/4/2 4:57:35 阅读更多 →

[特殊字符]️ VibeVoice: 开源前沿语音AI，让沟通更高效！

🎙️ VibeVoice: 开源前沿语音AI VibeVoice是一个开源前沿语音AI模型家族，涵盖文本转语音(TTS)和自动语音识别(ASR)模型。这一项目旨在通过持续的创新，推动语音合成和识别领域的发展。创新亮点 VibeVoice的核心创新在于采用了持续语音标记…...

2026/4/2 4:57:34 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/10 0:00:31 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/10 0:00:33 阅读更多 →