跳转至

扩散模型加速采样与离散化

一、任务说明

扩散模型在图像生成中表现优异,但通常需要较多采样步数,推理速度较慢。本实验围绕“固定模型下的采样加速”展开,分析不同采样器与离散化策略对生成质量、采样速度和显存占用的影响。

1.1 核心目标

  • 在同一扩散模型上比较不同采样/离散化方法
  • 分析少步采样下的质量—速度权衡
  • 提出一个可检验的问题或改进方向,并通过实验验证
  • 给出有依据的结果分析,而不是简单展示样例图

1.2 实验说明

  • 基础部分以 training-free 比较 为主,不要求从零训练大模型
  • 推荐使用 PyTorch / Diffusers,单卡 GPU 或 Colab 应可完成
  • 若使用 LCM / TCD 等 few-step 权重或蒸馏方法,需要在报告中单独说明

二、实验要求

2.1 基础部分(必做)

在同一 checkpoint、同一设置下比较至少 3 种方法。候选方法包括:

  • DDIM
  • Euler / Heun
  • DEIS
  • DPM-Solver++
  • UniPC
  • DPM-Solver-v3
  • AYS
  • 自定义 schedule

要求:

  1. 至少有 1 种方法需要你自己复现或重写关键 update 公式,不能只更换 scheduler 名称
  2. 至少测试 4 档步数预算,推荐 10 / 20 / 50 + 自选
  3. 报告中需要回答一个自己提出的问题,例如:

    • 为什么某种方法在低步数下更优?
    • 为什么某种 schedule 在高步数下优势减弱?
    • 为什么不同 prediction type 会影响少步稳定性?

2.2 进阶部分(至少完成一项)

从以下方向中任选其一:

  • 自设计 non-uniform timestep / sigma schedule
  • 设计混合 solver,例如前期粗步长、后期高阶校正
  • 分析 epsilon / x0 / v_predictionzero terminal SNRtrailing spacing 的影响
  • 尝试 LCM / TCD / Progressive Distillation 等 few-step 路线

要求:

  • 进阶部分必须提出一个可检验的假设
  • 至少包含 1 组 ablation
  • 需要说明你的方法在什么条件下有效、在什么条件下失败

2.3 评估指标

报告以下指标中的合理组合:

  • 生成质量:FID / IS / CLIP Score
  • 采样效率:采样时间、吞吐量或 NFE
  • 资源占用:峰值显存
  • 定性结果:同 seed 生成样例对比

2.4 实验汇总

  1. 基线对比实验
    对至少 3 种方法进行比较

  2. 步数对比实验
    至少比较 4 档不同采样步数

  3. 可视化与结果分析

    • 至少给出 1 张质量—速度 Pareto 图
    • 至少给出 1 张步数—质量曲线
    • 至少给出 1 组同 seed 可视化对比图
    • 至少分析 1 组失败案例
  4. 进阶实验
    对你的进阶方案做对比和消融分析


三、提交要求

1. 代码

  • 完整可运行的代码
  • requirements.txt
  • 运行脚本
  • README

2. 实验报告(PDF)

  • 方法说明
  • 实验设置
  • 定量结果
  • 定性结果
  • 失败案例分析
  • 结论与思考

3. 结果文件

  • 生成图像
  • 评测结果表格(CSV / JSON 均可)

3.1 提交目录示例

project/
├── samplers/
├── schedules/
├── scripts/
├── results/
├── README.md
├── requirements.txt
└── report.pdf

README 需写清楚:

  • 如何运行基础实验
  • 如何复现实验表格和主要图像
  • 主要配置项的含义

四、注意事项

  • 严禁仅通过替换 scheduler 名称完成作业,而不做机制分析
  • 所有比较必须控制变量:同一 checkpoint、同一 seed、同一分辨率、同一步数预算
  • 计时实验建议先 warm-up,再重复多次取平均
  • 如参考开源代码或论文,请在报告中注明来源
  • 本题重点是公平实验与结果分析,不是追求绝对 SOTA

五、评分标准

评分项 评分标准 分值
基础实现与正确性 至少 3 种方法成功运行;至少 1 种方法自行实现关键更新,而非仅换 API 20%
对照实验完整性 同一 checkpoint、同一 seed、同一分辨率;至少 4 档步数;含 1 个强基线(如 DPM-Solver++ / UniPC / AYS) 15%
评测规范与公平性 正确使用 FID/IS 或 CLIP/人评;时间与显存统计规范;环境信息齐全 15%
结果分析深度 能联系离散误差、schedule、prediction type、CFG、zero-SNR 等给出解释;有负结果与失败案例分析 20%
进阶探索 有清晰假设、消融实验和边界条件分析;不是简单堆叠已有方法 20%
报告与可复现性 报告结构清晰;图表规范;README、一键脚本、结果文件、可视化齐全 10%

如有疑问,请联系助教:522025720019@smail.nju.edu.cn