【中文译版】StableDiffusion3技术报告.pdf

[DM性LDM(Rombach等人,2022使用DDPM时间表的修改(Ho等人,2020 。两者都是方差保溜计划,即bt=1-离散时问步长t=0的细化,。。扩散系鄙BL为at=(L=0(1-Ba))并去
T-玻示

对于输走的边界做poT -L.pt=p0+
DDPM用建
-FT-1-阳饵u =
+tpT-1-陶

2
3.1适用于RF模型的宽制SNR采样器
阳F损失在0,1]中的所有时间上均为地速度 而直观上时于间,1中间的所得到的速皮预和样-0更困难因胸于t=0品性预积是pl的平均而时于t=1品住预是p1的甲均值预程po的甲均值一般来说期上的分布从常用的均匀分更改油度加市份布相当于加模周失Lan

0四
因此我们的曰标量通过更频案地采样中词时间步来其予它们更多的权重接下来,我们描用于训模型的时间步在度m0。
Logit正态采样对中问步骤给予更多重视的分布的一种选择是Logit正态分布(Atdison&Shen,1980。E的密度,
–s₂a-
顺一酬m;
090
其中logl)=lag具有位置参m和民度参数位置参数使我们能够将训炼时间步长偏向故据p0(mi)或声pl(正m)加图11所示,尺度参数控制份布的宽度。
在实中,我们从正态分布u N(um,冲对随机变量进行采样,并通过标准逻输数将其映时
重尾模式采样Logit-正态密度总是在端点0和1处消失。为了研究这是否对性能产生不利影响我们还使用了在0,止具有严格正密度的时间步采样分布],对于R度参数我们定文
fmodag=1一丽-s-ces2
“-1+0。0m₂
对于-16s≤该函 调的我们可以使用它M隐含密度modet4=中进行采样d -1
d模式)。如图11所示,尺度参数控制采样过程中中点(正或点唤s)的优先程度话公式还包括s=0时的均勾加权numodels;s=0)=Ut),请公式已在之前的整流流工作中广泛使用(Liuet al,2022;Maet al,2024))。
CosMap最后,我们还考虑RF设置中第3节的余弦时间表(Nichol&Dhariwal,2021)。
物是,们正在寻续时:m→=t,m∈加,1得bgsm与余位rom国表和匹
配:2log你) ,a们
1-1l三
得到u u(u)
t=1-tm(m
从中我们得到密度
-m-m-m+2m2
—.
mCoctap=
(21)
(2)
4.文本到图架构时于图像的文本条件采样,我们的
模型必须考成文本和图像这两种模式我们使用预训练的模型来导出合适的表示,然后描我们的扩散主干的深构图2对此进行了概术。
我们的一般设置避循LDM(Rombach等人,2022 ,用于在预训练白动编玛器的溶在空间中训练文本到图像模型。与将图像编码为潜在表示类似,我们也遵循以前的方法(Saharia等人,2022b;Balaj等
人,2022)并使用预训练的陈结文本模型对文本条件c进行编码。详细信息请参见附录B.2。
多模态扩做主干我的聚构建立在DiT[PocblesaXic,20223构之上。DiT仅考虑类帮件阳豫生成并使闹据扩过程的时间步长和类标签来调节同
类似地,我们使用时间步t和ovec的嵌入作为调制机制的输入然而,由于池化文本表示仅保留有关文本输入的相粒度信息(Podell等人
2023)因此网络还需要来自序列表示的信息
ott,
倒一个曲文本和国像人的面人的呼列体词承加位讲书在像*化的黑动
间平hwX和e
到长度·w的补丁编序列,将这个patch编码和文本编弱db入到一个共同的维度之后我们

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)