专治AI生图「人脸崩坏」,8倍速碾压GPT,新版FLUX.1多方位刷新SOTA

时间: 2025-05-30 17:36:00

【导读】FLUX.1 Kontext是一款融合即时文本图像编辑与文本到图像生成的新一代模型,支持文本与图像提示,角色一致性强,速度快达GPT-Image-1的8倍。

用AI生成&编辑图片时,想生成一套完整故事模板,结果主角「变脸」比翻书还快,这可怎么办?

别慌,全新图像模型FLUX.1 Kontext来了!支持上下文内图像生成,可以同时使用文本和图像进行提示,并能够无缝提取和修改视觉概念,从而生成新的、连贯的图像。

论文地址:
https://bfl.ai/announcements/flux-1-kontext

FLUX.1 Kontext是一系列生成式流匹配模型,可生成和编辑图像。与现有的文本到图像模型不同,FLUX.1 Kontext系列支持上下文内图像生成。

一致且上下文感知的图文生成与编辑

你的图像,你的文字,你的世界

FLUX.1 Kontext通过融合即时文本图像编辑与文本到图像生成,标志着经典文本到图像模型的重要扩展。

作为多模态流模型,它结合了最先进的角色一致性、上下文理解能力和局部编辑功能,同时具备强大的文本到图像合成能力。

基于指令的迭代式图像编辑。从一张参考照片(a)开始,模型依次应用了三条自然语言编辑指令——首先去除遮挡物(b),然后将人物移动到弗赖堡(c),最后将场景转换为雪天(d)。

在整个编辑过程中,角色的外貌、姿势、服装以及整体摄影风格始终保持一致。

FLUX.1 Kontext具备以下优势:

统一能力:一个模型同时支持传统的局部编辑与基于上下文的生成式图像生成任务。

角色一致性:FLUX.1 Kontext在角色保留方面表现出色,即使在多轮迭代编辑中也能保持角色的一致性。

交互速度:FLUX.1 Kontext运行迅速,无论是文本生成图像还是图像到图像的转换,在1024×1024分辨率下,图像生成时间仅需3到5秒。

可迭代操作:推理速度快且一致性强,使用户可以连续多次编辑图像,几乎不会出现明显的视觉偏移。

FLUX.1 Kontext技术路线

FLUX.1是一种校正型流变换器(rectified flow transformer),在图像自编码器的潜空间中进行训练。

从零开始训练了一个带有对抗目标的卷积自编码器。通过扩大训练计算量并采用16个潜在通道,在图像重建能力方面优于相关模型。

FLUX.1的结构由双流(double stream)单流(single stream)模块混合构成。

双流模块为图像和文本Token分别使用不同的权重,通过将两种Token拼接后执行注意力机制来进行信息融合。

在序列通过双流模块处理后,舍弃文本Token,仅保留图像Token,并对其应用38个单流模块。

使用了因式分解的三维旋转位置编码(3D RoPE),其中每个潜在Token都根据其时空坐标 (t, h, w) 进行定位。

研究团队的目标是训练一个模型,能够在同时给定文本提示和参考图像的条件下生成图像。

更正式地说,希望近似地学习一个条件概率分布:能够在文本提示(c)和参考图像(y)共同作用下生成目标图像(x)

与传统的文本生成图像(text-to-image)不同,这一任务需要模型学习图像之间的关系——由文本指令c进行引导——从而使同一个网络能够:

1. 在存在参考图像y≠∅时,执行基于图像的编辑;

2. 在y=∅时,从零生成全新图像。

Token序列构建

图像首先由冻结的FLUX自编码器编码为潜在Token。上下文图像的Token y会被追加在目标图像Token x之后,作为视觉输入流的一部分输入到模型中。

这种简单的「序列拼接」方式具备以下优点:

1. 支持不同的输入/输出分辨率和宽高比;

2. 能够自然扩展到多个上下文图像 y₁, y₂, …, yₙ。

通过三维旋转位置编码(3D RoPE)来编码位置信息。

其中上下文图像的所有Token会被赋予一个常数偏移量,作为虚拟时间步(virtual time step),从而将上下文块和目标块在时间维度上清晰区分,同时保持各自的空间结构不变

目标图像的Token位置为:uₓ = (0, h, w);第i张上下文图像的Token位置为:uᵧᵢ = (i, h, w),其中 i = 1, …, N。

校正流目标函数(Rectified-flow Objective)

使用如下的校正流匹配损失函数进行训练:

其中:

ε是从标准高斯分布N(0,1)中采样的噪声;

zₜ是x和ε之间的线性插值,即

vθ是研究人员要训练的速度预测网络;

p(t;μ,σ=1.0)是logit-normal分布的时间采样策略,其中μ会根据训练数据的分辨率进行调整。

在纯文本生成图像的场景下(y=∅),会省略所有y的Token,以保持模型的文本到图像生成能力。

对抗式扩散蒸馏采样

对获得的流匹配模型进行采样,通常需要求解一个常微分方程或随机微分方程,过程一般需要进行50到250次带引导的网络评估。

虽然对于训练良好的模型来说,这种方式生成的样本质量较高,但也存在一些潜在问题。

首先,多步采样过程较慢,使得大规模部署成本较高,不利于实现低延迟的交互式应用。

其次,引导过程有时会带来视觉伪影,比如过度饱和的图像。

FLUX.1 Kontext采用潜空间对抗扩散蒸馏方法来应对上述挑战。该方法通过对抗训练在提升图像质量的同时,显著减少了采样所需的步骤数。

实现细节

从一个纯文本生成图像的模型检查点出发,将模型联合微调用于图像生成图像和文本生成图像这两个任务。

虽然该方法天然支持多个输入图像,但目前只聚焦于使用单张图像作为条件输入。

FLUX.1 Kontext[pro]先通过flow目标训练,然后再进行LADD的训练。使用Meng等人提出的技术,将指导蒸馏方法应用于一个参数量为120亿的扩散Transformer模型,从而得到FLUX.1 Kontext[dev]。

为了提升FLUX.1 Kontext [dev]在编辑任务中的表现,专注于图像生成图像的训练,不进行纯文本生成图像的训练。

为了防止生成非自愿的私密图像(NCII)和儿童性剥削内容(CSEM),引入了安全训练机制,包括基于分类器的筛查和对抗训练。

研究人员采用FSDP2并结合混合精度训练:all-gather操作使用bfloat16,而梯度的reduce-scatter操作使用float32,以提升数值稳定性。

还使用选择性激活检查点机制来降低最大显存占用。

为提升吞吐量,采用Flash Attention,并对各个Transformer模块进行局部编译优化。

以上为产品在摄影作品上效果。(a) 输入图像,展示了完整的穿搭造型。(b) 提取出的裙子,置于白色背景下,呈现产品摄影风格。(c) 裙子面料的特写镜头,突出显示其纹理和图案细节。

结果评测分析

首先介绍KontextBench,这是一个全新的基准测试集,涵盖了从用户群体中收集的真实图像编辑挑战。

然后系统性地将FLUX.1 Kontext与当前最先进的文本生成图像和图像生成图像方法进行对比,展示其在各种编辑任务中的优异表现。

面向上下文任务的真实世界众包基准测试

现有的图像编辑模型基准测试在反映真实使用情况方面往往存在局限。

KontextBench的内容来自真实世界的用户使用场景。该基准集包含1026对独特的图像与提示词组合,源自108张基础图像,包括个人照片、CC授权艺术作品、公共领域图像以及AI生成内容。

KontextBench涵盖五类核心任务:局部指令编辑(416个示例)、全局指令编辑(262个)、文本编辑(92个)、风格参考(63个)和角色参考(193个)。

各模型在生成1024 × 1024图像时的中位推理延迟。FLUX.1 Kontext在文本生成图像和图像生成图像两种任务中均展现出较有竞争力的速度表现。

与当前最先进方法的对比

FLUX.1 Kontext旨在同时支持文本生成图像(T2I)和图像生成图像(I2I)任务。

将该方法与目前领域中最强的商业模型和开源模型进行了对比评估,分别测试了 FLUX.1 Kontext 的 [pro] 和 [dev] 版本。[dev] 版本专注于图像生成图像任务。

此外,还引入了 FLUX.1 Kontext[max],其使用更高计算资源,以实现更强的生成效果。

文本生成图像(T2I)结果

当前的T2I评估基准主要基于用户偏好,一般会问:「你更喜欢哪张图片?」

观察到这种宽泛的评估标准常常偏向具有典型「AI美学」的图像,比如颜色过于鲜艳、主体居中突出、背景模糊(景深)明显,以及风格趋同等。

研究人员将这种现象称为「bakeyness」(过度精修感)。

为更全面地评估生成质量,更深入理解用户偏好影响,研究人员将T2I任务拆分为五个维度进行分析:

1. 指令遵循程度(prompt following)

2. 审美性(你觉得哪张图片更好看)

3. 真实感(哪张图看起来更像真实照片)

4. 字体排版准确性(typography accuracy)

5. 推理速度

研究人员在1000条多样化的测试提示语上进行评估,这些提示语来源于学术基准以及真实用户查询。研究人员将这一测试集称为Internal-T2I-Bench。

结果显示,FLUX.1 Kontext在各个维度上表现非常均衡。

尽管在某些单项指标上其他模型表现更好,但往往是以牺牲其他维度性能为代价。

研究人员还看到,从FLUX1.1[pro]到FLUX.1 Kontext[pro],再到FLUX.1 Kontext[max],性能逐步提升,验证了研究人员训练迭代的成效。

图像生成图像(I2I)结果

在I2I评估中,研究人员针对多个编辑任务评估模型表现,包括:

  • 图像质量
  • 局部编辑能力
  • 角色保持(C-Ref)
  • 风格迁移(S-Ref)
  • 文本编辑
  • 计算效率

从人工评估结果来看,FLUX.1 Kontext的[max]和[pro]版本在局部编辑、文本编辑以及角色保持方面表现最优。

为了量化角色保持(C-Ref)性能,研究人员使用AuraFace提取编辑前后的面部嵌入特征,并进行对比。

结果与人工评估一致:FLUX.1 Kontext在保持人物特征方面优于其他模型。

在全局编辑和风格迁移任务上,FLUX.1 Kontext分别仅次于gpt-image-1和Gen-4References。

最后,在推理速度方面,研究人员的模型也表现出最优的响应延迟。

FLUX.1 Kontext专用应用场景

FLUX.1 Kontext不仅支持常规图像生成任务,还可以应用于多种特定场景。

其中之一是风格参考(Style Reference,S-Ref),这一功能由Midjourney推广开来,可在保持语义内容不变的前提下,将参考图像中的风格迁移到目标图像中。

风格参照,即给定一张输入图像,模型会提取其艺术风格,并在保持原有风格特征的前提下,生成多样化的新场景。

此外,该模型还可以识别和响应图像中的视觉提示,比如红色椭圆或几何图形,这些元素可以引导模型进行特定区域的编辑。

在文本编辑方面,FLUX.1 Kontext支持对图像中的文字进行微调,包括修正拼写错误、调整字体风格,并在此过程中保持周围图像内容的连贯性。

总结

FLUX.1 Kontext 实现了当前SOTA性能,并有效应对了多轮编辑过程中的角色漂移、推理速度慢和输出质量低等关键问题。

FLUX.1 Kontext的主要贡献包括:

  • 一种统一架构,能够同时处理多种图像任务
  • 在多轮编辑中保持出色的角色一致性
  • 具备交互式响应速度
  • 发布了KontextBench:一个包含1026对图像-提示词的真实世界基准测试集

广泛的评估结果表明,FLUX.1 Kontext的性能可与商业系统相媲美,并支持快速、多轮的创意工作流程。

目前的FLUX.1 Kontext在实际应用中仍存在一些局限,比如多轮编辑过多时,可能会引入视觉伪影,导致图像质量下降。

但是基于同一张起始图像和相同的编辑提示,使用不同模型进行的迭代编辑示例。FLUX.1 Kontext在面部特征保持方面优于其他模型。

FLUX.1 Kontext与KontextBench的发布为图像生成与编辑的统一研究提供了坚实基础和完整的评估框架,有望推动该领域持续进步。

参考资料:

https://bfl.ai/announcements/flux-1-kontext

https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf

本文来自微信公众号“新智元”,作者:编辑:定慧 ,36氪经授权发布。