WithAI.Design

5分钟阅读

FLUX 2开源初探:32B模型强势升级,能否撼动Nano Banana Pro?

前言

近日,Black Forest Labs正式发布开源的FLUX. 2模型,在图像生成质量、多参考一致性、文本渲染等核心能力上实现显著提升。然而,在Google Nano Banana Pro模型的强势挤压下,这款备受期待的开源模型并未引发预期中的热烈反响。

大公司的算力优势持续扩大,开源生态面临严峻挑战:小公司及个人开发者如何在算力鸿沟下寻求生存空间?FLUX. 2的开源策略能否打破行业格局?本文将客观整理FLUX. 2的官方核心信息、多方实测对比及使用指南,为大家提供全面参考。

FLUX. 2的官方介绍

核心定位

FLUX. 2专为真实世界的创意工作流设计,而非仅用于演示或趣味场景。其核心优势包括:生成高质量图像的同时保持多参考图的角色/风格一致性、精准遵循结构化提示词、支持复杂文本的读写、贴合品牌规范、稳定处理光影/布局/Logo元素,且能在400万像素(4MP)分辨率下进行图像编辑,同时保留细节完整性。

开放核心模式(Open Core)

Black Forest Labs秉持“视觉智能应由全球研究者、创意从业者和开发者共同塑造”的理念,采用开放核心模式:

  • 向社区发布功能强大、可审查、可组合的开源权重模型;
  • 为需要规模化、可靠性和定制化的团队提供生产级API服务;
  • 延续FLUX. 1系列的成功基础(FLUX. 1 [dev]是全球最受欢迎的开源图像模型),同时推出专业级模型服务Adobe、Meta等企业。

从FLUX. 1到FLUX. 2的进化

FLUX. 1验证了媒体模型作为创意工具的潜力,而FLUX. 2则实现了从“潜力”到“生产级工具”的跨越——通过重构生成经济模型,成为创意基础设施中不可或缺的一部分。

FLUX.2输出多样性展示 输出多样性:FLUX. 2可生成超高细节的照片级图像及含复杂排版的信息图表,分辨率均支持高达4MP

核心更新亮点

  1. 多参考支持:可同时参考10张图像,实现当前最优的角色/产品/风格一致性;
  2. 图像细节与真实感:纹理更锐利、光影更稳定,适用于产品拍摄、可视化及摄影级场景;
  3. 文本渲染:可靠支持复杂排版、信息图表、梗图及UI原型,小字清晰度显著提升;
  4. 提示词遵循度:优化对复杂结构化指令的理解,包括多部分提示词和构图约束;
  5. 真实世界认知:强化对现实世界知识、光影逻辑和空间关系的理解,生成场景更连贯;
  6. 高分辨率与灵活比例:支持4MP分辨率图像编辑,输入输出比例更灵活。

FLUX.2全版本核心能力 所有FLUX. 2版本均集成文本生成图像、多参考图像编辑功能于单一模型

模型家族与获取方式

FLUX. 2提供全谱系产品,覆盖从开源权重到企业级API的不同需求:

特性[pro][flex][dev]
核心用途生产级工作流极致质量调控本地开发测试
生成速度< 10秒延迟较高取决于硬件配置
多参考数量API支持8张(9MP限制),Playground支持10张最多10张推荐上限6张
可控参数标准参数可调节步数、引导尺度完全自定义
文本生成图像价格起价$0.03起价$0.06免费(非商用)
图像编辑价格起价$0.045起价$0.12免费(非商用)
  1. FLUX. 2 [pro]:顶尖图像质量,媲美闭源模型,速度与质量兼顾,已通过BFL Playground、API及合作平台开放;
  2. FLUX. 2 [flex]:支持参数精细化调控(步数、引导尺度),擅长文本渲染和细节表现,获取渠道同[pro];
  3. FLUX. 2 [dev]:32B开源权重模型,当前最强开源图像生成/编辑模型,支持本地部署:
    • 权重地址:Hugging Face
    • 推理代码:GitHub
    • 支持NVIDIA RTX GPU的fp8优化版本(与NVIDIA、ComfyUI合作)
    • 第三方API支持:FAL、Replicate、Runware等平台
  4. FLUX. 2 [klein](即将推出):Apache 2.0开源协议,基于FLUX. 2基础模型蒸馏,同尺寸下性能优于从零训练模型,可申请beta测试
  5. FLUX. 2 - VAE:全新变分自编码器,优化可学习性、质量与压缩率的平衡,开源地址:Hugging Face,技术报告:查看详情

FLUX.2模型家族概览

步数对排版精度的影响 步数对排版精度的影响:FLUX. 2 [flex]的“步数”参数可平衡文本准确性与延迟,从左到右分别为6步、20步、50步

步数对图像细节的影响 步数对图像细节的影响:FLUX. 2 [flex]的“步数”参数可平衡图像细节与延迟,从左到右分别为6步、20步、50步

技术原理

FLUX. 2基于潜在流匹配(latent flow matching)架构,整合图像生成与编辑功能:

  • 融合Mistral-3 24B视觉语言模型(VLM)与整流流Transformer;
  • VLM提供真实世界知识与语境理解,Transformer捕捉空间关系、材质属性和构图逻辑;
  • 重新训练潜在空间,优化“可学习性-质量-压缩率”三角难题。

更多资源

对比测试

以下测试结果整理自海外社交媒体及开发者实测,涵盖多场景对比,供参考(笔者后续将补充本地实测):

1. 基础图像生成对比(FLUX. 2 Pro vs Nano Banana Pro)

@CharaspowerAI 发布相同提示词的生成结果,引发网友热议: 基础生成对比

  • 网友@NicoChauvin74:差异不大,但更偏好Nano Banana Pro——细节更丰富、背景更自然、姿态更协调;
  • 网友@GenIArt_Fr:Nano Banana Pro的纹理和整体风格更优,但FLUX. 2在多数场景下表现也很出色。

2. 风格化场景测试

@IamEmily2050 分享两周实测结果,展示FLUX. 2在不同风格下的表现:

  • 中国风场景:人物脸部细节稍显模糊; 中国风测试
  • 夜视摄像头模拟:氛围感营造到位; 夜视效果测试
  • 双人艺术照:整体质感和人物情绪表现出色; 双人艺术照测试
  • 赛博朋克场景:中文、日文等文字生成效果仍有待提升。 赛博朋克测试

3. 精细化提示词表现

@PromptSin 使用结构化提示词测试FLUX. 2 [Pro],生成蒸汽朋克风格星巴克场景:

{
  "subject": "美丽的年轻蒸汽朋克女性,全身像,佩戴黄铜护目镜,皮质束腰和分层维多利亚风格服装,手持纸质咖啡杯轻啜",
  "background": "现代星巴克风格咖啡馆内部,温暖木质桌椅,远处顾客和咖啡师的模糊身影,大窗户可见城市氛围",
  "lighting": "柔和温暖的晨间咖啡馆光线混合自然窗光,脸部柔和高光,黄铜细节微妙反光",
  "style": "电影级摄影,超写实,浅景深,轻微胶片颗粒",
  "camera_angle": "平视角度,略微前倾,自然透视",
  "composition": "主体居中但按三分法稍偏右,竖版或3:4比例,主体前景清晰,背景强烈虚化带散景光"
}

精细化提示词测试 实测点评:图像质感表现出色,但在无对比场景下更显优势。

4. 参考图一致性对比

@LinusEkenstam 使用相同参考图和提示词测试,认为FLUX. 2 Pro仍需优化: 参考图一致性对比 实测点评:审美层面Nano Banana Pro更胜一筹。

5. 版本迭代对比(FLUX. 2 Pro vs FLUX. 1 Pro)

@IamEmily2050 展示两代模型的显著差异:

  • FLUX. 2 Pro: FLUX.2 Pro效果
  • FLUX. 1 Pro: FLUX.1 Pro效果 实测点评:FLUX. 2 Pro提升巨大,几乎是全新模型,但部分艺术风格表现略逊于前代,且限制更严格,希望保留旧模型供特定工作流使用。

6. 复杂信息处理对比

@CharaspowerAI 测试图表、数据类内容生成,Nano Banana Pro表现更优: 复杂信息处理对比 实测点评:Nano Banana Pro在复杂信息可视化上完胜,尤其在中文等非英语语种表现更稳定。

7. 真实质感细节对比

@heyDhavall 称赞FLUX. 2的纹理表现: 质感细节对比 实测点评:FLUX. 2在皮肤毛孔、织物纤维、玻璃反光等细节上达到像素级精度,但Nano Banana Pro的整体美感更优。

8. 修图能力测试

老照片修复

@wildmindai 测试老照片修复,两者表现不相上下: 老照片修复测试

图像修改

@thetripathi58 测试产品图像修改,FLUX. 2表现更优: 产品图像修改测试 实测点评:FLUX. 2能更好地保持iPhone17的造型和外观细节。

9. 角色一致性对比

@UminekoStudio 测试同参考图、同提示词下的角色一致性: 角色一致性对比1 角色一致性对比2 角色一致性对比3 角色一致性对比4 实测点评:FLUX. 2 Pro饱和度和对比度较低,接近Imagen系列风格;Nano Banana Pro饱和度、对比度更高,信息密度更丰富;从影视制作角度,FLUX. 2 Pro更护眼、更易后期整理。

10. 多视角逻辑对比(FLUX. 2 vs 通义千问-edit多视角LoRA)

@lepadphone 测试多视角生成能力: 多视角对比 实测点评:

  • 空间推理:FLUX. 2的多视角切换更流畅;
  • 一致性:FLUX. 2在细节和色彩稳定性上仍有提升空间;
  • 质感与真实感:FLUX. 2大幅领先,通义千问-edit的LoRA在图像质量和纹理上表现粗糙。

11. 融图能力测试

@heydin_ai 使用4张参考图(含2张人脸参考,实际仅需1张)测试融图能力: 融图能力测试 实测点评:FLUX. 2 Pro能精准理解提示词逻辑,即使参考图标注存在冗余,仍能生成自然皮肤纹理和电影级画面。

审查机制对比

@AIWarper 测试内容审查严格程度:

  • 图1:原始参考图;
  • 图2:Nano Banana Pro生成;
  • 图3:FLUX. 2 Pro生成; 审查机制对比1 审查机制对比2 审查机制对比3 实测点评:FLUX. 2在内容审查上相对宽松,相比Google的限制更少,在应对特殊场景需求时更具灵活性。

使用方法

ComfyUI支持

ComfyUI官方第一时间宣布支持FLUX. 2,实现零日适配:

FLUX. 2现已开源并同步上线ComfyUI!支持4MP照片级真实感生成、专业光影/皮肤/织物细节、增强文本渲染及10参考图一致性,可通过Comfy Cloud或本地部署使用。

  • FLUX. 2 Dev:支持BF16/FP8精度(与NVIDIA合作优化);
  • FLUX. 2 Pro:通过合作节点调用API;
  • 一键体验:https://links.comfy.org/flux-2

ComfyUI支持展示

技术参数与硬件要求

FLUX. 2 [dev]核心参数:

  • 模型类型:32B整流流Transformer;
  • 核心功能:图像生成、编辑、多图融合;
  • 特色能力:无需微调即可实现角色/物体/风格参考;
  • 开源属性:开放权重;
  • 模型大小:65GB;
  • 权重地址:Hugging Face

技术参数展示 关键点评:无需微调的风格参考功能大幅降低创作者门槛,尤其适合品牌一致性设计;65GB的模型体积虽过滤了普通用户,但完全适配专业生产工作流。

写在最后

FLUX. 2的开源发布为创意领域带来了三大核心价值:一是32B级别的开源权重模型,打破了闭源模型在高端市场的垄断;二是多参考图一致性、4MP高分辨率编辑等生产级功能,切实解决创意工作流中的实际痛点;三是开放核心模式,平衡了社区创新与商业可持续性。

但实测也暴露了其短板:中文等非英语文本生成仍需优化、部分场景下的审美表现略逊于Nano Banana Pro、65GB的体积对硬件要求较高。

对于不同用户而言,FLUX. 2的适配场景各有侧重:专业团队可通过API快速接入生产流,追求高性价比;开发者可基于开源权重二次定制,探索垂直领域应用;创意从业者可利用其宽松的审查机制和多图融合能力,实现更灵活的创作。

在大模型算力竞争日益激烈的当下,FLUX. 2的开源策略为行业提供了另一种可能——通过聚焦核心功能优化和生态开放,小团队仍能在巨头围堵中找到生存空间。未来,随着[klein]轻量化版本的推出和社区优化,FLUX. 2有望进一步降低使用门槛,成为开源创意工具的标杆。

你如何看待FLUX. 2的表现?欢迎在评论区分享你的实测体验和观点!

更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。

标签