5分钟阅读
FLUX 2开源初探:32B模型强势升级,能否撼动Nano Banana Pro?
前言
近日,Black Forest Labs正式发布开源的FLUX. 2模型,在图像生成质量、多参考一致性、文本渲染等核心能力上实现显著提升。然而,在Google Nano Banana Pro模型的强势挤压下,这款备受期待的开源模型并未引发预期中的热烈反响。
大公司的算力优势持续扩大,开源生态面临严峻挑战:小公司及个人开发者如何在算力鸿沟下寻求生存空间?FLUX. 2的开源策略能否打破行业格局?本文将客观整理FLUX. 2的官方核心信息、多方实测对比及使用指南,为大家提供全面参考。
FLUX. 2的官方介绍
核心定位
FLUX. 2专为真实世界的创意工作流设计,而非仅用于演示或趣味场景。其核心优势包括:生成高质量图像的同时保持多参考图的角色/风格一致性、精准遵循结构化提示词、支持复杂文本的读写、贴合品牌规范、稳定处理光影/布局/Logo元素,且能在400万像素(4MP)分辨率下进行图像编辑,同时保留细节完整性。
开放核心模式(Open Core)
Black Forest Labs秉持“视觉智能应由全球研究者、创意从业者和开发者共同塑造”的理念,采用开放核心模式:
- 向社区发布功能强大、可审查、可组合的开源权重模型;
- 为需要规模化、可靠性和定制化的团队提供生产级API服务;
- 延续FLUX. 1系列的成功基础(FLUX. 1 [dev]是全球最受欢迎的开源图像模型),同时推出专业级模型服务Adobe、Meta等企业。
从FLUX. 1到FLUX. 2的进化
FLUX. 1验证了媒体模型作为创意工具的潜力,而FLUX. 2则实现了从“潜力”到“生产级工具”的跨越——通过重构生成经济模型,成为创意基础设施中不可或缺的一部分。
输出多样性:FLUX. 2可生成超高细节的照片级图像及含复杂排版的信息图表,分辨率均支持高达4MP
核心更新亮点
- 多参考支持:可同时参考10张图像,实现当前最优的角色/产品/风格一致性;
- 图像细节与真实感:纹理更锐利、光影更稳定,适用于产品拍摄、可视化及摄影级场景;
- 文本渲染:可靠支持复杂排版、信息图表、梗图及UI原型,小字清晰度显著提升;
- 提示词遵循度:优化对复杂结构化指令的理解,包括多部分提示词和构图约束;
- 真实世界认知:强化对现实世界知识、光影逻辑和空间关系的理解,生成场景更连贯;
- 高分辨率与灵活比例:支持4MP分辨率图像编辑,输入输出比例更灵活。
所有FLUX. 2版本均集成文本生成图像、多参考图像编辑功能于单一模型
模型家族与获取方式
FLUX. 2提供全谱系产品,覆盖从开源权重到企业级API的不同需求:
| 特性 | [pro] | [flex] | [dev] |
|---|---|---|---|
| 核心用途 | 生产级工作流 | 极致质量调控 | 本地开发测试 |
| 生成速度 | < 10秒 | 延迟较高 | 取决于硬件配置 |
| 多参考数量 | API支持8张(9MP限制),Playground支持10张 | 最多10张 | 推荐上限6张 |
| 可控参数 | 标准参数 | 可调节步数、引导尺度 | 完全自定义 |
| 文本生成图像价格 | 起价$0.03 | 起价$0.06 | 免费(非商用) |
| 图像编辑价格 | 起价$0.045 | 起价$0.12 | 免费(非商用) |
- FLUX. 2 [pro]:顶尖图像质量,媲美闭源模型,速度与质量兼顾,已通过BFL Playground、API及合作平台开放;
- FLUX. 2 [flex]:支持参数精细化调控(步数、引导尺度),擅长文本渲染和细节表现,获取渠道同[pro];
- FLUX. 2 [dev]:32B开源权重模型,当前最强开源图像生成/编辑模型,支持本地部署:
- 权重地址:Hugging Face
- 推理代码:GitHub
- 支持NVIDIA RTX GPU的fp8优化版本(与NVIDIA、ComfyUI合作)
- 第三方API支持:FAL、Replicate、Runware等平台
- FLUX. 2 [klein](即将推出):Apache 2.0开源协议,基于FLUX. 2基础模型蒸馏,同尺寸下性能优于从零训练模型,可申请beta测试;
- FLUX. 2 - VAE:全新变分自编码器,优化可学习性、质量与压缩率的平衡,开源地址:Hugging Face,技术报告:查看详情。

步数对排版精度的影响:FLUX. 2 [flex]的“步数”参数可平衡文本准确性与延迟,从左到右分别为6步、20步、50步
步数对图像细节的影响:FLUX. 2 [flex]的“步数”参数可平衡图像细节与延迟,从左到右分别为6步、20步、50步
技术原理
FLUX. 2基于潜在流匹配(latent flow matching)架构,整合图像生成与编辑功能:
- 融合Mistral-3 24B视觉语言模型(VLM)与整流流Transformer;
- VLM提供真实世界知识与语境理解,Transformer捕捉空间关系、材质属性和构图逻辑;
- 重新训练潜在空间,优化“可学习性-质量-压缩率”三角难题。
更多资源
对比测试
以下测试结果整理自海外社交媒体及开发者实测,涵盖多场景对比,供参考(笔者后续将补充本地实测):
1. 基础图像生成对比(FLUX. 2 Pro vs Nano Banana Pro)
@CharaspowerAI 发布相同提示词的生成结果,引发网友热议:

- 网友@NicoChauvin74:差异不大,但更偏好Nano Banana Pro——细节更丰富、背景更自然、姿态更协调;
- 网友@GenIArt_Fr:Nano Banana Pro的纹理和整体风格更优,但FLUX. 2在多数场景下表现也很出色。
2. 风格化场景测试
@IamEmily2050 分享两周实测结果,展示FLUX. 2在不同风格下的表现:
- 中国风场景:人物脸部细节稍显模糊;

- 夜视摄像头模拟:氛围感营造到位;

- 双人艺术照:整体质感和人物情绪表现出色;

- 赛博朋克场景:中文、日文等文字生成效果仍有待提升。

3. 精细化提示词表现
@PromptSin 使用结构化提示词测试FLUX. 2 [Pro],生成蒸汽朋克风格星巴克场景:
{
"subject": "美丽的年轻蒸汽朋克女性,全身像,佩戴黄铜护目镜,皮质束腰和分层维多利亚风格服装,手持纸质咖啡杯轻啜",
"background": "现代星巴克风格咖啡馆内部,温暖木质桌椅,远处顾客和咖啡师的模糊身影,大窗户可见城市氛围",
"lighting": "柔和温暖的晨间咖啡馆光线混合自然窗光,脸部柔和高光,黄铜细节微妙反光",
"style": "电影级摄影,超写实,浅景深,轻微胶片颗粒",
"camera_angle": "平视角度,略微前倾,自然透视",
"composition": "主体居中但按三分法稍偏右,竖版或3:4比例,主体前景清晰,背景强烈虚化带散景光"
}
实测点评:图像质感表现出色,但在无对比场景下更显优势。
4. 参考图一致性对比
@LinusEkenstam 使用相同参考图和提示词测试,认为FLUX. 2 Pro仍需优化:
实测点评:审美层面Nano Banana Pro更胜一筹。
5. 版本迭代对比(FLUX. 2 Pro vs FLUX. 1 Pro)
@IamEmily2050 展示两代模型的显著差异:
- FLUX. 2 Pro:

- FLUX. 1 Pro:
实测点评:FLUX. 2 Pro提升巨大,几乎是全新模型,但部分艺术风格表现略逊于前代,且限制更严格,希望保留旧模型供特定工作流使用。
6. 复杂信息处理对比
@CharaspowerAI 测试图表、数据类内容生成,Nano Banana Pro表现更优:
实测点评:Nano Banana Pro在复杂信息可视化上完胜,尤其在中文等非英语语种表现更稳定。
7. 真实质感细节对比
@heyDhavall 称赞FLUX. 2的纹理表现:
实测点评:FLUX. 2在皮肤毛孔、织物纤维、玻璃反光等细节上达到像素级精度,但Nano Banana Pro的整体美感更优。
8. 修图能力测试
老照片修复
@wildmindai 测试老照片修复,两者表现不相上下:

图像修改
@thetripathi58 测试产品图像修改,FLUX. 2表现更优:
实测点评:FLUX. 2能更好地保持iPhone17的造型和外观细节。
9. 角色一致性对比
@UminekoStudio 测试同参考图、同提示词下的角色一致性:
实测点评:FLUX. 2 Pro饱和度和对比度较低,接近Imagen系列风格;Nano Banana Pro饱和度、对比度更高,信息密度更丰富;从影视制作角度,FLUX. 2 Pro更护眼、更易后期整理。
10. 多视角逻辑对比(FLUX. 2 vs 通义千问-edit多视角LoRA)
@lepadphone 测试多视角生成能力:
实测点评:
- 空间推理:FLUX. 2的多视角切换更流畅;
- 一致性:FLUX. 2在细节和色彩稳定性上仍有提升空间;
- 质感与真实感:FLUX. 2大幅领先,通义千问-edit的LoRA在图像质量和纹理上表现粗糙。
11. 融图能力测试
@heydin_ai 使用4张参考图(含2张人脸参考,实际仅需1张)测试融图能力:
实测点评:FLUX. 2 Pro能精准理解提示词逻辑,即使参考图标注存在冗余,仍能生成自然皮肤纹理和电影级画面。
审查机制对比
@AIWarper 测试内容审查严格程度:
- 图1:原始参考图;
- 图2:Nano Banana Pro生成;
- 图3:FLUX. 2 Pro生成;
实测点评:FLUX. 2在内容审查上相对宽松,相比Google的限制更少,在应对特殊场景需求时更具灵活性。
使用方法
ComfyUI支持
ComfyUI官方第一时间宣布支持FLUX. 2,实现零日适配:
FLUX. 2现已开源并同步上线ComfyUI!支持4MP照片级真实感生成、专业光影/皮肤/织物细节、增强文本渲染及10参考图一致性,可通过Comfy Cloud或本地部署使用。
- FLUX. 2 Dev:支持BF16/FP8精度(与NVIDIA合作优化);
- FLUX. 2 Pro:通过合作节点调用API;
- 一键体验:https://links.comfy.org/flux-2

技术参数与硬件要求
FLUX. 2 [dev]核心参数:
- 模型类型:32B整流流Transformer;
- 核心功能:图像生成、编辑、多图融合;
- 特色能力:无需微调即可实现角色/物体/风格参考;
- 开源属性:开放权重;
- 模型大小:65GB;
- 权重地址:Hugging Face
关键点评:无需微调的风格参考功能大幅降低创作者门槛,尤其适合品牌一致性设计;65GB的模型体积虽过滤了普通用户,但完全适配专业生产工作流。
写在最后
FLUX. 2的开源发布为创意领域带来了三大核心价值:一是32B级别的开源权重模型,打破了闭源模型在高端市场的垄断;二是多参考图一致性、4MP高分辨率编辑等生产级功能,切实解决创意工作流中的实际痛点;三是开放核心模式,平衡了社区创新与商业可持续性。
但实测也暴露了其短板:中文等非英语文本生成仍需优化、部分场景下的审美表现略逊于Nano Banana Pro、65GB的体积对硬件要求较高。
对于不同用户而言,FLUX. 2的适配场景各有侧重:专业团队可通过API快速接入生产流,追求高性价比;开发者可基于开源权重二次定制,探索垂直领域应用;创意从业者可利用其宽松的审查机制和多图融合能力,实现更灵活的创作。
在大模型算力竞争日益激烈的当下,FLUX. 2的开源策略为行业提供了另一种可能——通过聚焦核心功能优化和生态开放,小团队仍能在巨头围堵中找到生存空间。未来,随着[klein]轻量化版本的推出和社区优化,FLUX. 2有望进一步降低使用门槛,成为开源创意工具的标杆。
你如何看待FLUX. 2的表现?欢迎在评论区分享你的实测体验和观点!
更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。