5分钟阅读
值得关注!两款非主流生图模型:轻量移动款与高分辨率开源款

前言
目前,主流的生图模型(含开源与不开源)已形成相对清晰的阵营,主要包括以下几类:
- 黑森林实验室(Black Forest Labs)Flux. 1 家族
- 阿里 QWEN-image 系列
- Stability AI 的 SDXL、SD3 系列
- GPT-4o-image
- Google Nano Banan
- 字节跳动 Seedream 4.0
以上是行业内公认的“主流”生图模型。除了这些主流模型外,不少独立开发者或组织也在深耕细分领域,打造出了一批更具针对性、表现亮眼的模型。今天就为大家介绍两款值得重点关注的特色模型:
- Stable Diffusion 3.5 Flash:支持移动设备的轻量级高质量生图模型
- Chroma1-Radiance:可直出高分辨率的开源像素级生图模型
感兴趣的朋友可根据需求下载或者使用API体验。
Stable Diffusion 3.5 Flash:移动设备也能跑的高质量生图模型
Stable Diffusion 3.5 Flash(简称 SD3.5-Flash)是一款基于先进蒸馏技术的生图模型,在各类算力设备上均能呈现顶尖性能。其项目主页与核心信息如下:
- 项目主页:https://hmrishavbandy.github.io/sd35flash/
- 研发团队:@hmrishavbandy、@rahiment、Jim Scott、Reshinth Adithyan、@yizhe_song、@jampani_varun
模型核心技术亮点
SD3.5-Flash 提出了一套“少步骤蒸馏框架”,可在消费级硬件上实现高质量的整流流(rectified flow)图像生成。传统整流流模型虽能通过多步优化生成高质量图像,但计算需求极高,导致普通用户难以触及。该模型通过以下技术创新解决了这一痛点:
- 时间步共享(Timestep Sharing):不再依赖“加噪-去噪”流程,而是通过中间轨迹样本计算分布目标,有效避免梯度不稳定问题,为少步骤训练提供稳定基础。
- 分时间步微调(Split-Timestep Fine-Tuning):训练阶段通过“专属时间步分支”临时扩展模型容量,平衡模型性能与生成质量的矛盾。
- 全流程优化:结合文本编码器重构、智能量化等技术,最终实现“8GB 内存内运行,1秒内生成高分辨率图像”的轻量化目标。
经大规模用户调研与测试验证,SD3.5-Flash 在保持教师模型(SD3.5-Medium)质量标准的同时,性能显著优于现有少步骤生图方法,让先进生成式 AI 真正具备了实用部署价值。
此外,SD3.5-Flash 基于 SD3.5-Medium 蒸馏而来,并采用改进的“分布匹配蒸馏技术”,在美学质量与“提示词-图像对齐度”上均有提升。在盲测用户调研中,该模型在 ELO 评分(一种通过人类排名评估模型质量的指标)中始终位居前列。
1. 性能对比:兼顾质量与硬件适配
SD3.5-Flash 提供了一套模型套件,在不同消费级算力设备上均获得用户偏好,同时 latency(延迟)与内存需求保持行业领先水平。图中“气泡大小”分别代表:
- 显卡设备:占用的显存(VRAM)大小
- 移动设备:磁盘上的管线(pipeline)大小
其 ELO 评分通过“人类对不同模型生成图像的质量排名”计算得出,直观反映模型的实际用户认可度。
2. 推理延迟:移动设备表现亮眼
上图对比了不同设备(设备名称下方标注显存/统一内存大小)运行 SD3.5-Flash 模型的推理延迟。
通过“量化技术”与“编码器 dropout 预训练”优化,该模型已可在 iPhone 上流畅运行,生成图像仅需 3.25 秒,下方为模型在 iPhone 上运行的实时屏幕录制演示。
3. 用户调研:多维度质量领先
此次用户调研规模为:124 名标注者、507 个提示词、4 组随机种子,对比了 SD3.5-Flash 与其他主流少步骤生图方法的表现。结果显示,在所有评估维度中,用户对 SD3.5-Flash 的偏好度均保持领先。
4. 端侧演示:iPhone(A17)实时生成
SD3.5-Flash 可在 iPhone(A17 芯片)上实时生成 512px 分辨率图像,下方屏幕录制视频直观展示了其在移动硬件上的速度与效率:
模型获取与更多资源
目前,SD3.5-Flash 已开放 API 调用,同时提供以下核心资源:
- API 访问:https://platform.stability.ai/docs/api-reference#tag/Generate/paths/
1v2beta1stable-image1generate1sd3/post - 技术报告:https://arxiv.org/abs/2509.21318
- 演示视频:https://youtube.com/watch?v=bFNIg-tqvLw
- 更多细节:可访问项目主页 https://hmrishavbandy.github.io/sd35flash/(含 API 使用教程等)
定性效果对比
以下为 SD3.5-Flash 与其他模型的生成效果对比,可直观感受其在细节、色彩与提示词匹配度上的表现:
Chroma1-Radiance:无 VAE 直出的高分辨率开源模型
Chroma1-Radiance 是由 @LodestoneRock 团队开发的文本生图模型,其核心特色是直接在像素空间生成图像——无需依赖 VAE(变分自编码器),从根源上减少了视觉误差,提升了生成图像的准确性。
模型核心优势:低显存占用+无 VAE 损耗
该模型在硬件适配与技术原理上有两大突破:
- 极低显存需求:对“显存不足”的用户友好,可利用 CPU 内存替代显存。测试数据显示,显存峰值从 16,139MB 降至 1,736MB(基于虚拟 MLP 前向传播测试),同时速度保持 0.99 倍(计算与通信实现完美交错)。
- 无 VAE 设计:传统生图模型需通过“ latent 空间生成→VAE 编码/解码→像素空间”流程,VAE 解码过程中不可避免会产生图像信息损耗;而 Chroma1-Radiance 直接在像素空间生成图像,既消除了 VAE 带来的误差,也让实时预览效果与最终生成结果高度一致。
目前该模型仍处于早期开发阶段,但已被不少开发者视为“生图领域极具潜力的方向”。以下为部分开发进展与效果演示:
- 开发者尝试用其生成“音乐人角色”,虽需进一步优化,但已展现出优秀的细节表现。
- 团队表示“当前模型效果已逐步提升,若想让细节进一步收敛,需延长 10 倍训练时间”,并强调其“真正端到端像素空间生成”的技术价值。
在 ComfyUI 中使用 Chroma1-Radiance
基础准备步骤
- 将 ComfyUI 更新至 0.3.60 版本
- 从官方博客下载工作流(workflow)
- 模型获取:Chroma1-Radiance(开源仓库)
授权许可
该模型采用 Apache-2.0 许可证,允许商业使用,对开发者与企业用户友好。
生成效果演示(含提示词)
以下为 Chroma1-Radiance 基于不同提示词生成的高分辨率图像,可直观感受其在细节、光影与风格还原上的表现:
案例 1:老虎面部特写(自然纪录片风格)
提示词:
This is a nature documentary close-up photograph of the right side of the face of a tiger. The photograph is centered on it’s highly detailed and speckled eye surrounded by intricately detailed fur. Overlaid at the center of the image is a title text that says “RADIANCE” in a large white 3D letters. Amateur photography. Unfiltered. Real life. Natural light. Subtle shadows.
案例 2:微型面包师制作巨型可颂(超写实微距)
提示词:
Hyperrealistic macro photograph of a team of tiny bakers—each precisely 2 inches tall—collaborating on an enormous, golden-brown croissant with flaky, layered textures. The bakers are engaged in dynamic, detailed actions: one uses a miniature wooden bucket to spread rich, creamy butter between the croissant’s layers, another climbs a thin rope ladder to evenly pipe smooth, glossy chocolate filling onto the top, and a third brushes a light egg wash with a tiny pastry brush. The scene is bathed in warm, soft kitchen lighting with cinematic depth—subtle highlights on the croissant’s golden crust, gentle shadows that emphasize texture, and a soft glow from overhead pendant lights. Floating flour dust particles catch the light, adding a sense of movement and realism, while tiny details like the bakers’ stitched cloth aprons, smudged flour on their faces, the rough wood of the worktable, and the slight sheen of melted butter on the croissant are rendered with ultra-precision. Ultra-detailed, 8K resolution, photorealistic textures, sharp focus on the bakers and croissant, shallow depth of field to blur the background slightly, rich warm color palette, lifelike proportions, and a cozy, whimsical atmosphere that balances realism with charm.
案例 3:女性肖像(华丽编织造型+暖光风格)
提示词:
A hyperrealistic, close-up portrait of a young woman with a solemn and direct gaze. She has striking, luminous amber-orange eyes, thick dark eyebrows, and a pale complexion with a prominent dusting of freckles across her nose and cheeks. Her dark brown hair is arranged in an intricate braided updo, with two thick braids falling over her shoulders, all interwoven with shimmering gold and copper-orange fabric and foil. A delicate gold chain with an ornate, dark metal, spearhead-shaped charm rests on her forehead. She is adorned with long, dangling, intricate gold earrings. She wears a high-collared, regal garment of black fabric, heavily embellished with rich gold and orange brocade-style embroidery. The lighting is soft and warm, highlighting the textures of her skin and the intricate details of her attire against a simple, muted grey-blue background.
案例 4:枯萎花朵+彩虹光晕(超现实微距)
提示词:
A surreal, high-contrast macro photograph of a small cluster of delicate, slightly withered flowers against a solid black background. Thin, green-brown stems rise from the bottom, presenting blossoms with papery, off-white and brown petals. The most striking feature is the ethereal, rainbow-colored light that emanates from the flowers like gentle flames or an aura. This translucent, iridescent glow is most prominent around the intricate, golden-tipped stamens and contains vibrant hues of purple, blue, green, yellow, and orange, creating a magical and mesmerizing effect.
更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。