5分钟阅读
就在刚刚!GPT Image 15 正式发布:是设计神器,还是挤牙膏?
GPT Image 1.5 正式发布:是设计神器,还是“挤牙膏”?
前言
对于设计师而言,每一次AI图像生成模型的迭代,都像打开了一个新的工具箱。更强的可控性、更精准的编辑能力,意味着我们能更高效地将脑海中的创意可视化,减少与“人工智障”反复拉扯的精力消耗。刚刚,OpenAI正式推出了GPT Image 1.5模型,并整合进ChatGPT的“图像”专属界面。它宣称在指令遵循、细节保留和生成速度上都有显著提升。这究竟是能真正解放设计师生产力的利器,还是一次常规的版本更新?我们整理了官方信息和第一波用户实测,带你一探究竟。
正文
OpenAI官方公告(摘要)
OpenAI正式推出了全新的图像生成模型,并集成至ChatGPT中。
核心亮点:
- 更强的指令遵循能力:能更可靠地理解你的意图。
- 精准编辑:擅长添加、删减、组合、混合、置换等多种编辑操作。
- 细节保留:在编辑过程中,能保持光线、构图、人物外貌等元素的一致性。
- 速度飞跃:生成速度比之前快4倍。
该功能即日起向所有ChatGPT用户推出,API版本为GPT Image 1.5。
1. 精准编辑
新模型擅长多种编辑类型,可以在实现你想要的变化的同时,保留图像原有的精髓。

2. 创意转换
模型的创造力在改变和添加元素(如文本和版式)的转换中得以展现,能将想法生动呈现,同时保留重要细节。无论是简单还是复杂的概念,都可以在ChatGPT新的图像功能中,使用预设样式和创意轻松尝试,无需编写提示词。

3. 指令遵循
模型比初始版本更能可靠地遵循指令。这使得编辑更加精确,也能创作出更复杂的原始构图,元素之间的关系能按预期保留。

4. 文本渲染
模型在文本渲染能力上更进一步,能够处理更密集、更小的文字。

5. 其他质量改进
模型在其他维度也有所改进,使得输出结果更可直接使用,例如在渲染多个小面孔以及使输出看起来更自然方面。

全新的创作空间 除了通过在消息中描述来生成图像,我们还在ChatGPT中引入了一个专门的图像主页(可通过移动应用侧边栏或chatgpt. com访问),让探索和尝试图像变得更快捷、更容易。它包含数十种预设滤镜和提示词,可快速激发灵感,并会定期更新以反映新兴趋势。
改进与局限
我们重新运行了初始图像生成发布时的许多示例以评估性能。模型在一系列案例中显示出明显的改进,但结果仍不完美。虽然此次发布代表了有意义的进展,但在未来的迭代中仍有巨大的改进空间。

网友评测
模型发布后,网友们迅速将其与当前备受瞩目的竞品Nano Banana Pro(基于Gemini 3 Pro)进行了多轮对比测试。
核心结论:GPT Image 1.5在创意美学、UI/网页设计感、指令理解深度和编辑一致性上表现突出,尤其在需要“设计感”和“风格化”的场景中更受青睐。然而,在多语言文本渲染准确性(特别是中文/日文)、复杂世界知识(如历史建筑规则)、照片级真实感细节及性价比方面,Nano Banana Pro目前仍占据优势。这是一场“设计师的直觉”与“工程师的严谨”之间的有趣较量。
评测1:概念海报设计
@CharaspowerAI
提示词:“创建一张列出摄影中主要灯光设置及其示例的海报。”
结论:GPT Image 1.5可以生成一些非常酷的视觉概念。

评测2:多物体组合与特征保持
@ZHO_ZHO_ZHO
使用非常规设计物体测试多物体组合和特征保持能力。
结论:还原度和质感不错,但细节仍有欠缺,且漏掉了提示词中的“包包”。

评测3:提示词依赖与性价比
@Jake_Joseph
认为提示词技巧非常重要,GPT Image 1.5能产出一些非常棒的结果。
但同时指出,它比Nano Banana Pro和Seedream 4.5更贵,且不支持4K输出。

评测4:历史文化准确性(故宫)
@MissMi1973 提示词:“将故宫呈现为3D卷轴画。”
- Nano Banana Pro:更好地尊重了历史准确性和建筑逻辑(得益于Gemini 3 Pro和谷歌搜索知识库)。严格遵守了中轴线对称等核心设计原则。
- GPT Image 1.5:完全违反了故宫核心设计原则,建筑未按中轴线对称排列,且所有中文字符都是错误的。但其在创意、氛围(水墨感、流动感)和色彩上更胜一筹,更具想象力和艺术感染力。
作者认为,这体现了ChatGPT不可替代的创意直觉和细腻触感,但也暴露出其在常识和推理上的短板。

评测5:多功能演示
@minchoi
展示了GPT Image 1.5的多种能力:精准时尚编辑、风格转换、结合文本的照片级图像、物品组合、带准确文本的动漫漫画板、历史图像生成等。

评测6:场景真实感(时代广场)
@flavioAd 提示词:“新年夜时代广场高度详细的鸟瞰照片,人群拥挤,广告牌发光,空气中有彩带,夜间潮湿沥青上有真实反光。”
- Nano Banana Pro:被普遍认为更真实、更详细、更具电影感。
- GPT Image 1.5:被部分用户认为色调偏黄(“黄色滤镜”),看起来更戏剧化、更艺术化。

评测7:多语言文本渲染深度分析(日语)
@tetumemo 深度分析了为何Nano Banana Pro能生成“美丽的日语”,而GPT Image 1.5却不行。 核心观点:
- 设计哲学不同:Nano Banana Pro基于Gemini 3 Pro构建,“理解语言的大脑”和“绘画的手”从一开始就是一体化的,先深度理解语义、文化和语境再渲染。传统图像模型更接近“关键词匹配”。
- 数据资产厚度:谷歌拥有20多年积累的全球多语言数据(搜索、翻译、字幕、字体等),对于日语这种字符体系复杂的语言,数据质量和数量直接决定输出效果。
- 字体工程知识:谷歌自身开发过Noto Sans JP等字体,对“文字之美”有工程化理解。
- 技术架构:Nano Banana Pro的“GemPix 2”渲染引擎将文本视为“有意义的信息”而非“图像的一部分”。
- 商业优先级:日语市场对谷歌是“必须”,对OpenAI目前可能是“锦上添花”。

评测8:UI/网页设计感
@aziz4ai 提示词:“以苹果风格为耐克创建一个外观简洁的网站,放置相关元素,采用强有力的设计,比例4:5。”
- GPT Image 1.5:在UI美学和提示词理解(“苹果风格”)上被多数人认为胜出,设计更现代、简约。
- Nano Banana Pro:被认为更像耐克现有网站,视觉层次和对齐更舒适连贯,但创新性稍弱。

评测9:复杂场景与中文
@sundyme
测试了一个复杂场景。
结论:两者差距明显。GPT Image 1.5在人物面部一致性和中文识别上仍存在问题,没有Nano Banana Pro发布时那么惊艳。

评测10:一致性编辑
@aDeViliNMe
展示了强大的图像编辑和风格一致性保持能力,如同一个人化了不同程度的妆。

写在最后
对于设计师来说,GPT Image 1.5的发布带来了一个更高效、更“听话”的创意伙伴。它在风格化输出、创意发散和迭代编辑上的优势,非常适合用于头脑风暴、概念稿绘制和快速视觉风格探索。然而,当项目涉及严格的多语言排版、基于真实世界知识的精准描绘,或追求极致的照片真实感时,你可能仍需借助其他工具。
这并非简单的孰优孰劣,而是选择的不同维度。最好的策略或许是“兼收并蓄”:用GPT Image 1.5激发灵感、探索风格,用Nano Banana Pro完善细节、确保准确。AI工具正在分化出不同的个性,而设计师的核心能力,正逐渐演变为如何精准地选择并驾驭这些个性,让它们共同服务于最终的创意愿景。
更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。