同学们，真的跟不上、学不完啊！AI技术日新月异，各种新产品、新技术不断涌现，哪怕不关注一天，就如同隔了一个时代，毫不夸张的说。最近各个大厂、前沿科技公司，纷纷发布了在AI领域的新技术和方法，设计小站也带大家整理以以下。

信息要点

有以下几点信息：

🖼️ SD3发布。但仅限于API调用，还有点小贵，虽然比MJ便宜了点
🗣️ 阿里EMO正式发布在线体验版本。这估计是不会开源的节奏啊
👾 HiDiffusion代码发布。无需训练，一行代码提升SD的生产图像尺寸和速度。论速度还得是字节啊。
💅 Hyper-SD。还是字节，还是在提升SD速度方面的研究，实时绘画更接近可用了。接下来一个个看

SD3发布

关于SD3，网上已经有太多信息和介绍了，所以设计小站近期没有趁热度发布相关文章，倒是之前有发布过一期：# 【AI辅助设计】很能打！SD3的最新动向。但这期因为是大杂烩，所以不得不提一下，毕竟是开源界赛博佛祖的新闻。正如大家期待的，SD3在图片生成质量、提示语的理解、以及文字生成方面，得益于Sora同款的DIT技术，都得到了质的飞跃。

SD3的最终效果

关于SD3的效果，网上很多博主已经po出了高质量的图，效果拉满了。

@Emm 使用同一个提示词，跟SDXL和SD3的出图对比：

如何使用？

目前SD3只支持API的方式调用，是需要付费的。API地址：https://platform.stability.ai/

阿里EMO

相信之前被EMO刷屏的朋友们都很期待，这是之前放出的视频：

—视频号—

之所以EMO的效果如此自然,是因为他们在算法设计上有一些创新。他们摒弃了针对人脸的显式建模,而是采用了一些相对较弱的控制条件,让diffusion模型自主学习表情和动作,从而保留了模型强大的生成能力。同时,他们还加入了face locator和speed layers,精细控制人脸区域和动作频率,进一步提升了生成效果。

在表情和口型的一致性方面,EMO的模型通过大量训练数据,找到了音频特征与图像像素之间的对应关系,让人物表情和口型能够与音频完美同步。更重要的是,模型还学会了将语气特征和情绪色彩传达到人物的微表情中,使整体效果更加自然生动。

体验的申请地址，我没有验证过，打开还是404错误，所以就不贴上了，大家还是继续期待吧。但是官方也确实已经开放了在线体验了。

HiDiffusion

不得不说，字节在“快”，这上面，是独步天下。之前我们介绍过SDXL-Lightning模型# 【AI辅助设计】就在刚刚！字节发布SDXL-lightning！没有最快只有更快！，速度飞快，这次又推出了HiDiffusion。

HiDiffusion简介

无需经过繁琐的训练过程，只需一行代码即可显著提升SD图像生成的清晰度和速度。 HiDiffusion框架支持将图像生成的分辨率提高至4096×4096，并将生成速度提升1.5至6倍。同时兼容所有SD模型及其下游应用，如Playground。

官方的介绍：

在尝试使用已经训练好的扩散模型生成更高分辨率图像时，我们常常会遇到图像中对象重复的问题，同时生成时间也会大幅增加。通过研究，我们发现这种对象重复现象是由于U-Net模型深层特征的重复所致。此外，我们还发现U-Net顶层自注意力机制的冗余操作导致了生成时间的增加。为了解决这些问题，我们提出了HiDiffusion框架，一种无需额外调整的高分辨率生成框架。