5 min read
三个近期值得关注的AI技术

前言
hello,很快又到周末了,🍻。其实最近我一直关注FLUX模型相关的生态和应用,总想搞一个ComfyUI的工作流出来,但无奈其controlnet、ipa等生态还不是太完善,而能衍生出来的辅助设计的工作流跟SDXL又大同小异,所以我就专心去搞Figma插件去了😂。
但是AI的进步,是日新月异,稍不留神就会错过什么🥱,今天为大家整理三个值得关注的技术,看看后面如何应用到设计中来。
三个AI技术
- VideoSys:一种新的AI生成视频方案
- 3DTopia XL:通过原始扩散扩展高质量3D资产生成
- LVCD:更稳定的基于参考的扩散模型线性视频着色
VideoSys
项目地址:
https://github.com/NUS-HPC-AI-Lab/VideoSys
该项目由新加坡国立大学和普渡大学团队创建。
介绍
VideoSys 是一个开源项目,旨在为用户提供友好且高性能的视频生成基础设施。这个综合工具包将支持从训练、推理到服务和压缩的整个流程。
方法
PAB 是首个实现基于 DiT 的实时视频生成的方法,提供无损质量且无需任何训练。通过减少冗余的注意力计算,PAB 在不牺牲质量的情况下,实现了高达 21.6 FPS 的速度提升,具有 10.6 倍的加速效果,适用于包括 Open-Sora、Latte 和 Open-Sora-Plan 在内的流行 DiT 基础的视频生成模型。
动态序列并行(DSP)
DSP 是一种新颖、优雅且超级高效的序列并行方法,适用于 Open-Sora、Latte 和其他多维变压器架构。
与现有的序列并行方法(DeepSpeed Ulysses)相比,它在 Open-Sora 中实现了训练速度提高 3 倍,推理速度提高 2 倍。对于 10 秒(80 帧) 512x512 的视频,Open-Sora 的推理延迟为:
方法 | 1xH800 | 8xH800(DS Ulysses) | 8xH800(DSP) |
---|---|---|---|
延迟(秒) | 106 | 45 | 22 |
应用
KoolCogVideoX 是该视频技术的一个应用。目前用于室内效果视频生成,效果不错。
demo地址:https://huggingface.co/spaces/bertjiazheng/KoolCogVideoX
生成的效果:
A modern living room with a minimalist design, featuring a white sofa, a marble coffee table, a geometric painting, and a chandelier hanging from the ceiling. The room is well-lit with natural light, and the color scheme is neutral with accents of gold and black. The furniture is arranged in a way that creates a comfortable and inviting space.
A modern living room with a minimalist design, featuring a large window, a white ceiling, and a wooden floor. The room is furnished with a white sofa, a gray ottoman, a wooden table, and a hanging light. The space is well-lit and has a clean, contemporary aesthetic.
A modern bedroom with a minimalist design, featuring a large bed with a gray comforter and a blue blanket, a white dresser with a mirror, and a white closet. The room is decorated with framed artwork and a black and white poster on the wall. The floor is made of light wood, and the room has a clean and contemporary feel.
A modern kitchen with a sleek design, featuring a marble countertop, stainless steel appliances, and a variety of bottles and glasses. The kitchen is well-lit with recessed lighting and has a contemporary aesthetic.
3DTopia XL
优化后的3DTopia-XL:高质量3D PBR资产生成
1. 模型架构和表示方法
- PrimX表示:3DTopia-XL采用PrimX作为其核心3D表示方法,这种表示方法不仅具有高度的表现力,还能在保持计算效率的同时捕捉复杂的3D结构。PrimX的优势在于其能够精确地再现细节,同时保持高效的计算性能。
- 扩散变压器(DiT):DiT作为生成模型,通过其独特的架构设计,能够在短短5秒内完成去噪过程,生成高质量的3D资产。这种快速的去噪能力使得3DTopia-XL在实时应用中具有显著优势。
2. 生成质量和效率
- 生成质量:生成的3D PBR资产质量卓越,能够直接无缝集成到图形管道中。这表明模型在捕捉细节和纹理方面表现出色,生成的资产具有高度的真实感和细节。
- 生成效率:5秒的去噪时间极大地提升了生成效率,特别是在需要快速生成大量3D资产的场景中,如游戏开发、虚拟现实和增强现实等领域。
3. 输入和输出
- 输入:模型支持从文本和图像输入生成3D资产,这种多模态输入方式极大地增加了模型的灵活性和应用范围。用户可以通过简单的文本描述或图像输入,快速生成所需的3D资产。
- 输出:生成的3D资产可以直接用于图形管道,无需进一步处理。这不仅简化了工作流程,还确保了生成的资产能够立即投入使用。
演示链接:3DTopia-XL Demo 模型链接:3DTopia-XL Model
LVCD
基于参考的线稿视频上色扩散框架
我们提出了第一个基于参考的线稿视频上色的扩散框架。与之前依赖单独的图像生成模型逐帧上色线稿的方法不同,我们的方法利用了一个大规模预训练的视频扩散模型来生成上色的动画视频。这种方法能够产生时间上更一致的结果,并且更能处理大幅度运动。
1. Sketch-guided ControlNet
我们引入了Sketch-guided ControlNet,它提供了额外的控制来微调一个图像到视频的扩散模型,以实现可控的视频合成,从而能够基于线稿生成动画视频。
2. Reference Attention
我们提出了Reference Attention,以促进颜色从参考帧传递到包含快速和广泛运动的其他帧。
3. 顺序采样方案
我们提出了一种新的顺序采样方案,结合了重叠混合模块和前参考注意力,以扩展视频扩散模型在长视频上色中的原始固定长度限制。
定性和定量结果
定性和定量结果均表明,我们的方法在帧和视频质量以及时间一致性方面显著优于现有技术。此外,我们的方法能够生成高质量、长时间一致的大幅度运动动画视频,这在之前的工作中是无法实现的。
进一步优化的方法
-
多层次和动态控制:
- 在不同层次上引入线稿信息,并结合动态控制机制,使得模型能够根据线稿的变化动态调整生成过程。
-
多尺度注意力:
- 引入多尺度注意力机制,使得模型能够在不同尺度上捕捉和传递颜色信息,从而提高细节和全局一致性。
-
动态参考帧选择:
- 动态选择参考帧,使得模型能够根据当前帧的内容和运动情况选择最合适的参考帧,从而提高颜色传递的准确性。
-
自适应采样和多阶段采样:
- 引入自适应采样机制,使得模型能够根据视频内容和运动情况动态调整采样策略,并结合多阶段采样,逐步细化生成结果。
-
用户研究和多样性评估:
- 引入用户研究,通过用户反馈进一步优化模型,并引入多样性评估指标,确保生成结果不仅质量高,而且具有多样性。
通过这些改进,可以进一步提升模型的性能,特别是在处理复杂场景和细节时,生成更高质量、更一致的动画视频。
效果
对于视频转绘(线条到视频),从效果上看,这个方法是很稳定的,质量也很好。
更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz00。