5 min read
又整活了!三条AI前沿技术WaveSpeed、TransPixar、GeminiSearch

前言
真是一日不见如过三秋!这几天 AI 界又出了几个较为重磅的消息。
- FLUX 加速技术 WaveSpeed,支持 ComfyUI,实测速度感人!
- Adobe 发布和开源了TransPixar 可以生成透明背景视频素材
- 开源的 Gemini-Search,效果媲美官方的Google Research
作为实践和行动派的小编,跟大家同步这些信息的同时,也会帮大家实测一下,看是不是有其宣传的功效😎。
FLUX 加速技术 WaveSpeed
项目地址:https://github.com/chengzeyi/ParaAttention
技术原理
具体的技术原理,大家可以到项目中看看。
我尝试整理资料,通俗解释一下,不一定准确哈~😂。
一种让AI模型跑得更快的新技术,主要针对一类叫做“DiT模型”的AI,这种模型常用于生成图像和视频。 想象一下,你在厨房里准备一道复杂的菜,这篇文章就像是教你如何更高效地完成它。 核心思想:让多个“厨师”一起做菜,并且学会偷懒。
1. Context Parallel Attention (上下文并行注意力) - 多人协同做菜:
- 问题: 传统的AI模型在生成图像或视频时,就像一个厨师按部就班地完成所有步骤,很耗时间。
- 解决方法: 把任务分解成小块,让多个“厨师”(可以理解为多个GPU,也就是电脑的处理器)同时进行。就好比切菜、炒菜、调味等步骤可以同时进行。
- 具体做法: 他们发明了一种叫做 “ParaAttention” 的技术,可以把模型中的关键部分(叫做“注意力层”)拆分,让不同的GPU并行计算。 他们还提供了两种不同的拆分方法,叫做 “Ulysses Style” 和 “Ring Style”,可以根据不同的情况选择最快的方式。 他们甚至能把这两种方式结合起来,达到更好的效果。
- 简化理解: 就像组建一个厨房团队,每个人负责一部分工作,一起更快地完成菜肴。
2. First Block Cache (第一个模块缓存) - 聪明地偷懒:
- 问题: AI模型在生成图像或视频的过程中,有些计算可能是重复的,浪费时间。
- 解决方法: 他们受到一些“缓存”技巧的启发,发明了一种叫做 “FBCache” 的方法。 这个方法会观察模型运行的“第一个步骤”(就像做菜的第一个准备工作),如果发现和上次很像,就直接跳过后面的很多重复步骤,直接使用上次的结果。
- 形象比喻: 就像你已经做了很多次炒鸡蛋了,如果这次发现鸡蛋和上次的差不多,你就可以直接跳过打鸡蛋、放油等步骤,直接用上次的经验。
- 可调节的“偷懒”程度: 你可以设置一个“阈值”,来决定多像的情况下才“偷懒”。 阈值越高,偷懒越多,速度越快,但可能稍微影响最终效果。
出了 flux 模型,Huanyuan 也支持加速。
测试
项目作者提供了 ComfyUI 的使用方法,通过插件方式,即可达到加速效果。ComfyUI 插件地址:https://github.com/chengzeyi/Comfy-WaveSpeed
以下数据仅为初测,我就不做更严谨的测试了,各位将就看看
基准:
- 使用 FP8 FLUX 模型,
- 在模型都加载到内存开始测试,
- 步数为 28。
- 分辨率:1024 x1024
- 设备:4090
- 跑三次
提示语:
A 25 year old janese girl with dark long hair, she is wearing a orange tank top and a necklace. She is holding a white paper with the word "SJXZ 00" written on it in black letters. In the dark with dim light,
FLUX 原生:
用时 14.52 、15.73、 17.81,平均 16.02
秒
WaveSpeed 加速
用时 9.53 、9.77、 8.49,平均 9.26 秒!速度提升 42%,🤯。 而且不同于 LoRA 加速,画质上看,是完全无损的,基本可以确定,这个方法可用!后面就需要多测试一些场景,已经跟其他第三方模型的兼容性了。
第三方模型
测试了一下最新的麦橘模型,质量也是很好的👍。
分辨率 1536 x 768 仅需 9.63 秒,而 2304 x 1152只需要 23.75 秒!
加载 lora 也是可以加速的。
至于 Hunyuan 我就不测试了,各位看官可以看看!
透明背景视频生成 TransPixar
项目介绍
项目地址:https://github.com/wileewang/TransPixar 体验地址:https://huggingface.co/spaces/wileewang/TransPixar
TransPixar,它的目标是让现有的文本生成视频的AI模型,也能够生成带有透明通道 (alpha channel) 的视频。这种带有透明通道的视频格式叫做 RGBA。
为什么透明度很重要?
- 视觉特效 (VFX): 透明度是电影、游戏等领域制作特效的关键。 它可以让不同的视觉元素自然地叠加在一起,比如把爆炸的火焰叠加到背景画面上,或者让一个虚拟的角色看起来像是真实地站在场景中。
- 更丰富的创意表达: 有了透明度,创作者可以制作出更具层次感和想象力的视频内容。
TransPixar 是怎么做的?
TransPixar 并没有从零开始创建一个全新的AI模型,而是巧妙地在现有的优秀模型基础上进行改进。 你可以把它想象成给一个原本只会画普通画的画家,教他如何画出带有透明效果的图层。
文章中提到了以下几个关键点:
- 基于现有模型优化: TransPixar 基于一种叫做 diffusion transformer (DiT) 的AI模型架构。 这意味着它利用了现有模型的优点。
- 加入“透明”指令: TransPixar 在模型中引入了专门处理透明度的指令,就像告诉画家“这里需要画成半透明的”。 这些指令可以理解为 alpha-specific tokens。
- 精细微调: 他们使用了一种叫做 LoRA-based fine-tuning 的技术来训练模型,让模型学会如何同时生成正常的彩色画面(RGB)和透明度信息(alpha channel),并且保证两者高度一致。 这就像训练画家,让他画出的透明部分恰好对应着画面上的物体,不会出现错位。
- 优化“注意力”机制: 模型在生成视频时,会“注意”到画面中的不同部分。 TransPixar 对这种“注意力”机制进行了优化,确保模型在生成透明效果时,能够关注到正确的区域,比如物体的边缘和轮廓。
TransPixar 的优势:
- 保留原有能力: TransPixar 不仅能生成带有透明度的视频,还能像原来的模型一样生成正常的彩色视频。 就像教会画家新技能,但不会让他忘记原本的画法。
- 透明度和画面高度一致: 由于是同时生成彩色和透明度信息,TransPixar 生成的视频,其透明部分与画面内容高度匹配,看起来非常自然。
- 对少量数据也能有效: 训练生成透明视频的AI模型需要大量的带有透明度标注的数据,而这类数据并不多。 TransPixar 的方法即使在训练数据有限的情况下,也能取得不错的效果。
实际应用:
有了 TransPixar 这样的技术,未来我们可以更方便地使用AI生成各种带有精美透明特效的视频,比如:
- 制作更酷炫的视觉特效: 轻松生成带有真实感烟雾、火焰、水花等特效的视频。
- 创建互动性更强的虚拟内容: 比如,在虚拟现实或增强现实场景中,可以生成能够与其他元素自然融合的透明物体。
实测效果
提示语:
Gold coins scattered throughout the sky, along with five colored ribbons, shimmering with golden light
至于合成效果嘛,我还没测试,分辨率可能有点低,作为辅助素材,应该是没问题的。
让我惊讶的是,作为闭源大户Adobe 这次很大方地开源了这个技术(当然,背后有中国团队!)!
Gemini-Search 的开源方案
Google Research,是 google 推出的可以联网搜索的 AI应用,
有些网友戏称:在 Google Research面前,Perplexity 就像个玩具!😂
确实,用过他的人都有惊掉下巴的感叹!
无奈,将近 20 美元的订阅费,我是暂时用不起了,所以,今天介绍平替产品:Gemini-Search。项目地址:https://github.com/ammaarreshi/Gemini-Search
本地部署
项目中有详细介绍,这里简单列一下:
-
克隆存储库:
git clone https://github.com/ammaarreshi/Gemini-Search.git cd Gemini-Search
-
安装依赖项:
npm install
-
.env
在根目录中创建文件:GOOGLE_API_KEY=your_api_key_here
-
启动开发服务器:
npm run dev
-
打开浏览器并导航至:
http://localhost:3000
对了,需要付费版的 Gemini API,免费版的不行,因为需要调用搜索接口。
注意:因为使用搜索接口,会产生费用,按照 google 的计费规则,约每次 0.25 刀!
我给出了命题 webgl 的新技术趋势
,他会根据命题,进行互联网搜索,然后整理成答案。
另一个命题:# 研究AI生成3D的技术和趋势
同样结合互联网,给出了一些简介!
但是,至于效果是否等同于 Google 的 deep search,我囊中羞涩,就不做对比了,各位可以试试!
好,今天就介绍这些,祝大家周末愉快!!
更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz 00。