WithAI.Design

5 min read

又整活了!三条AI前沿技术WaveSpeed、TransPixar、GeminiSearch

又整活了!三条AI前沿技术WaveSpeed、TransPixar、GeminiSearch

前言

真是一日不见如过三秋!这几天 AI 界又出了几个较为重磅的消息。

  1. FLUX 加速技术 WaveSpeed,支持 ComfyUI,实测速度感人!
  2. Adobe 发布和开源了TransPixar 可以生成透明背景视频素材
  3. 开源的 Gemini-Search,效果媲美官方的Google Research

作为实践和行动派的小编,跟大家同步这些信息的同时,也会帮大家实测一下,看是不是有其宣传的功效😎。

FLUX 加速技术 WaveSpeed

项目地址:https://github.com/chengzeyi/ParaAttention

技术原理

具体的技术原理,大家可以到项目中看看。

我尝试整理资料,通俗解释一下,不一定准确哈~😂。

一种让AI模型跑得更快的新技术,主要针对一类叫做“DiT模型”的AI,这种模型常用于生成图像和视频。 想象一下,你在厨房里准备一道复杂的菜,这篇文章就像是教你如何更高效地完成它。 核心思想:让多个“厨师”一起做菜,并且学会偷懒。

1. Context Parallel Attention (上下文并行注意力) - 多人协同做菜:

  • 问题: 传统的AI模型在生成图像或视频时,就像一个厨师按部就班地完成所有步骤,很耗时间。
  • 解决方法: 把任务分解成小块,让多个“厨师”(可以理解为多个GPU,也就是电脑的处理器)同时进行。就好比切菜、炒菜、调味等步骤可以同时进行。
  • 具体做法: 他们发明了一种叫做 “ParaAttention” 的技术,可以把模型中的关键部分(叫做“注意力层”)拆分,让不同的GPU并行计算。 他们还提供了两种不同的拆分方法,叫做 “Ulysses Style” 和 “Ring Style”,可以根据不同的情况选择最快的方式。 他们甚至能把这两种方式结合起来,达到更好的效果。
  • 简化理解: 就像组建一个厨房团队,每个人负责一部分工作,一起更快地完成菜肴。

2. First Block Cache (第一个模块缓存) - 聪明地偷懒:

  • 问题: AI模型在生成图像或视频的过程中,有些计算可能是重复的,浪费时间。
  • 解决方法: 他们受到一些“缓存”技巧的启发,发明了一种叫做 “FBCache” 的方法。 这个方法会观察模型运行的“第一个步骤”(就像做菜的第一个准备工作),如果发现和上次很像,就直接跳过后面的很多重复步骤,直接使用上次的结果。
  • 形象比喻: 就像你已经做了很多次炒鸡蛋了,如果这次发现鸡蛋和上次的差不多,你就可以直接跳过打鸡蛋、放油等步骤,直接用上次的经验。
  • 可调节的“偷懒”程度: 你可以设置一个“阈值”,来决定多像的情况下才“偷懒”。 阈值越高,偷懒越多,速度越快,但可能稍微影响最终效果。

出了 flux 模型,Huanyuan 也支持加速。

测试

项目作者提供了 ComfyUI 的使用方法,通过插件方式,即可达到加速效果。ComfyUI 插件地址:https://github.com/chengzeyi/Comfy-WaveSpeed

以下数据仅为初测,我就不做更严谨的测试了,各位将就看看

基准:

  1. 使用 FP8 FLUX 模型,
  2. 在模型都加载到内存开始测试,
  3. 步数为 28。
  4. 分辨率:1024 x1024
  5. 设备:4090
  6. 跑三次

提示语:

A  25 year old janese girl with dark long hair, she is wearing a orange tank top and a necklace. She is holding a white paper with the word "SJXZ 00" written on it in black letters. In the dark with dim light,

FLUX 原生:

用时 14.52 、15.73、 17.81,平均 16.02

WaveSpeed 加速

用时 9.53 、9.77、 8.49,平均 9.26 秒!速度提升 42%,🤯。 而且不同于 LoRA 加速,画质上看,是完全无损的,基本可以确定,这个方法可用!后面就需要多测试一些场景,已经跟其他第三方模型的兼容性了。

第三方模型

测试了一下最新的麦橘模型,质量也是很好的👍。

分辨率 1536 x 768 仅需 9.63 秒,而 2304 x 1152只需要 23.75 秒!

加载 lora 也是可以加速的。

至于 Hunyuan 我就不测试了,各位看官可以看看!

透明背景视频生成 TransPixar

项目介绍

项目地址:https://github.com/wileewang/TransPixar 体验地址:https://huggingface.co/spaces/wileewang/TransPixar

TransPixar,它的目标是让现有的文本生成视频的AI模型,也能够生成带有透明通道 (alpha channel) 的视频。这种带有透明通道的视频格式叫做 RGBA

01.gif

为什么透明度很重要?

  • 视觉特效 (VFX): 透明度是电影、游戏等领域制作特效的关键。 它可以让不同的视觉元素自然地叠加在一起,比如把爆炸的火焰叠加到背景画面上,或者让一个虚拟的角色看起来像是真实地站在场景中。
  • 更丰富的创意表达: 有了透明度,创作者可以制作出更具层次感和想象力的视频内容。

TransPixar 是怎么做的?

TransPixar 并没有从零开始创建一个全新的AI模型,而是巧妙地在现有的优秀模型基础上进行改进。 你可以把它想象成给一个原本只会画普通画的画家,教他如何画出带有透明效果的图层。

文章中提到了以下几个关键点:

  • 基于现有模型优化: TransPixar 基于一种叫做 diffusion transformer (DiT) 的AI模型架构。 这意味着它利用了现有模型的优点。
  • 加入“透明”指令: TransPixar 在模型中引入了专门处理透明度的指令,就像告诉画家“这里需要画成半透明的”。 这些指令可以理解为 alpha-specific tokens
  • 精细微调: 他们使用了一种叫做 LoRA-based fine-tuning 的技术来训练模型,让模型学会如何同时生成正常的彩色画面(RGB)和透明度信息(alpha channel),并且保证两者高度一致。 这就像训练画家,让他画出的透明部分恰好对应着画面上的物体,不会出现错位。
  • 优化“注意力”机制: 模型在生成视频时,会“注意”到画面中的不同部分。 TransPixar 对这种“注意力”机制进行了优化,确保模型在生成透明效果时,能够关注到正确的区域,比如物体的边缘和轮廓。

TransPixar 的优势:

01.gif

  • 保留原有能力: TransPixar 不仅能生成带有透明度的视频,还能像原来的模型一样生成正常的彩色视频。 就像教会画家新技能,但不会让他忘记原本的画法。
  • 透明度和画面高度一致: 由于是同时生成彩色和透明度信息,TransPixar 生成的视频,其透明部分与画面内容高度匹配,看起来非常自然。
  • 对少量数据也能有效: 训练生成透明视频的AI模型需要大量的带有透明度标注的数据,而这类数据并不多。 TransPixar 的方法即使在训练数据有限的情况下,也能取得不错的效果。

实际应用:

有了 TransPixar 这样的技术,未来我们可以更方便地使用AI生成各种带有精美透明特效的视频,比如:

  • 制作更酷炫的视觉特效: 轻松生成带有真实感烟雾、火焰、水花等特效的视频。
  • 创建互动性更强的虚拟内容: 比如,在虚拟现实或增强现实场景中,可以生成能够与其他元素自然融合的透明物体。

01.gif

实测效果

提示语:

Gold coins scattered throughout the sky, along with five colored ribbons, shimmering with golden light

至于合成效果嘛,我还没测试,分辨率可能有点低,作为辅助素材,应该是没问题的。

让我惊讶的是,作为闭源大户Adobe 这次很大方地开源了这个技术(当然,背后有中国团队!)!

Gemini-Search 的开源方案

Google Research,是 google 推出的可以联网搜索的 AI应用,

有些网友戏称:在 Google Research面前,Perplexity 就像个玩具!😂

确实,用过他的人都有惊掉下巴的感叹!

无奈,将近 20 美元的订阅费,我是暂时用不起了,所以,今天介绍平替产品:Gemini-Search。项目地址:https://github.com/ammaarreshi/Gemini-Search

400145481-2302898e-03ae-40a6-a16c-301d6b91c5af.gif

本地部署

项目中有详细介绍,这里简单列一下:

  1. 克隆存储库:

    git clone https://github.com/ammaarreshi/Gemini-Search.git
    cd Gemini-Search
    
  2. 安装依赖项:

    npm install
    
  3. .env在根目录中创建文件:

    GOOGLE_API_KEY=your_api_key_here
    
  4. 启动开发服务器:

    npm run dev
    
  5. 打开浏览器并导航至:

    http://localhost:3000
    

对了,需要付费版的 Gemini API,免费版的不行,因为需要调用搜索接口。

注意:因为使用搜索接口,会产生费用,按照 google 的计费规则,约每次 0.25 刀!

我给出了命题 webgl 的新技术趋势,他会根据命题,进行互联网搜索,然后整理成答案。

另一个命题:# 研究AI生成3D的技术和趋势

同样结合互联网,给出了一些简介!

但是,至于效果是否等同于 Google 的 deep search,我囊中羞涩,就不做对比了,各位可以试试!

好,今天就介绍这些,祝大家周末愉快!!

更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz 00。

标签