5 min read
指哪打哪!开源的视频控制技术!
【AI前沿】指哪打哪!开源的视频控制技术!
前言
还记得之前 Runway 已经展示过的惊艳技术吗? 通过简单的绘制蒙版和路径,就能让物体在视频中灵动自如地运动。然而,Runway 毕竟是闭源的,想要体验这项魔法,就得掏出真金白银支付昂贵的订阅费。但今天,我要告诉你一个振奋人心的好消息! Netflix 竟然开源了一个项目,它也能实现类似甚至更强大的功能,而且效果简直令人惊艳!
哇哦… Netflix 刚刚震撼发布了一款 AI 视频生成器!它能让你通过精确的 关键帧 来操控物体的动画,简直太疯狂了!这绝对是 AI 领域的一大创举!想知道它是如何运作的吗? 让我们一探究竟:
项目介绍
项目地址:https://github.com/Eyeline-Research/Go-with-the-Flow?tab=readme-ov-file
摘要
Go-with-the-Flow 是一个 简易高效 的工具,旨在 精准控制视频扩散模型中的运动模式。它赋予用户掌控场景中 相机和物体运动方式 的能力,甚至能让你 将一个视频的运动模式迁移到另一个视频上,创造出意想不到的炫酷效果!
其核心原理非常优雅: 我们仅仅对基础模型进行了 微调 —— 无需改动原有的流程或架构,唯一的创新之处在于: 我们没有使用纯粹的独立同分布 (i.i.d.) 高斯噪声,而是巧妙地引入了 “扭曲噪声 (warped noise)”。 更令人惊喜的是,推理过程的计算成本与运行基础模型 完全一致!
用途
- 认识 Go-with-the-Flow AI 模型: 它的重要性在哪里? - 关键帧物体动画 - 运动迁移 - 精 Camera 准相机控制 - Cut and Drag 动画 - 转盘动画
- Cut-and-drag 动画 (图像转视频 I 2 V): 只需 粗略地勾勒出物体的轮廓,就能将其作为运动引导。从初始帧出发,它将生成一个 流畅而逼真的视频,完美跟随你拖拽的运动轨迹,赋予画面活力!
-
首帧编辑 (图像转视频 I 2 V): 从原始视频和 编辑后的首帧 开始,这款工具能 无缝地将你的编辑效果应用到整个视频 中,并在保持原始运动的基础上,确保画面风格的 高度一致性。
-
转盘相机运动迁移: 它巧妙地利用 3 D 渲染的转盘相机运动 作为引导,效果 远超基线 MotionClone。它所创造的场景拥有 更出色的 3 D 一致性,并能忠实地 遵循相机运动轨迹,让画面更具专业感。
-
Davis 运动迁移 (文本转视频 T 2 V): 它将 原始视频 作为运动信号,并结合 全新的目标提示词 来引导输出。其挑战在于生成既能 匹配目标提示词,又能 保留原始视频运动 的视频,实现内容与形式的完美统一。
-
运动控制:WonderJourney (图像转视频 I 2 V): 它结合 图像到视频模型 与 单目深度估计 技术,将 单张图像 转化为 连贯的 3 D 场景。赋予静态照片以动态生命力,让想象力自由驰骋!
-
重打光与超分辨率: 这里展示了 不同的噪声扭曲和插值技术 在实际应用中的效果对比, DiffRelight 的重打光 与 DeepFloyd Stage II 的超分辨率 并驾齐驱,展现强大的图像增强能力。
如何使用?
源码使用
1. Animation Template GUI (本地)
- 克隆代码仓库 到本地,然后使用
cd
命令 进入项目目录。git clone https://github.com/Eyeline-Research/Go-with-the-Flow.git cd Go-with-the-Flow
- 安装本地所需依赖:
pip install -r requirements_local.txt
- 运行 GUI 图形界面:
python cut_and_drag_gui.py
- 根据 GUI 界面上的指示进行操作。
操作完成后,将会生成一个 MP 4 视频文件。你需要将此文件 转移到配备高性能 GPU 的计算机上 进行后续步骤。
2. 运行视频扩散 (GPU)
- 在 配备 GPU 的机器上克隆代码仓库,并
cd
进入项目目录。git clone https://github.com/Eyeline-Research/Go-with-the-Flow.git cd Go-with-the-Flow
- 安装依赖:
pip install -r requirements.txt
- 扭曲噪声 (Warp noise) (请根据实际情况 替换
<PATH TO VIDEO OR URL>
为你的 视频路径或 URL):python make_warped_noise.py <PATH TO VIDEO OR URL> --output_folder noise_warp_output_folder
- 运行推理 (Inference):
python cut_and_drag_inference.py noise_warp_output_folder \ --prompt "A duck splashing" \ --output_mp4_path "output.mp4" \ --device "cuda" \ --num_inference_steps 5
根据需要调整文件夹路径、提示词和其他超参数。最终生成的视频将会保存为 output.mp4
。
ComfyUI 使用
目前该项目已经 开源了模型权重,插件狂人 kijai 正在紧锣密鼓地开发 ComfyUI 插件,让我们一起 拭目以待 吧!
你可以在 ComfyUI 中使用(示例工作流已包含在插件中),配合 https://github.com/kijai/ComfyUI-VideoNoiseWarp 插件,从视频中生成扭曲噪声。降低 Lora 强度可以适配降级的噪声,如果不进行降级,可以使用 1.0 的强度。
想获取更多 AI 辅助设计和设计灵感趋势? 欢迎关注我的公众号(设计小站):sjxz00。