WithAI.Design

5 min read

最近的AI工具和技术!不看就又跟不上了

最近的AI工具和技术!不看就又跟不上了

【AI前沿】最近的AI工具和技术!不看就又跟不上了…

前言

最近围绕着 AI 又出现了几个好工具或技术,都是微软、meta 等大厂出品,实力有保障,大家不妨看看。

最近的新技术

  1. Google 发布 gemini 2.0 模型。这个不打算展开讲,因为信息已经铺天盖地了,总结就是:融合多模态、实时秒相应、量大财气粗
  2. Leffa: Meta 开源的换衣服方案(又换衣服~😂)
  3. MarkItDown:微软开源的,万物转 markdown。
  4. Pika 发布新视频技术。可以通过三张图融合生成视频,效果很赞👍

Google Gemini 2.0 模型

可以在 Google 的 aistudio 中使用了,免费额度 200 w token,真财大气粗。融合多模态,识别图像、视频,不在话下,实时互动,openai 割了几个月的功能,还是被 Google 抢先实现了~🥱。

不过,我不打算详细说这个消息了。但是还是稍微看看他们昨天又发了个 demo,不仅可以识别图片、视频、文本,甚至还可以对话改图!这功能真的炸裂!

想象一下,老板相当于雇了一个 AI 设计师,直接自然语言改图了~🐂

给 AI 说,我要把车改为敞篷。

20241216_212512-06.gif

她略加思考,就输出了,而且保持原来的其他地方不变。

20241216_212512-09.gif

再把敞篷车改个颜色。

20241216_212512-16.gif

思考片刻,就给输出了。

20241216_212512-17.gif

除了换色换款式,还可以融图,类似 FLUX 的 redux。

20241216_212512-25.gif

20241216_212512-26.gif

一张图看不够?换个角度。

20241216_212512-32.gif

当然,之前的车,让他开个门也是很容易的。

20241216_212512-37.gif

20241216_212512-38.gif

Google 这次算是把如今的 AI 技术都整到他的 Gemini 2.0 模型中了,还是杠杠的实力!🐂👍

Leffa: Meta 开源的换衣服方案

印象中,换衣服的方案阿里这些大厂都做过了,meta 也坐不住了,来了个换衣方案。

Leffa 是一个用于可控人物图像生成的统一框架,它能够精确控制人物的外观(例如虚拟试穿)和姿势(例如姿势转移)。为了解决现有方法在细节处理上的不足,Leffa 通过学习注意力中的流场,明确地引导目标查询关注参考图像中正确的关键区域。这通过在基于扩散的基线模型上添加一个正则化损失来实现。实验表明,Leffa 在控制外观和姿势方面取得了最先进的性能,显著减少了细微细节的失真,同时保持了较高的图像质量。此外,该方法具有模型无关性,可以用于改进其他扩散模型的性能。该项目提供了论文链接、演示链接和模型链接,并包含安装、运行 Gradio 应用程序、评估和引用等信息。

Github 项目地址:https://github.com/franciszzj/Leffa 提供在线体验:https://huggingface.co/spaces/franciszzj/Leffa`

简单测试了一下,效果还是很不错的~

MarkItDown 万物转 markdown

所以呢,技术是不是一个轮回?早期的互联网以纯文本为主,后来就发展到了图片、视频,各种 pdf、doc 等格式,而现在,为了对 AI 友好,大家又想办法把各种文档转为文本😂。

MarkItDown 库是一个实用工具,用于将各种文件转换为 Markdown 格式(例如,用于索引、文本分析等)。 目前支持:

  • PDF (. Pdf)
  • PowerPoint (. Pptx)
  • Word (. Docx)
  • Excel (. Xlsx)
  • 图片(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML(对维基百科等的特殊处理)
  • 其他各种基于文本的格式(csv、json、xml 等)

项目地址:https://github.com/microsoft/markitdown

Pika 发布三图生成视频技术

AI 视频很久没有 pika 的声音了,最近他们终于放出了一个新技术,可以把毫不相关的三张图片,融合生成视频。

20241216_214855-02.gif

20241216_214855-03.gif

20241216_214855-04.gif

20241216_214855-06.gif

当然,换脸也是可以的🥱

20241216_214855-11.gif

写在最后

看来,从 FLUX 的 redux、到 Google 的 Gemini 2.0,再到 pika 的 2.0,大模型、图片、风格融合,是大趋势,这样的技术会大大提升创作的便利性也带来更多创新性!

好了,最近的技术就介绍到这里,大家不妨都去看看,新技术总是让人兴奋!

打个广告!

对了,这篇文章的 gif 生成,是我自己写的 python 程序,可以很方便把视频转为指定尺寸、压缩率、指定时长的视频。有兴趣的伙伴可以后台滴滴我~

更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz 00。

标签