2024年12月16日

5分钟阅读

最近的AI工具和技术！不看就又跟不上了

最近的AI工具和技术！不看就又跟不上了

【AI前沿】最近的AI工具和技术！不看就又跟不上了…

前言

最近围绕着 AI 又出现了几个好工具或技术，都是微软、meta 等大厂出品，实力有保障，大家不妨看看。

最近的新技术

Google 发布 gemini 2.0 模型。这个不打算展开讲，因为信息已经铺天盖地了，总结就是：融合多模态、实时秒相应、量大财气粗
Leffa: Meta 开源的换衣服方案（又换衣服~😂）
MarkItDown：微软开源的，万物转 markdown。
Pika 发布新视频技术。可以通过三张图融合生成视频，效果很赞👍

Google Gemini 2.0 模型

可以在 Google 的 aistudio 中使用了，免费额度 200 w token，真财大气粗。融合多模态，识别图像、视频，不在话下，实时互动，openai 割了几个月的功能，还是被 Google 抢先实现了~🥱。

不过，我不打算详细说这个消息了。但是还是稍微看看他们昨天又发了个 demo，不仅可以识别图片、视频、文本，甚至还可以对话改图！这功能真的炸裂！

想象一下，老板相当于雇了一个 AI 设计师，直接自然语言改图了~🐂

给 AI 说，我要把车改为敞篷。

她略加思考，就输出了，而且保持原来的其他地方不变。

再把敞篷车改个颜色。

思考片刻，就给输出了。

除了换色换款式，还可以融图，类似 FLUX 的 redux。

一张图看不够？换个角度。

当然，之前的车，让他开个门也是很容易的。

Google 这次算是把如今的 AI 技术都整到他的 Gemini 2.0 模型中了，还是杠杠的实力！🐂👍

Leffa: Meta 开源的换衣服方案

印象中，换衣服的方案阿里这些大厂都做过了，meta 也坐不住了，来了个换衣方案。

Leffa 是一个用于可控人物图像生成的统一框架，它能够精确控制人物的外观（例如虚拟试穿）和姿势（例如姿势转移）。为了解决现有方法在细节处理上的不足，Leffa 通过学习注意力中的流场，明确地引导目标查询关注参考图像中正确的关键区域。这通过在基于扩散的基线模型上添加一个正则化损失来实现。实验表明，Leffa 在控制外观和姿势方面取得了最先进的性能，显著减少了细微细节的失真，同时保持了较高的图像质量。此外，该方法具有模型无关性，可以用于改进其他扩散模型的性能。该项目提供了论文链接、演示链接和模型链接，并包含安装、运行 Gradio 应用程序、评估和引用等信息。

Github 项目地址：https://github.com/franciszzj/Leffa 提供在线体验：https://huggingface.co/spaces/franciszzj/Leffa`

简单测试了一下，效果还是很不错的~

MarkItDown 万物转 markdown

所以呢，技术是不是一个轮回？早期的互联网以纯文本为主，后来就发展到了图片、视频，各种 pdf、doc 等格式，而现在，为了对 AI 友好，大家又想办法把各种文档转为文本😂。

MarkItDown 库是一个实用工具，用于将各种文件转换为 Markdown 格式（例如，用于索引、文本分析等）。目前支持：

PDF (. Pdf)
PowerPoint (. Pptx)
Word (. Docx)
Excel (. Xlsx)
图片（EXIF 元数据和 OCR）
音频（EXIF 元数据和语音转录）
HTML（对维基百科等的特殊处理）
其他各种基于文本的格式（csv、json、xml 等）

项目地址：https://github.com/microsoft/markitdown

Pika 发布三图生成视频技术

AI 视频很久没有 pika 的声音了，最近他们终于放出了一个新技术，可以把毫不相关的三张图片，融合生成视频。

当然，换脸也是可以的🥱

写在最后

看来，从 FLUX 的 redux、到 Google 的 Gemini 2.0，再到 pika 的 2.0，大模型、图片、风格融合，是大趋势，这样的技术会大大提升创作的便利性也带来更多创新性！

好了，最近的技术就介绍到这里，大家不妨都去看看，新技术总是让人兴奋！

打个广告！

对了，这篇文章的 gif 生成，是我自己写的 python 程序，可以很方便把视频转为指定尺寸、压缩率、指定时长的视频。有兴趣的伙伴可以后台滴滴我~

更多 AI 辅助设计和设计灵感趋势，请关注公众号（设计小站）：sjxz 00。

标签

#ai-trends