【AI辅助设计】建议收藏！Veo 提示词手册

前言

Google视频生成黑科技Veo深度解析：创意平民化的关键钥匙

相信大家都已领略过Google视频生成模型Veo的强大实力。它不仅能够生成高清视频，还支持智能配音功能，在当今众多视频生成模型中——无论是开源还是闭源版本——都堪称顶尖水准。

虽然笔者日常更多使用开源视频模型（如WAN 2.1及其混合升级版FusionX），但不得不承认：闭源模型可能才是推动创意平民化与设计平权的关键角色。为此，我特别整理了Veo的核心技术资料，建议收藏备用：

Veo提示手册的普适价值

这份操作手册的亮点在于其通用性设计逻辑：

跨平台提示框架：核心交互逻辑适用于绝大多数视频/图像生成模型
人机对话范式：建立高效AI沟通的标准化模板
创意激发机制：结构化释放创作潜能的引导体系

重要提示：手册中的方法论不仅限于Veo，同样可迁移应用于Stable Video Diffusion、Pika等主流生成工具。

技术民主化的双轨驱动

模型类型	代表产品	核心价值
开源模型	WAN 2.1/FusionX	技术透明·社区共创
闭源模型	Veo	体验优化·技术普惠

当前AI视频领域呈现开源创新+闭源赋能的双轨发展格局。闭源模型通过极致优化的用户体验，正在大幅降低专业级视频创作的门槛。

收藏建议：建议将本文添加至微信收藏夹，便于后续查阅。这份跨越模型界限的AI沟通指南，或许能成为您解锁创意宇宙的通用密钥。欢迎在评论区分享您的视频生成实践心得！

Veo 提示词工程师指南：AI 驱动的影视制作综合手册

第一部分：Veo 提示词工程基础

本部分旨在为用户建立与 Veo 模型高效互动的核心知识体系，内容涵盖其技术演进、提示词构建的基本原则，直至最终形成一套完整的操作框架。

第一章：Veo 引擎——从“默片时代”到音画同步

本章将提供关键的历史与技术背景，阐述模型的发展历程如何直接影响提示词策略。理解技术背后的“原因”是更高效使用工具的前提。

1.1 Veo 的演进：一部能力进化史

Google Veo 的发展并非一蹴而就，其版本迭代清晰地展示了从追求视觉保真度到实现完整音画叙事的演进路径。了解这一历程，对于掌握各版本模型的能力边界与最佳应用场景至关重要。

Veo 1 (2024年5月): 在 Google I/O 2024 大会上首次亮相，标志着 Google 正式进入高保真视频生成领域。初代 Veo 的核心能力是能够生成超过一分钟的 1080p 视频，这在当时确立了其在生成时长和分辨率方面的初步优势 1。这一阶段的重点在于验证大规模视频生成的可行性，为后续的功能增强奠定了基础。
Veo 2 (2024年12月): 这是一个重要的里程碑，Veo 2 引入了两大关键升级：支持 4K 分辨率视频生成，以及显著“提升了对物理规律的理解” 1。该版本最初通过 VideoFX 提供，随后于2025年4月在 Gemini 应用中向高级用户开放 1。这一版本的发布，意味着模型的关注点从单纯的“生成”转向了“逼真地生成”，开始模拟现实世界的物理动态，为创作者提供了更强的现实感和运动控制力。
Veo 3 (2025年5月): 这是 Veo 发展至今的范式转移。Veo 3 带来了最具革命性的功能——原生同步音频生成，能够一并创造对话、音效和背景音乐，彻底将 AI 视频带离了“默片时代” 1。除了音频，Veo 3 在真实感、4K 输出和提示词遵循度方面也实现了全面提升 5。这一代模型的诞生，要求用户必须将提示词从单一的视觉指令，转变为完整的音画脚本。

从 Veo 2 到 Veo 3 的演进，不仅仅是增加了一个音频轨道，更是模型本质的深刻变革。Veo 2 的提示词本质上是一套视觉指令集，用户的核心任务是描绘一个无声的场景。然而，Veo 3 的核心创新在于原生同步音频，这意味着模型本身已经从一个纯粹的视觉生成器，进化为一个多模态的音画叙事引擎 1。因此，一个仅包含视觉描述的 Veo 3 提示词，实际上是未充分利用其核心能力的，甚至可能导致模型生成泛泛或不符合预期的音频。模型在设计上就在“期待”音频线索。这种技术上的跃升，必然要求提示词工程方法的相应升级。创作者必须采用一种更整体、更接近电影制作的思维方式，从最初的创意阶段就将声音设计视为不可或缺的一环，而不是一个后期制作任务。这无疑提高了提示词工程的技能门槛，但也奖励了那些同时精通影像和声音艺术的用户。

1.2 底层技术探秘：扩散-变换器与潜在空间

从高层次理解 Veo 的工作原理，有助于用户洞悉其能力与局限。Veo 模型首先将视频和音频编码为压缩的“潜在表征”（latent representations）。在这个高维度的数学空间中，AI 的任务是通过一个基于 Transformer 架构的去噪网络，根据用户提示词的引导，将随机噪声逐步“雕琢”成连贯的音视频片段 7。

这个过程解释了为何某些提示词效果更佳。一个清晰、结构化的提示词能够为去噪过程提供更明确的方向。反之，视觉伪影（artifacts）或“幻觉”（hallucinations），如角色多出一根手指或场景中出现不合逻辑的物体，可以被理解为模型在潜在空间中去噪过程出现的错误或偏差 8。

表1：Veo 版本能力矩阵

下表直观对比了 Veo 2 和 Veo 3 的核心能力，帮助用户根据需求选择合适的工具，尤其是在 Google Flow 等可能混合使用不同版本模型的平台中。

功能	Veo 2	Veo 3	对提示词工程的影响
最高分辨率	4K 1	4K 5	提示词中可包含对高分辨率纹理和细节的描述。
最长生成时长	超过1分钟 2	超过1分钟	支持更复杂的叙事性提示词，可描述更长的动作序列。
物理模拟	提升了对物理规律的理解 3	更高的真实感和物理模拟 5	提示词可大胆描述复杂的物理交互，如流体、碰撞和重力效果。
原生音频	无	支持（对话、音效、音乐） 1	核心变化：提示词必须包含明确的音频描述，否则模型可能生成不理想的默认音效。
口型同步	不支持	支持，与原生音频同步 10	提示词中可直接写入对话文本，并期望角色口型与之匹配。
主要访问平台	VideoFX, Gemini App, Vertex AI 1	Google Flow, Gemini App (Ultra), Vertex AI 5	用户需根据平台选择，Flow 提供了更完整的叙事构建工具链。

第二章：精通提示词的剖析——核心组件与结构

本章将提示词解构为其基本构成部分，为用户提供一个结构化、可重复的成功框架。

2.1 高效 Veo 提示词的七大支柱

根据 Google 的官方指南和社区的最佳实践，一个全面的 Veo 提示词应包含以下七个核心要素。将这些要素系统性地融入提示词，是实现精准控制的第一步 13。

主体 (Subject): 场景中的核心人物、动物、物体或景观。描述越具体越好，例如，用“一只充满智慧的老猫头鹰”代替“一只猫头鹰” 14。
情境 (Context): 主体所处的时间和空间环境。背景对于营造氛围至关重要，例如，“一条月光下的森林小径”或“一个拥挤的公司电梯” 14。
动作 (Action): 主体正在做什么。使用强有力、富有画面感的动词，例如，“快乐地蹦跳”、“紧急地拨号”，而非“走路” 14。
风格 (Style): 整体的视觉美学。这是使用“电影感 (cinematic)”、“照片级真实 (photorealistic)”或“3D卡通渲染 (3D cartoon style render)”等关键词的地方 13。
镜头运动 (Camera Motion): 指导虚拟摄像机如何移动。这是实现创意控制的主要手段之一，例如，“推轨镜头 (dolly shot)”、“航拍视角 (aerial view)”、“跟踪镜头 (tracking shot)” 13。
构图 (Composition): 镜头的取景方式，例如，“广角镜头 (wide shot)”、“特写 (close-up)”、“过肩镜头 (over-the-shoulder)” 13。
氛围 (Ambiance): 由光线和色彩营造的情绪基调，例如，“温暖的色调 (warm tones)”、“诡异的绿色霓虹灯光 (eerie green neon glow)”、“柔和的漫射晨光 (soft diffused morning light)” 13。

2.2 提示词的层级模型

一个普遍被忽视但至关重要的原则是，提示词的各个部分并非同等重要。Veo 在处理信息时存在一定的优先级。专业分析指出，提示词的最佳结构应遵循一个层级模型：首先定义主要元素（主体、动作、情境），然后是次要元素（风格、镜头、氛围） 17。这种结构确保了场景的核心内容在模型处理的早期就被确立，随后再叠加风格化的修饰。

基于此，可以构建一个主模板：
[构图] of [主体][动作] in [情境], creating a [氛围] mood. [镜头运动]. [风格].
例如：A close-up shot of a desperate man urgently dialing a vintage rotary phone in a gritty alley, creating a tense mood. The camera dollies in slowly. Cinematic, film noir style.

2.3 “剧本式”与“清单式”提示词范式

在实践中，存在两种构建提示词的成功范式。第一种是“清单式”，即将七大支柱作为一系列由逗号分隔的关键词列出，这种方法在早期的图像生成模型（如 Stable Diffusion）中非常普遍。第二种，也是对 Veo 更为有效的方法，是“剧本式”，即将提示词写成一段描述性的、叙事性的自然语言句子。

Google 的官方范例以及社区中最成功的作品，无一例外都采用了自然、流畅的描述性语言，而非一堆关键词的堆砌 14。例如，“一段平滑运动的视频，推轨镜头逼近一个绝望的男人……”这读起来就像电影剧本中的动作描述。其背后的逻辑在于，Veo 的提示词解析严重依赖于 Google 的大型语言模型（如 Gemini） 12。大型语言模型的核心优势在于理解自然语言的上下文、叙事逻辑和语境，这远胜于旧模型依赖的关键词标签匹配。

因此，将提示词构建成一段叙事性描述（即“剧本式”），能更充分地发挥底层语言模型的强大能力。叙事结构提供了更丰富的上下文，帮助模型理解各个元素之间的内在联系，从而生成更连贯、更符合意图的视频。这一认知是本指南的核心理念之一：要精通 Veo，用户需要训练自己像编剧一样思考和写作，而不仅仅是 AI 提示词工程师。

2.4 负向提示词：排除的艺术

负向提示词（Negative Prompts）是另一种强大的控制工具，它用于明确告知模型不希望在生成结果中看到哪些内容 14。

核心最佳实践： 避免使用“不要”或“无”等指令性词语。正确的做法是直接列出不想要的元素或风格的关键词 14。例如，要避免生成水印、模糊和解剖学错误，应使用
Negative_prompt: “text, watermark, blurry, jpeg artifacts, poorly drawn hands, extra fingers”。
应用场景： 负向提示词主要用于解决常见问题，如去除不必要的屏幕文字（尤其是在指定对话时，模型可能错误地生成字幕）、修正视觉瑕疵（如“jpeg artifacts”）、避免不想要的风格（如在追求照片真实感时，加入 cartoon, anime 作为负向提示词），以及修正常见的解剖学错误 9。

第三章：电影语言——将创意视觉转化为关键词

本章提供一份实用的词汇表，帮助用户掌握将抽象创意转化为 Veo 能够理解的精确指令所需的专业术语。

3.1 掌控镜头：运动与构图

镜头运动关键词：
- dolly shot (推轨镜头): 摄像机在轨道上平移，通常用于平滑地接近或远离主体。
- tracking shot (跟踪镜头): 摄像机跟随移动的主体，保持其在画面中的位置。
- pan (摇镜): 摄像机在固定位置水平转动。
- tilt (俯仰): 摄像机在固定位置垂直转动。
- zoom (变焦): 通过改变镜头焦距来放大或缩小画面，摄像机本身不动。
- crane shot / jib shot (摇臂/升降镜头): 摄像机安装在摇臂上，可进行大幅度的垂直和水平移动。
- aerial view / drone shot (航拍/无人机镜头): 从高空俯瞰的视角。
- handheld (手持拍摄): 模拟手持摄像机的轻微晃动，增加真实感和亲密感。
- POV shot (主观视角镜头): 模拟角色眼中所见的画面。
  
  13
构图关键词：
- wide shot / long shot (远景/全景): 展示主体及其所处环境的全貌。
- medium shot (中景): 通常拍摄人物腰部以上。
- close-up (特写): 聚焦于主体的某个部分，如面部。
- extreme close-up (大特写): 极度聚焦于细节，如眼睛。
- over-the-shoulder shot (过肩镜头): 从一个角色肩膀后方拍摄另一个角色，常用于对话场景。
- low-angle shot (仰拍): 从低角度向上拍摄，使主体显得高大、有力量。
- high-angle shot (俯拍): 从高角度向下拍摄，使主体显得渺小、脆弱。
- worm’s eye view (虫眼视角): 从极低的角度拍摄。
  
  13

3.2 光影作画：氛围与色彩

光线关键词：
- dramatic lighting (戏剧性光照): 高对比度，强调轮廓和情绪。
- soft diffused light (柔和漫射光): 光线均匀柔和，阴影不明显，常用于营造宁静、唯美的氛围。
- golden hour (黄金时刻): 日出后或日落前，光线温暖、柔和、呈金色。
- blue hour (蓝色时刻): 黎明前或黄昏后，天空呈现深蓝色调。
- neon glow (霓虹光): 城市夜景中常见的彩色光。
- chiaroscuro (明暗对照法): 强烈的明暗对比，艺术感强。
- backlit (逆光): 光源在主体背后，形成轮廓光。
- lens flare (镜头光晕): 光源直射镜头产生的炫光效果。
  
  9
色彩关键词：
- muted sepia tones (柔和的棕褐色调): 复古、怀旧感。
- vivid technicolor (鲜艳的彩色): 饱和度高，色彩鲜明，类似早期彩色电影。
- pastel palette (粉彩调色板): 柔和、淡雅的色彩。
- monochrome / black and white (单色/黑白): 经典、严肃或艺术感。
- cool blue tones (冷蓝色调): 营造冷静、悲伤或科技感。
- warm golden palette (温暖的金色调): 营造温暖、浪漫或怀旧的氛围。
  
  14

3.3 定义画风：风格与类型

写实风格：
- photorealistic, ultra-realistic, hyperrealistic: 强调照片般的真实感。
- 4K detail, 8K: 暗示极高的细节和清晰度。
- shot on 35mm film, film grain: 模拟胶片电影的质感。
- documentary footage: 模拟纪录片的纪实风格。
  
  9
动画风格：
- Pixar-like 3D animation: 皮克斯风格的3D动画。
- hand-drawn 2D cartoon: 手绘2D卡通。
- anime style: 日本动漫风格。
- stop-motion claymation: 定格黏土动画。
- storybook painted textures: 绘本般的绘画纹理。
  
  14
类型风格：
- film noir: 黑色电影，特点是低调光、高对比度黑白、悬疑氛围。
- horror film: 恐怖片，常使用阴暗、诡异的视觉元素。
- sci-fi: 科幻片，包含未来主义、科技元素。
- historical adventure: 历史冒险片，具有时代感和史诗感。
  
  14

表2：电影化关键词速查词典

下表将创意目标与具体的 Veo 提示词关键词联系起来，为用户提供一个从创意到执行的实用桥梁。

创意目标	关键词类别	关键词/短语	预期效果	示例提示词片段
营造紧张感	构图 & 镜头	extreme close-up, handheld camera, dolly zoom	放大情绪，制造不稳定感和压迫感。	… An extreme close-up on his frantic expression, handheld camera follows him…
展现宏大场面	构图 & 镜头	wide shot, aerial drone shot, crane shot	展现广阔的环境和史诗般的规模。	An aerial drone shot over the vast, desolate city… 27
追求复古感	风格 & 色彩	shot on 35mm film, film grain, muted sepia tones	模拟老电影的胶片质感和怀旧色彩。	… Shot on 35mm film with visible film grain and muted sepia tones. 18
营造神秘氛围	风格 & 光线	film noir style, low-key lighting, deep shadows, chiaroscuro	创造高对比度的黑白影像，充满悬念。	Film noir style, a man walks on the street, mystery, deep shadows. 14
实现卡通效果	风格	Pixar-like 3D animation, vibrant colors, rounded forms	生成色彩鲜艳、造型圆润的3D动画角色。	A cute creature in a Pixar-like 3D animation style, with large expressive eyes. 28
模拟真实记录	风格 & 镜头	documentary footage, eye-level shot, natural lighting	创造出一种客观、纪实的视觉感受。	Documentary footage of a scientist in her lab, eye-level shot, natural lighting. 9

第二部分：高级技巧与创意控制

本部分将超越静态的场景描述，深入探讨如何指导动态的、富有情感共鸣的表演和声音设计，将用户从“描述者”提升为“导演”。

第四章：指导数字演员——“提示词理论”的艺术

本章将探索一门新兴的学科——“提示词理论”（Prompt Theory），它将提示词工程视为一种对 AI 的表演指导 30。这套方法论的核心在于，将提示词从简单的描述升级为对角色情感、动作和叙事节奏的精确编排。

4.1 序列化动作与情感：“先这样，再那样”原则

Veo 模型对序列化指令的理解能力非常出色。这项技巧通过在一个提示词中链接一系列动作或情感，从而在单个片段内创造出微型叙事 30。

链接手势 (Chaining Gestures): 这适用于编排具体的物理动作，如同为演员提供一系列舞台调度指令。
- 示例： He spreads both arms wide like delivering a dramatic speech. Big gesture, then brings hands to his chest, then points outward again. 30
- 应用： 这种方法非常适合需要精确物理表演的场景，如舞蹈、武术或戏剧性演讲。
链接情感 (Chaining Emotions): 这允许在短时间内展现复杂的情感弧光，创造出动态且富有冲击力的情感“变脸”效果。
- 示例： He bursts into wild laughter, head thrown back, body rocking. Mid-laugh, he stops suddenly, eyes wide with terror, face frozen. 30
- 应用： 用于表现角色内心的剧烈冲突、瞬间的顿悟或情绪的突然转变。

4.2 融合姿态与情感以增强可信度

为了让角色感觉真实、有反应，需要将他们的物理动作与内在情感状态直接关联。这种技巧同时控制身体语言和面部表情，从而产生更完整、更可信的表演 30。

示例： He turns his head like he heard something. Pauses. Then whips it back to center, fast. Eyes dart, hand tenses. Hyper-reactive. 30
分析： 在这个例子中，物理动作（whips it back to center, hand tenses）是情感状态（Hyper-reactive，即高度警觉）的直接外在表现。模型被要求生成的不仅仅是一个动作，而是一个由情感驱动的反应。

4.3 从始至终的弧光：指导情感变化

通过明确定义一个片段的起始和结束情感状态，可以创造戏剧张力，或揭示角色的复杂性和不稳定性 30。

示例： Starts calm. Then grimaces in a flash of violence, lunging forward. One beat later, he’s composed. Straightens jacket. Smiles like nothing happened. 30
应用： 这种技巧非常适合表现角色的双重性格、压抑后的爆发，或是在极端情绪波动后迅速恢复常态的能力。

4.4 模糊指令的力量：让 Veo 即兴发挥

与直觉相反，有时“少即是多”。给予一个更开放、更侧重于情感意图的模糊指令，反而能让 AI 拥有更多解释空间，从而生成更自然、不那么机械化的表演 30。此时，用户描述的是“意图”，而非精确的物理动作。

示例： He turns from the camera and starts walking off. Takes a few steps. Pauses. Glances back over his shoulder like he’s debating returning. 30
分析： 提示词没有规定角色回头时的具体表情，而是给出了一个动机——“像是在犹豫是否要回来”。这使得 Veo 可以根据其对“犹豫”的理解，生成微妙且真实的面部和身体语言。

Veo 能够成功执行这些复杂的“提示词理论”技巧，暗示其内部工作方式远比简单的图像匹配要复杂。一个简单的模型在处理“先开心后悲伤的男人”这类提示词时，可能会将两种情绪平均化，生成一个表情中性或困惑的角色。然而，Veo 能够将“开心”视为状态A，将“悲伤”视为状态B，并成功生成从A到B的转变过程 30。这表明 Veo 的内部模型包含了对时间和叙事序列的理解，其工作方式更像一个“状态机”（State Machine）。

这个“状态机”模型解释了为何清晰的序列化指令（“先这样，再那样”）如此有效——提示词工程师实际上是在定义一系列事件状态以及状态之间的转换触发器。这也解释了为何在单个提示词中堆砌过多不相干的动作会导致失败 17：这相当于要求状态机同时处于多个互斥的状态，最终导致其逻辑崩溃，生成泛泛或不连贯的输出。因此，为了实现更高级的控制，用户应将提示词视为一个事件流程图，而非一幅静态画作的描述。这种思维模式的转变，将用户从一个“描述者”提升为一个“叙事事件的程序员”。

第五章：谱写音轨——精通 Veo 3 的音频生成

本章是针对 Veo 3 最强大也最具挑战性的功能——原生音频生成的专门指南。

5.1 提示对话：赋予角色声音

明确 vs. 暗示性对话： 用户可以提供精确的台词（A guy says: My name is Ben），也可以只描述言语行为（A guy tells us his name），让模型自行发挥 13。
清晰度的最佳实践： 强烈建议使用冒号 : 来分隔说话者/动作和对话内容。避免使用引号 ""，因为模型可能将其误解为生成屏幕文字的请求 13。
处理多角色对话： 这是一个公认的难点。最佳策略是极其具体地标识说话者（例如，The man in the red hat says… The woman in the green dress replies…），并且在单个片段中保持对话简洁，理想情况是每个角色只说一句台词 14。
控制语气和情感： 在提示词中明确指定情感传递方式，例如 the woman speaks angrily (女人愤怒地说) 或 the badger stammered nervously (獾紧张地结巴着说) 31。

5.2 用声音构建世界：音效与环境声

明确地提示环境声来建立场景氛围，例如 the sounds of a busy street (繁忙街道的声音)、soft elevator music (柔和的电梯音乐)、rustling leaves, crickets (树叶沙沙声和蟋蟀叫声) 13。
为特定动作提示音效，例如 Audio: wings flapping (音频：翅膀拍打声)、water splashing in the background (背景中的水花飞溅声) 5。
专业技巧： 在提示词中，用独立的句子来描述不同的音频线索，可以提高模型的解析准确率 32。

5.3 为场景配乐：提示音乐

指定音乐的类型、情绪和乐器，例如 a tense cinematic score (一段紧张的电影配乐)、a cheerful pop song (一首欢快的流行歌曲)、a light orchestral score with woodwinds throughout with a cheerful, optimistic rhythm (一段以木管乐为主，节奏欢快、乐观的轻管弦乐) 5。

尽管 Veo 3 能够同时生成音画，但用户报告称模型有时会出现“音画纠缠”问题。即视觉元素和音频元素会以意想不到的方式相互影响。例如，在一个严肃的场景中，由于视觉提示（如喜剧演员），模型可能会生成不合时宜的背景笑声 13。对话归属错误是另一个重大挑战，当两个角色在视觉上相似时，模型可能难以区分他们的台词 13。

这种现象的根源在于模型的训练数据。Veo 很可能是在海量的视频（如 YouTube 视频）上进行训练的，在这些数据中，音画本身就存在强相关性 4。模型从数据中学习到，某些视觉（如单口喜剧）总是与某些音频（如观众笑声）相伴出现。因此，当用户提示“一个单口喜剧演员”时，即使没有明确要求，模型也可能因为其在训练数据中学到的强大关联性而自动生成笑声。这是一种“语义渗透”。

因此，在 Veo 3 中进行有效的音频提示，不仅关乎添加声音线索，更关乎约束它们。用户必须非常明确，并且经常需要利用负向提示词（例如，(no subtitles)）或提供更具体的环境声描述（例如，用“远处乐队的声音，嘈杂的人群”来代替让模型自行推断），以防止模型依赖其学到的固有音画关联 13。这使得音频提示成为一种在“指导”与“预防”之间寻求精妙平衡的艺术。

第六章：迭代工作流——提示词优化的案例研究

本章将通过实际案例，一步步展示提示词的优化过程，将理论付诸实践。

6.1 案例研究一：“Mintro” 公司广告

这个案例完美地展示了如何通过迭代修正，将一个初步想法打磨成一个接近专业水准的广告片段。

初始目标与提示词： 创作者的目标是为一个名为“Mintro”的虚构薄荷糖品牌制作一则简短、有力的广告。核心创意是一个发生在拥挤电梯里的尴尬社交时刻。
- 初始提示词： A crowded corporate elevator during morning rush hour. Two well-dressed colleagues stand face-to-face, uncomfortably close due to the packed space. One, maintaining a straight face, leans in slightly and says, “I once sneezed in the all-hands and clicked ‘share screen’ at the same time. No survivors.” The other tries to suppress a laugh. The elevator dings, and doors open to a bustling office floor.
第一版输出分析： 生成的视频暴露了几个关键问题：
1. 背景角色失焦： 电梯里的所有人都盯着主角，这分散了观众的注意力，破坏了场景的真实感。
2. 非预期的手势： 女主角将手放到鼻子前的动作，无意中暗示了男主角口气不佳，这与广告“自信交流”的主题背道而驰。
3. 环境不准确： 电梯门直接通向办公室，而非更真实的走廊或大厅。
4. 不必要的字幕： 视频中出现了拼写错误的字幕。
优化后的提示词： 创作者针对上述问题，对提示词进行了大幅度的细化和扩展，每一处修改都目的明确。
- 优化后提示词： A very crowded office elevator during morning rush hour. The doors are closed at the start of the video, and as they begin to slowly open, we hear soft elevator music from the ceiling speakers and a gentle mechanical hum. The camera holds a single, continuous, eye-level shot, focused tightly on two well-dressed colleagues standing face-to-face — uncomfortably close due to the packed space. Just as the elevator doors are halfway open, the man calmly and confidently says: “I once sneezed in the all-hands and clicked ‘share screen’ at the same time. No survivors.” The woman reacts with genuine laughter — amused but never exaggerated — and she never speaks, recoils, touches her face, or steps back. Around them, the other elevator passengers remain relaxed and detached: one scrolls on their phone, another stares forward in thought, someone else shifts their bag — but no one looks at or reacts to the main characters. The doors continue to open fully, and at the end of the shot, the two colleagues step out of the elevator while the camera stays fixed in place. The characters never look into the camera. Do not include any captions, subtitles, or on-screen text.
- 修改分析：
  - soft elevator music…：明确指定了环境声。
  - the other elevator passengers remain relaxed and detached…：精确控制了背景角色的行为。
  - she never speaks, recoils, touches her face, or steps back：通过负向动作指令，排除了不想要的手势。
  - Do not include any captions, subtitles, or on-screen text：明确禁止了字幕的生成。
最终润色： 即使是优化后的版本，也可能存在细微瑕疵（如电梯门打开速度过快）。创作者指出，AI 通常能快速完成90%的工作，但最后的10%往往需要手动干预。最终，他将视频导入 DaVinci Resolve 等专业剪辑软件，进行最后的调色、配乐和添加 Mintro 品牌标志等工作，完成了整个创意流程 16。

6.2 案例研究二：“婴儿鞋”微型叙事

这个案例展示了如何将一个包含两个镜头的短故事，分解为两个独立但高度详细的提示词，并侧重于情绪和氛围的营造。

故事构思： 一个女人在壁橱里找到一双从未穿过的婴儿鞋，随后在厨房里，她将这双鞋放在桌边，开始在手机上输入出售信息：“待售：婴儿鞋，全新未穿。”
镜头一的提示词分析：
- 提示词： Interior of a quiet, lived-in home during early morning. Natural light filters softly through a hallway window. A woman in her late 30s opens a hallway closet… She opens the box and carefully unwraps a small item inside: a pair of pristine white baby shoes… Her expression is unreadable — not sad, just present and still. The shot is quiet and unhurried. No music. Emphasize natural ambience — soft house sounds, the creak of the closet door, cardboard rustling… The moment should feel hushed and real. Visual style: warm, grounded realism with natural lighting. Avoid cinematic over-stylization.
- 关键技巧： 这个提示词的精髓在于对情绪的克制性描述。它没有直接说“悲伤”，而是通过“表情不可读——不悲伤，只是在场且静止”来引导一种更复杂、更内敛的情绪。同时，它通过强调环境声（soft house sounds, creak of the closet door）和排除音乐（No music）来构建一种“安静而真实”的氛围。这展示了通过环境和负向指令进行高级情感指导的能力。

表3：提示词优化日志模板

为了帮助用户系统化地进行迭代，下表提供了一个可复用的日志模板。这种方法鼓励用户像科学家一样进行实验，一次只改变一个变量，并记录结果，从而加速学习进程并获得更稳定的输出 33。

生成批次 #	使用的提示词	输出分析 (成功之处)	输出分析 (失败之处)	下一步行动/提示词修改
1	A man walks on the street.	生成了一个男人和街道。	风格泛泛，动作单一，缺乏故事性。	增加情境、风格和镜头运动。
2	A man in a trench coat walks down a rain-slicked street at night, neon lights reflecting on the pavement. Cinematic, low-angle shot.	氛围感强，有电影感。	镜头静止，缺乏动感。	增加镜头运动，如 tracking shot。
3	A low-angle tracking shot follows a man in a trench coat as he walks down a rain-slicked street at night…	镜头跟随主体，动感十足。	角色表情平淡。	增加情感描述，如 with a worried expression。

第三部分：Veo 生态系统与专业工作流程

本部分将 Veo 置于一个实际的生产管线中，从通过 API 进行高级控制，到在 Flow 中构建叙事，再到最终的后期编辑，全面覆盖专业级应用场景。

第七章：技术控制——开发者的工具箱 (Vertex AI & Gemini API)

本章面向需要深入底层进行控制的高级用户和开发者。

7.1 通过 API 访问 Veo

对于需要将 Veo 集成到自定义应用程序或进行大规模、自动化生成的开发者而言，API 是首选途径。

环境设置： 整个过程始于 Google Cloud。用户需要创建一个 Google Cloud 项目，启用 Vertex AI API，并为本地开发环境设置身份验证 34。
SDK 支持： Google 提供了多种语言的官方 SDK，包括 Python, TypeScript/JavaScript, 和 Go，使得开发者可以方便地在其熟悉的编程环境中调用 Veo 模型 35。官方文档提供了详细的代码示例，展示了如何初始化客户端、构建请求并处理返回的视频操作。

7.2 API 参数详解

API 提供了比图形界面更精细的控制选项。以下是核心参数的详细解析 35：

prompt (string): 视频生成的文本描述。
image (bytes): 可选参数，用于 image-to-video，提供视频的起始帧。
negativePrompt (string): 负向提示词，用于排除不想要的元素。
aspectRatio (string): 视频宽高比，支持 “16:9” (横屏) 和 “9:16” (竖屏)。需要注意的是，某些预览版模型可能不支持所有比例 34。
personGeneration (string): 关键的安全控制参数，用于管理人像生成。
- “dont_allow”: 禁止生成任何人脸。
- “allow_adult”: 允许生成成年人，但禁止儿童。
- “allow_all”: 允许生成所有年龄段的人。
- 注意： 此参数有严格的地区限制，例如在欧盟地区，image-to-video 不允许生成人像，text-to-video 也不允许使用 “allow_all” 35。
durationSeconds (int): 生成视频的时长，API 调用通常限制在5到8秒之间。
numberOfVideos (int): 单次请求生成的视频数量，通常为1或2。
seed (uint32): 一个用于确保生成结果可复现的随机种子。在其他参数不变的情况下，使用相同的种子会生成相同的视频，这对于进行受控的迭代测试至关重要 34。
enhance_prompt (bool): 是否启用内置的提示词重写器，默认为 true (启用)。

在 API 的众多参数中，enhance_prompt 是一个极其重要但容易被忽视的“黑箱”。该参数默认启用，意味着用户提交的提示词在送达 Veo 模型之前，会先被另一个 AI（很可能是 Gemini）进行一次自动“优化”或重写 35。

这一设计的初衷是为了提升易用性，帮助初学者用简单的提示词获得更好的结果。然而，对于那些遵循本指南原则、精心构建了精确、复杂提示词的专业用户而言，这种自动重写引入了一个不可控的变量，可能会扰乱原有的指令结构，导致结果偏离预期，造成混乱和不可预测性。

因此，这背后存在一个根本性的权衡：易用性 vs. 精确控制。对于追求专业级、可控输出的高级用户，强烈建议在进行 API 调用时，将 enhance_prompt 参数明确设置为 false。这能确保他们精心设计的指令被原封不动地传递给 Veo 模型，从而在输入和输出之间建立更直接、更可预测的因果关系。这是专业级应用中一个至关重要且不甚明显的技巧。

第八章：从片段到影片——精通 Google Flow 的叙事连贯性

Google Flow 是 Veo 最主要的创意界面，它不仅仅是一个提示词输入框，而是一个为解决 AI 视频生成最大痛点——跨片段的连贯性——而设计的完整生态系统 12。

8.1 Flow 工作流程：分步指南

一个典型的 Flow 项目流程如下：

创建项目与生成片段： 用户首先创建一个新项目，然后通过文本、图像或“素材”生成初始的视频片段 37。
使用 Scenebuilder 构建叙事： 这是 Flow 的核心。一旦生成了满意的片段，可以将其添加到 Scenebuilder 时间线中，并使用以下两种核心功能来构建序列：
- Extend (扩展): 无缝地从一个片段的最后几帧（通常是24帧）开始，继续生成后续的动作。这非常适合创建需要一镜到底感觉的长镜头 16。
- Jump to (跳转): 在保留前一个片段上下文（如角色、风格）的基础上，过渡到一个全新的镜头。这是构建多镜头场景的关键。例如，一个片段是“角色走向一扇门”，下一个片段就可以使用 Jump to 并输入新提示词“角色从门内打开门” 16。
编辑与导出： 在时间线上，用户可以修剪片段时长、重新排列片段顺序，最终将整个场景导出为一个完整的视频 39。

8.2 使用“素材”实现一致性 (Ingredients to Video)

“素材”功能是 Flow 中实现角色、物体和风格一致性的王牌，通常需要 Ultra 订阅计划才能使用 12。

工作流程：
1. 准备素材： 用户首先通过提示词生成或直接上传参考图像，作为其主体（如一个特定角色）、地点或风格的“素材”。Google 建议，为了让模型更好地捕捉主体，参考图像最好使用纯色或分割背景 37。
2. 引用素材： 在后续生成视频时，用户可以在提示词中引用这些已保存的“素材”。Flow 会指示 Veo 模型在生成新视频时，强制使用这些素材的视觉特征，从而确保角色外观、场景风格在不同镜头间保持高度一致。
关键局限： 社区用户报告称，此功能目前常常默认使用较旧的、不带音频的 Veo 2 模型。这意味着用户不得不在**“一致性”和“Veo 3 的音画质量”**之间做出权衡 41。

8.3 用“帧”生成动画 (Frames to Video)

此功能允许用户提供一个起始帧和一个结束帧，Veo 会自动生成两者之间的过渡动画 37。

应用场景： 非常适合制作简单的镜头推拉（dolly-in）、物体展示（object reveals）或将静态产品照片制作成动态视频。
局限： 与“素材”功能类似，据报道该功能也主要依赖 Veo 2 模型，因此缺乏 Veo 3 的完整音频和高质量输出能力 41。

Flow 的设计理念远超一个简单的用户界面。它的每一个核心功能——Scenebuilder 的 Extend 和 Jump to、“素材”库、以及“帧”动画——都旨在将孤立的生成片段联系起来。Extend 在时间上连接片段，Jump to 在语境上连接片段，而 Ingredients 则通过可复用的视觉资产在主题上连接片段。因此，Flow 的首要目标是充当创意过程的“状态管理系统”，确保上下文信息能够从一个片段无缝传递到下一个片段。Gemini 模型在后台的深度参与，也正是为了辅助实现这种跨片段的一致性 37。

对于创作者而言，这意味着不应将 Flow 仅仅视为一个输入提示词的地方，而应将其作为一个完整的叙事构建工具包。最高效的工作流程是：首先生成一个“关键帧”或“英雄镜头”，将其保存为“素材”，然后以此为锚点，利用 Scenebuilder 构建整个故事序列。这种方法从根本上改变了创作过程，从生成随机的、不连贯的片段，转变为构建一个结构化、有逻辑的视觉叙事。

第九章：最后的润色——将 Veo 整合进后期制作

本章将探讨专业工作流程的最后环节：如何将从 Veo 生成的原始素材进行精细打磨，以达到最终交付标准。

9.1 从 Veo/Flow 导出

标准输出： 生成的视频通常为 720p 或 1080p 分辨率的 MP4 文件 18。
Flow 的增强功能： Google Flow 平台提供了将视频提升至 1080p 的选项，并支持下载为 GIF 格式，便于社交媒体分享 37。

9.2 与 DaVinci Resolve 和 Adobe Premiere Pro 的工作流程

专业创作者普遍认为，AI 只能完成约90%的工作，而剩下的10%的关键润色，则离不开专业的后期制作软件 16。

常见后期任务：
1. 剪辑与调速： 将多个 Veo 生成的片段拼接在一起，精细调整剪辑点，控制叙事节奏 46。
2. 色彩校正与分级： 应用 LUTs（色彩查找表），调整对比度、饱和度和色调，以确保所有片段的视觉风格统一，并达到专业的电影感 47。
3. 音频混合： 尽管 Veo 3 能生成原生音频，但其音量或细节可能不足。后期制作中，通常会替换或叠加更专业的旁白（例如使用 ElevenLabs 生成）、混入精心挑选的背景音乐，并精细调整音效的层次和音量 16。
4. 添加图形与视觉特效 (VFX)： 叠加品牌标志、标题文字、或其它在 Veo 中难以生成的复杂视觉效果 16。

9.3 官方集成与插件

虽然“导出-导入”是当前的标准工作流程，但直接的软件集成正在成为趋势，这将极大地提升工作效率。

Adobe 生态系统集成： Adobe 已宣布将 Veo 等 Google 模型直接集成到其 Firefly AI 生态系统中。这意味着用户可以在 Firefly 内部调用 Veo 生成视频，并将内容无缝同步到 Creative Cloud，直接在 Adobe Premiere Pro 或 Photoshop 中继续编辑 50。
第三方插件： 社区中也提及了针对 Adobe Premiere Pro 等软件的第三方插件，这些插件旨在简化 Veo 素材的导入和编辑流程，例如进行图层叠加或手动修改 49。这一趋势值得密切关注，因为它预示着 AI 生成工具将更深度地融入现有的专业创作管线。

第四部分：对比分析与基准测试

本部分通过将 Veo 的输出与各种基准进行比较，为用户提供关键的背景信息，以帮助他们在不同场景下做出明智的工具选择和参数设置。

第十章：Veo 对比 Veo——受控提示词测试

本节将进行一系列 A/B 测试，以隔离特定变量对生成结果的影响，从而揭示模型不同模式下的行为差异。

10.1 “质量模式” vs. “快速模式”

通过在 Veo 3 中使用完全相同的提示词，分别在“质量 (Quality)”和“快速 (Fast)”模式下生成视频，可以直观地比较两者的差异 53。

分析：
- 质量模式： 输出的视频在视觉上更为精致，光影处理更细腻，纹理细节更丰富，音频质量也更高。然而，这需要消耗更多的计算资源（即更多的积分）和更长的生成时间。此模式适用于最终成片的渲染 54。
- 快速模式： 生成速度显著提升，积分消耗更低（通常是质量模式的1/5到1/8）。这使其成为快速迭代、测试创意和进行原型设计的理想选择。但代价是，视频在细节上可能会有所妥协，例如皮肤纹理、光线反射等方面可能不如质量模式精细 54。

10.2 Veo 2 vs. Veo 3

使用相同的提示词在 Veo 2 和 Veo 3 上分别生成视频，将直观地展示技术演进带来的飞跃。对比将集中在以下方面：

视觉质量： Veo 3 在细节、真实感和伪影控制方面的提升。
物理模拟： 比较两者在处理运动、碰撞和流体等物理现象时的逼真程度。
音频： 最显著的区别，Veo 2 输出为无声视频，而 Veo 3 则带有同步音频。这将生动地展示 Veo 3 如何将“默片”变为有声电影。

10.3 “电影感” vs. “照片级真实”：风格对决

这是一项受控测试，使用一个高度详细的提示词，仅改变其中的核心风格关键词，以探究两者对最终画面的影响。

测试提示词（基于 27）：
“Cinematic drone shot, aerial view, vast desolate abandoned city, crumbling skyscrapers overgrown with thick vines, overturned rusted cars, dust storms, muted color palette, sunlight piercing through clouds, fine dust motes in the air, lonely resilient weed growing from cracked concrete, post-apocalyptic, hyperrealistic, 8k, film grain.”
测试变量：
1. 版本A (电影感): 保持提示词中的 Cinematic 关键词。
2. 版本B (照片级真实): 将 Cinematic 替换为 Photorealistic。
预期结果分析：
- “Photorealistic” (照片级真实): 预计模型将优先考虑模拟真实世界的光学和物理规律。输出的画面会力求精确的纹理、逼真的光线反射和符合物理学的动态效果，整体感觉像是一台真实的摄像机记录下的影像 26。
- “Cinematic” (电影感): 预计模型会优先考虑艺术化和风格化的元素。输出的画面可能包含更具戏剧性的光影对比（如高光和深邃的阴影）、特定的色彩分级（如青色/橙色调）、更平滑流畅的镜头运动，以及胶片颗粒感等。它追求的是一种“被拍摄”和“被导演”的美学，即使这意味着在某种程度上牺牲了绝对的物理真实性 18。

这次对决旨在揭示，对于 Veo 而言，“真实”和“电影感”是两个可以被区分和独立控制的创作维度。

第十一章：Veo 在 AI 视频领域的版图——竞争格局快照

本节将 Veo 3 与其主要竞争对手进行简明扼要的比较，帮助用户理解其在整个行业中的定位。

11.1 Veo 3 vs. OpenAI Sora

Veo 3 的优势：
- 原生音频生成： 这是 Veo 3 相对于 Sora（目前仍是无声模型）最核心的优势 10。
- 强大的生态系统集成： 与 Google Flow, Gemini, Vertex AI 等工具深度整合，形成了一个从创意到制作的完整工作流 26。
- 对电影语言的精准理解： Veo 在遵循复杂的镜头运动和风格指令方面表现出色 27。
Sora 的优势：
- 更长的视频生成： 能够生成长达60秒的视频，更适合长镜头的叙事 26。
- 对超现实创意的灵活性： 在处理高度想象力、超现实或梦幻般的提示词时，Sora 可能表现出更强的灵活性和创造力 27。
- 长时程的叙事连贯性： 在较长的片段中，Sora 展示了强大的保持叙事和主体一致性的能力。
核心定位差异： Veo 更像是一个置于完整生产生态系统中的电影制作工具，而 Sora 则更像一个强大的、通用的世界模拟器 27。

11.2 Veo 3 vs. Kling 和 Runway

Kling (快手): 是一个强有力的竞争者，尤其在真实感和运动模拟方面备受赞誉。一些比较显示，Kling 的视频质量有时能与 Veo 2 媲美甚至超越。然而，Veo 3 凭借其原生音频和通过 Flow 实现的强大控制力，依然保持着差异化优势。此外，Kling 在定价上可能更具竞争力 60。
Runway: 作为一个更成熟的平台，Runway 提供了超越简单视频生成的全套“AI 魔法工具”，如视频修复 (inpainting)、运动跟踪等。然而，其核心的视频生成模型（Gen-3/Gen-4）在原始生成质量和真实感方面，普遍被认为已落后于 Google 和 Kling 的最新模型 63。Runway 的优势在于其全面的后期编辑能力。

表4：AI 视频生成器竞争矩阵 (2025年第三季度)

下表提供了主要 AI 视频生成器在核心功能上的横向对比，为用户选择工具提供数据支持。

功能	Google Veo 3	OpenAI Sora	Kling 2.1	Runway Gen-4
最高分辨率	4K 5	1080p 10	1080p 66	1080p 63
最长生成时长	> 1分钟 2	60秒 26	2分钟 66	16秒 63
原生音频	✅ 是 1	❌ 否 27	❌ 否 63	❌ 否 63
口型同步	✅ 是 10	❌ 否	✅ 是 63	✅ 是 63
镜头控制	✅ 是 67	❌ 否 (主要)	✅ 是 63	✅ 是 63
图像输入	✅ 是 35	✅ 是 27	✅ 是 63	✅ 是 64
视频输入	❌ 否 (主要)	❌ 否	❌ 否	✅ 是 (视频到视频) 64
API 访问	✅ 是 (Vertex AI) 49	待定	待定	✅ 是
独特功能	Google Flow 生态系统，原生音频	世界模拟能力，长时程连贯性	3D人脸与身体重建 66	全套 AI 视频编辑工具

这张表格清晰地揭示了不同工具之间的权衡。例如，如果项目必须包含原生音频，Veo 3 是不二之选。如果需要对现有视频进行 AI 编辑，Runway 可能是更好的选择。

第五部分：参考资料库

本部分提供一个实用的、可供日常快速查阅的工具包，旨在将前述理论知识转化为即时可用的资源。

第十二章：Veo 提示词库

这是一个经过精心策划和组织的、高质量的提示词集合，用户可以直接复制、粘贴并根据自身需求进行修改。所有示例均来源于研究材料中验证过的成功案例。

12.1 按类型划分

科幻 (Sci-Fi):
- 提示词： A cyberpunk woman glides through neon-lit streets on a high-tech hover skateboard. Her cybernetic enhancements glow with electric blue circuits as she performs gravity-defying tricks between holographic advertisements. The city’s towering skyscrapers reflect in her mirrored visor. Steam rises from street vents as she weaves through the crowded, rain-slicked streets of the future metropolis. 68
- 预期结果： 一个充满动感和未来科技感的赛博朋克城市场景，强调光影、反射和高速运动。
- 关键技巧： 丰富的细节描述（electric blue circuits, holographic advertisements, rain-slicked streets）和强烈的风格引导（cyberpunk）。
黑色电影 (Film Noir):
- 提示词： Film noir style, man and woman walk on the street, mystery, cinematic, black and white. High-contrast lighting, deep shadows, a single streetlamp illuminates the scene as rain falls gently. 14
- 预期结果： 一个具有经典黑色电影美学的场景，强调高对比度黑白画面、悬疑氛围和情绪化的光影。
- 关键技巧： 明确的类型风格（Film noir style）和与之匹配的光线描述（High-contrast lighting, deep shadows）。
历史冒险 (Historical Adventure):
- 提示词： A medium shot, historical adventure setting: Warm lamplight illuminates a cartographer in a cluttered study, poring over an ancient, sprawling map spread across a large table. He says, “According to this old sea chart, the lost island isn’t myth! We must prepare an expedition immediately!”. Audio: the soft scratch of a quill pen, rustling paper, a distant ticking clock. 29
- 预期结果： 一个充满时代感和探索精神的室内场景，包含角色对话和细致的环境音。
- 关键技巧： 结合了情境（cluttered study）、角色动作（poring over an ancient map）、对话和环境音频。

12.2 按电影技术划分

延时摄影 (Timelapse):
- 提示词： Timelapse of a beautiful sunflower opening its petals to the sun over the course of a day. The camera is static, capturing the full bloom from bud to flower. Bright, natural lighting. 2
- 预期结果： 一个压缩时间的动态过程，展示花朵绽放的完整瞬间。
- 关键技巧： 明确使用 Timelapse 关键词，并描述一个有清晰开始和结束状态的过程。
推轨变焦 (Dolly Zoom):
- 提示词： A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man… The shallow depth of field focuses on his furrowed brow… Creating a sense of urgency and isolation. 13
- 预期结果： 一种具有强烈视觉冲击力的镜头，背景在主体接近的同时发生扭曲，常用于营造眩晕或紧张感。
- 关键技巧： 明确指定 dolly zoom，并配合情感和构图描述来强化效果。
主观视角 (POV):
- 提示词： A POV shot from a vintage car driving in the rain, Canada at night, cinematic. Windshield wipers swipe back and forth, revealing blurry city lights. 14
- 预期结果： 模拟驾驶员视角，提供强烈的沉浸感。
- 关键技巧： 使用 POV shot 作为核心指令，并添加丰富的感官细节（rain, wipers, blurry lights）。

12.3 按应用场景划分

产品广告：
- 提示词： An extreme close-up, cinematic shot of a luxury watch. Light glints off the polished steel and sapphire crystal. The second hand sweeps smoothly. The background is a soft, out-of-focus bokeh. Audio: a soft, satisfying ticking sound and a subtle, elegant musical score. 17
- 预期结果： 一个突出产品细节和质感的高端广告镜头。
- 关键技巧： 结合 extreme close-up 构图和光线描述（light glints）来强调产品美学，并用音频提升质感。
社交媒体 B-Roll：
- 提示词： A wide shot of a woman walking along the beach, looking content and relaxed and looking towards the horizon at sunset. Warm golden light. Audio: gentle waves lapping the shore, distant seagulls. 14
- 预期结果： 一段唯美、宁静的风景人物视频，适合用作背景素材。
- 关键技巧： 描述一种普遍的、积极的情绪（content and relaxed）和氛围（warm golden light），并配以相应的环境声。
角色独白：
- 提示词： A medium shot frames an old sailor, his knitted blue sailor hat casting a shadow over his eyes, a thick grey beard obscuring his chin. He holds his pipe in one hand, gesturing with it towards the churning, grey sea beyond the ship’s railing. He says with a gravelly voice, “This ocean, it’s a force, a wild, untamed might. And she commands your awe, with every breaking light”. 5
- 预期结果： 一段充满故事感的角色独白，包含具体的角色外貌、动作、对话和语气描述。
- 关键技巧： 对角色进行细致的视觉刻画，并直接写入台词和声音特质（gravelly voice）。

第十三章：电影与 AI 提示词术语表

本词典旨在为用户提供一个全面的参考，解释本指南中使用的关键电影制作和 AI 提示词术语。

Ambiance (氛围): 场景的整体情绪或感觉，通常由光线、色彩和声音共同营造。
Aspect Ratio (宽高比): 视频画面的宽度与高度之比，如 16:9 (宽屏) 或 9:16 (竖屏)。
Chiaroscuro (明暗对照法): 一种艺术技巧，使用强烈的明暗对比来塑造三维感和戏剧性。
Dolly Shot (推轨镜头): 摄像机安装在移动轨道（dolly）上，平滑地向主体靠近或远离。
Film Grain (胶片颗粒): 模拟传统胶片摄影中可见的微小颗粒，能增加复古感和质感。
Latent Space (潜在空间): 一个高维度的数学空间，AI 模型在此空间中学习和表示数据的模式。视频生成可以被看作是在这个空间中从噪声导航到目标表征的过程。
Negative Prompt (负向提示词): 一组关键词，用于告诉 AI 模型在生成结果中应该避免哪些元素或风格。
Pan (摇镜): 摄像机在固定点上进行水平转动。
Photorealistic (照片级真实): 一种追求极致真实感的风格，力求生成结果与真实照片或视频无法区分。
POV (Point of View / 主观视角): 一种镜头类型，模拟角色眼中所看到的景象。
Prompt Theory (提示词理论): 一种高级的提示词工程方法，将提示词视为对 AI 的表演指导，通过编排情感、动作和叙事来控制生成结果。
Seed (种子): 一个数字，用于初始化随机过程。在 AI 生成中，使用相同的种子和提示词可以产生确定性的、可复现的结果。
Tracking Shot (跟踪镜头): 摄像机跟随一个移动的主体进行移动，以保持其在画面中的位置。

第六部分：AI 影视制作的未来

本部分将着眼于当前技术的局限性，并结合专家观点，展望这项颠覆性技术的未来发展轨迹。

第十四章：挑战与前路

尽管 Veo 及其同类工具取得了惊人的进步，但要实现真正成熟的 AI 影视制作，仍面临诸多挑战。

当前局限性：
1. 长时程内容的连贯性 (Coherence in Long-Form Content): 这是目前 AI 视频生成最核心的挑战。虽然 Google Flow 等工具通过场景构建器和素材库等功能试图解决这个问题，但在超过几分钟的视频中，要保持角色外观、物体状态和叙事逻辑的绝对一致性仍然极其困难。AI 容易在不同片段间产生细微的“漂移”，破坏沉浸感 69。
2. 物理世界的合理性 (Physical Plausibility): 尽管 Veo 2/3 在物理模拟上有所提升，但模型有时仍会生成视觉上引人入胜但违背基本物理定律的场景。例如，不自然的流体运动、错误的阴影方向或不合逻辑的物体交互 72。
3. 控制与自动化的平衡 (Control vs. Automation): 创作者面临一个持续的矛盾：一方面希望 AI 能有创造性的即兴发挥，带来惊喜；另一方面又需要对生成结果进行精确到帧的控制。目前，实现这种既可控又具创造力的平衡仍然是一个难题 8。
4. “恐怖谷”效应 (The “Uncanny Valley”): 尤其在生成人脸和手部时，AI 仍然可能产生微小的畸变或一种“过于完美”的塑料感，这种细微的不自然会极大地破坏观众的信任感 56。

第十五章：专家预测与 Veo 4 路线图

专家预测： 行业专家的共识是，AI 视频生成的未来发展将聚焦于更精细的控制力、更丰富的风格定制化以及与现有工作流程的更深度集成 73。竞争的焦点正从单纯的比拼原始生成能力（如分辨率、时长），转向
盈利能力和实际应用价值 73。这意味着未来的模型必须更容易被整合进广告、电影和教育等行业的实际生产管线中。
Veo 4 及未来的功能预测（基于当前发展轨迹）：
1. 更长的生成时长与叙事能力： 下一步的突破将是原生支持数分钟甚至更长的视频生成，并内置更强的叙事逻辑理解能力，能够处理更复杂的剧本结构。
2. 完全集成的平台内编辑： Google Flow 将可能演变成一个功能更强大的在线剪辑平台，集成调色、音效混合、VFX 等高级功能，从而在很大程度上减少对外部后期软件的依赖。
3. 代理式生成 (Agentic Capabilities): 未来的 Veo 生态系统可能会引入 AI 代理。用户只需输入一份完整的剧本，AI 代理就能自动完成分镜、镜头生成、剪辑和配乐，最终输出一个完整的粗剪版本 74。
4. 交互式与实时生成： 用户将能够在生成过程中进行实时反馈和调整，而不是等待整个片段生成完毕。这将把生成过程从一个“黑箱”操作，变为一个与 AI 协同创作的动态交互过程。

结论与伦理考量

Google Veo 及其代表的 AI 视频生成技术，正以前所未有的速度重塑内容创作的版图。本指南通过系统性地解构提示词工程，旨在为创作者提供一套从基础到高级的完整方法论，将这一强大工具的潜力发挥到极致。从理解 Veo 的技术演进，到掌握“剧本式”提示词的七大支柱，再到运用“提示词理论”指导数字演员的表演，以及通过 Google Flow 构建连贯的叙事，我们看到，AI 视频创作正从一种技术演示，演变为一门融合了编剧、导演、摄影和声音设计等多重学科的全新艺术形式。

然而，技术的飞速发展也伴随着深刻的伦理挑战。生成内容的真实性引发了对虚假信息和深度伪造的广泛担忧。为此，Google 等公司正在积极推广 SynthID 等数字水印技术，以提高 AI 生成内容的可追溯性和透明度 2。同时，这项技术对传统创意产业就业岗位的冲击，以及对原创性和版权的重新定义，也是整个社会需要共同面对和探讨的议题 8。

对于今天的创作者而言，最佳策略不是抗拒，而是理解、掌握并引导这项技术。AI 不应被视为人类创造力的替代品，而应被看作一个强大的协作者——一个能够将想象力以前所未有的效率和规模转化为视觉现实的工具。掌握了本指南中的原则和技巧，创作者将不仅能够驾驭 Veo，更能够在这场由 AI 引领的创意革命中，找到属于自己的、不可替代的位置。

Works cited

Veo (text-to-video model) - Wikipedia, accessed June 19, 2025, https://en.wikipedia.org/wiki/Veo_(text-to-video_model)
What is Google Veo? Inside the AI Video Generator - EM360Tech, accessed June 19, 2025, https://em360tech.com/tech-articles/what-google-veo-inside-ai-video-generator
State-of-the-art video and image generation with Veo 2 and Imagen 3 - Google Blog, accessed June 19, 2025, https://blog.google/technology/google-labs/video-image-generation-update-december-2024/
Google’s new Veo 3 could land on YouTube Shorts this summer - Android Central, accessed June 19, 2025, https://www.androidcentral.com/apps-software/ai/google-veo-3-youtube-shorts-integration-creator-creativity-report
Veo - Google DeepMind, accessed June 19, 2025, https://deepmind.google/models/veo/
Google’s Veo 3 marks the end of AI video’s ‘silent era’ | TechRadar, accessed June 19, 2025, https://www.techradar.com/computing/artificial-intelligence/googles-veo-3-marks-the-end-of-ai-videos-silent-era
Veo 3 Tech Report - Googleapis. Com, accessed June 19, 2025, https://storage.googleapis.com/deepmind-media/veo/Veo-3-Tech-Report.pdf
With the new Google VEO 3, is the VFX industry at risk? : r/vfx - Reddit, accessed June 19, 2025, https://www.reddit.com/r/vfx/comments/1kv535w/with_the_new_google_veo_3_is_the_vfx_industry_at/
Mastering Google Veo 3: A Beginner’s Guide to AI Video Generation : r/NextGenAITool, accessed June 19, 2025, https://www.reddit.com/r/NextGenAITool/comments/1kycdb8/mastering_google_veo_3_a_beginners_guide_to_ai/
Google’s Veo 3: AI Video Generation Model Overview - - AI-Pro. Org, accessed June 19, 2025, https://ai-pro.org/learn-ai/articles/googles-veo-3-ai-video-generation-model/
Bring your ideas to life: Veo 2 video generation available for developers, accessed June 19, 2025, https://developers.googleblog.com/en/veo-2-video-generation-now-generally-available/
Meet Flow: AI-powered filmmaking with Veo 3 - Google Blog, accessed June 19, 2025, https://blog.google/technology/ai/google-flow-veo-ai-filmmaking-tool/
How to prompt Veo 3 for the best results – Replicate blog, accessed June 19, 2025, https://replicate.com/blog/using-and-prompting-veo-3
Vertex AI video generation prompt guide - Google Cloud, accessed June 19, 2025, https://cloud.google.com/vertex-ai/generative-ai/docs/video/video-gen-prompt-guide
From idea to viral video: the GenAI workflow you need - Google Cloud Community, accessed June 19, 2025, https://www.googlecloudcommunity.com/gc/Community-Blogs/From-idea-to-viral-video-the-GenAI-workflow-you-need/ba-p/892681
Google’s Veo 3: A Guide With Practical Examples - DataCamp, accessed June 19, 2025, https://www.datacamp.com/tutorial/veo-3
(PDF) Cinematic AI: Mastering Prompt Engineering for Veo 3 Video Generation The Complete Guide to Creating Professional Movies with AI - ResearchGate, accessed June 19, 2025, https://www.researchgate.net/publication/392161396_Cinematic_AI_Mastering_Prompt_Engineering_for_Veo_3_Video_Generation_The_Complete_Guide_to_Creating_Professional_Movies_with_AI
Veo: A Comprehensive Guide to Usage, Features, and Effective Prompting, accessed June 19, 2025, https://daily.promptperfect.xyz/p/veo-prompt-guide
Get started with Video generation using Veo - Colab - Google, accessed June 19, 2025, https://colab.research.google.com/github/google-gemini/cookbook/blob/main/quickstarts/Get_started_Veo.ipynb
Benchmarks - Veo - Google DeepMind, accessed June 19, 2025, https://deepmind.google/models/veo/evals/
Google Flow: The AI Tool That Makes Pro Video Creation Easy, accessed June 19, 2025, https://www.imagine.art/blogs/google-flow-overview
Guide to Creating Stable Diffusion Prompts - AI-Pro. Org, accessed June 19, 2025, https://ai-pro.org/learn-ai/articles/guide-to-creating-stable-diffusion-prompts/
Best Negative Prompts for Stable Diffusion, accessed June 19, 2025, https://blog.segmind.com/best-negative-prompts-in-stable-diffusion/
What is Veo 2: The Art and Practice of AI Video Generation - Monica, accessed June 19, 2025, https://monica.im/blog/what-is-veo-2/
Get the most from Google Veo 3 – Replicate blog, accessed June 19, 2025, https://replicate.com/blog/veo-3
Google Veo 3 Explained: How It Stacks Up Against OpenAI’s Sora - DaveAI, accessed June 19, 2025, https://www.iamdave.ai/blog/google-veo-3-explained-how-it-stacks-up-against-openais-sora/
Google VEO 3 vs OpenAI Sora Tested: You Won’t Believe the Results, accessed June 19, 2025, https://www.allaboutai.com/comparison/google-veo-vs-openai-sora/
Google VEO 2 AI Full Guide! Create Stunning Videos & Animations from Text Prompts (100% Free) - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=8Nuu6-J_Xv8
Announcing Veo 3, Imagen 4, and Lyria 2 on Vertex AI | Google Cloud Blog, accessed June 19, 2025, https://cloud.google.com/blog/products/ai-machine-learning/announcing-veo-3-imagen-4-and-lyria-2-on-vertex-ai
How to Generate Google Veo 3 Prompt Theory Videos (Google Veo 3 Prompt Guide), accessed June 19, 2025, https://apidog.com/blog/google-veo-3-prompt-theory/
Google Veo 3 - Basic Prompt Tutorial - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=p-svK8d3iLc
R/GeminiAI on Reddit: Veo 3 Video Prompt Guide - Tips for Making …, accessed June 19, 2025, https://www.reddit.com/r/GeminiAI/comments/1kukfz0/veo_3_video_prompt_guide_tips_for_making_epic_veo/
Google Veo 2: Video Prompting Guide - Shep Bryan, accessed June 19, 2025, https://www.shepbryan.com/blog/google-veo-2-video-prompt-guide
Veo | AI Video Generator | Generative AI on Vertex AI - Google Cloud, accessed June 19, 2025, https://cloud.google.com/vertex-ai/generative-ai/docs/video/generate-videos
Generate video using Veo | Gemini API | Google AI for Developers, accessed June 19, 2025, https://ai.google.dev/gemini-api/docs/video
Veo 3 Generate 001 Preview allowlist | Generative AI on Vertex AI - Google Cloud, accessed June 19, 2025, https://cloud.google.com/vertex-ai/generative-ai/docs/models/veo/3-0-generate-preview
Flow - Google Labs, accessed June 19, 2025, https://labs.google/fx/tools/flow/faq
VEO 3 FLOW Full Tutorial - How To Use VEO3 in FLOW Guide - Hugging Face, accessed June 19, 2025, https://huggingface.co/blog/MonsterMMORPG/veo-3-flow-full-tutorial-how-to-use-veo3-in-flow
Creating in Flow | How to use Google’s new AI Filmmaking Tool - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=9nVEfjmDlVk
VEO 3 FLOW Full Tutorial - How To Use VEO3 in FLOW Guide - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=AoEmQPU2gtg
What is Google VEO 3? - Shai Creative, accessed June 19, 2025, https://shaicreative.ai/what-is-google-veo-3/
How Google Veo 3 Will Make Your Ads Go VIRAL - Valuex2. Com, accessed June 19, 2025, https://www.valuex2.com/how-google-veo-3-will-make-your-ads-go-viral/
I Signed Up for Google AI Ultra —Here’s What I Created With My VEO3 Credits in 8 hours : r/Bard - Reddit, accessed June 19, 2025, https://www.reddit.com/r/Bard/comments/1l8r48z/i_signed_up_for_google_ai_ultra_heres_what_i/
AI Videos in 2025 Are Getting Crazy! Google Veo 3 TUTORIAL! - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=c7R94ykz0po
Everything About Google Veo 3 - For Creators and AI Filmmakers, accessed June 19, 2025, https://www.imagine.art/blogs/veo-3-faqs
We Tested Google Veo and Runway to Create This AI Film. It Was Wild. | WSJ - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=US2gO7UYEfY
My Color Grading Process in Davinci Resolve - Simple & Effective! - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=sAv9wOA-Ky8
How to bring Veo 2 videos to life with ElevenLabs voiceovers and sound effects, accessed June 19, 2025, https://elevenlabs.io/blog/how-to-bring-veo-2-videos-to-life-with-elevenlabs-voiceovers-and-sound-effects
Google Veo 3: The Ultimate Pratical Guide to Mastering AI Video Generation in 2025, accessed June 19, 2025, https://axis-intelligence.com/google-veo-3-complete-guide/
Adobe Firefly Revolutionizes Creative Ideation with New Mobile App, Multimedia Moodboarding and Expanded AI Models, accessed June 19, 2025, https://news.adobe.com/news/2025/06/adobe-firefly-revolutionizes-creative-ideation-new-mobile-app
Adobe Firefly just launched on mobile — here’s what creators can do with it | Tom’s Guide, accessed June 19, 2025, https://www.tomsguide.com/ai/ai-image-video/adobes-ai-image-generator-goes-mobile-heres-why-its-a-game-changer-for-creators
Adobe Revolutionizes AI-Assisted Creativity with Firefly, the All-In-One Home for AI Content Creation, with New Partner and Firefly Models, accessed June 19, 2025, https://news.adobe.com/news/2025/04/adobe-revolutionizes-ai-assisted-creativity-firefly
Google VEO 3 vs VEO 2 Prompt Comparison Test - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=Z2j5cwYDXQM
Google Veo 3 FAST/TURBO mode is now available! Five times the cost-effective, AI video generation enters the hyper-speed era! - AIbase, accessed June 19, 2025, https://www.aibase.com/news/18743
Google VEO 3 VS SORA: Google’s New AI Video Generation Model Impresses the World, accessed June 19, 2025, https://deevid.ai/blog/google-veo-3-vs-sora-googles-new-ai-video-generation-model-impresses-the-world
New Google Video Generator Veo 3 Is Breaking Reality! Are We Cooked? - Fello AI, accessed June 19, 2025, https://felloai.com/2025/06/new-google-video-generator-veo-3-is-breaking-reality-are-we-cooked/
How Does Veo 3’s Video and Audio Generation Enhance AI Filmmaking with Google Flow? - Cognitive Today : The New World of Machine Learning and Artificial Intelligence, accessed June 19, 2025, https://www.cognitivetoday.com/2025/06/how-does-veo-3s-enhance-ai-filmmaking-with-google-flow-2/
Is Google’s Veo 3 Really a Game-Changer for Food, Beverage & Hospitality Marketers?, accessed June 19, 2025, https://www.marriner.com/blog/is-googles-veo-3-really-a-game-changer-for-food-beverage-hospitality-marketers/
Veo-2 vs Sora: What Google Has (That OpenAI Doesn’t) - Themesis, Inc., accessed June 19, 2025, https://themesis.com/2025/01/07/veo-2-vs-sora-what-google-has-that-openai-doesnt/
Comparison of the 8 leading AI Video Models : r/StableDiffusion - Reddit, accessed June 19, 2025, https://www.reddit.com/r/StableDiffusion/comments/1kw93qk/comparison_of_the_8_leading_ai_video_models/
Veo 3 vs. Midjourney + Kling 2.0 : r/aivideo - Reddit, accessed June 19, 2025, https://www.reddit.com/r/aivideo/comments/1krg0ab/veo_3_vs_midjourney_kling_20/
VEO 3 vs Kling AI 2.1 - YouTube, accessed June 19, 2025, https://www.youtube.com/watch?v=PVtm0SAPztE
Best AI Video Generator: A Detailed Comparison Of 10 Tools - MASV, accessed June 19, 2025, https://massive.io/gear-guides/the-best-ai-video-generator-comparison/
A Complete Guide to Runway - Learn Prompting, accessed June 19, 2025, https://learnprompting.org/blog/guide-runwayml
Runway Gen-3 vs. Kling AI: Which Video Generator Reigns Supreme?, accessed June 19, 2025, https://www.toolify.ai/ai-news/runway-gen3-vs-kling-ai-which-video-generator-reigns-supreme-3307596
Is Kling AI Private? Everything You Need to Know (2025), accessed June 19, 2025, https://word-spinner.com/blog/is-kling-ai-private/
Google’s Veo 3: Everything You Need To Know - AI Tools, accessed June 19, 2025, https://www.godofprompt.ai/blog/googles-veo-3-everything-you-need-to-know
Prompt examples - Veo 3 - Fal. Ai, accessed June 19, 2025, https://fal.ai/models/fal-ai/veo3/examples
What are the current challenges in AI video creation? : r/aiwars - Reddit, accessed June 19, 2025, https://www.reddit.com/r/aiwars/comments/1get6jk/what_are_the_current_challenges_in_ai_video/
AI’s Challenge in Video Production: Can It Master the Art of Storytelling Continuity?, accessed June 19, 2025, https://www.philipcrewe.net/2024/10/11/ai-video-production-challenges-storytelling-continuity/
Analysis of AI Video Generation: The Good, The Bad, and The Potential - FlowChai, accessed June 19, 2025, https://flowch.ai/news/cd6de764-analysis-of-ai-video-generation-the-good-the-bad-and-the-potential
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction - arXiv, accessed June 19, 2025, https://arxiv.org/html/2502.05503v1
AI Video Generation Race Shifts from Capability to Profitability …, accessed June 19, 2025, https://syncedreview.com/2025/03/10/ai-video-generation-race-shifts-from-capability-to-profitability-challenging-soras-dominance/
Google I/O 2025: major AI updates to Search, Gemini, and creative tools - ContentGrip, accessed June 19, 2025, https://www.contentgrip.com/google-io2025-marketing-updates/
7 Outstanding Google AI Search Features from Google Marketing Live 2025 - Pandora Agency Ltd, accessed June 19, 2025, https://www.pandoraagency.co/7-outstanding-google-ai-search-features-from-google-marketing-live-2025/
Google’s Veo 3 Can Make Deepfakes of Riots, Election Fraud, Conflict - Time Magazine, accessed June 19, 2025, https://time.com/7290050/veo-3-google-misinformation-deepfake/
What are your thoughts on Google Veo 2? : r/vfx - Reddit, accessed June 19, 2025, https://www.reddit.com/r/vfx/comments/1ksw4yw/what_are_your_thoughts_on_google_veo_2/