Veo 3.1

Google 旗舰 AI 视频生成,原生音频和高级角色一致性。
以 720p、1080p 或 4K 创建专业视频,同步对话、音效和环境音频。

什么是 Veo 3.1?

Veo 3.1 是 Google 的旗舰生产就绪视频生成模型。它是一个统一系统,使用联合扩散一起处理音频和视频,而不是作为单独的步骤。该模型以 720p、1080p 或 4K 分辨率生成 8 秒视频,横向(16:9)或垂直(9:16)格式。通过场景扩展,您可以链接最多 20 个片段以创建超过 140 秒的视频,同时保持视觉一致性。音频与屏幕动作自然同步,对话与嘴唇动作匹配,精度低于 120 毫秒。

原生音频生成

统一的音频和视频处理。生成唇同步精度低于 120 毫秒的对话、与视觉事件同步的音效以及 48kHz 专业质量的环境音景。

Ingredients to Video

上传最多 3 张参考图像以实现角色一致性。在不同设置和角度中保持面部特征、服装和外观。适用于角色、产品和物体。

场景扩展

链接最多 20 个扩展以创建 140+ 秒视频。分析最后 24 帧以生成无缝的 7 秒延续。跟踪位置、光照、相机视角和运动轨迹。

4K 分辨率与垂直格式

以 720p、1080p 或 4K 分辨率输出。原生支持 YouTube Shorts、TikTok 和 Instagram 的垂直 9:16 视频。传统平台的横向 16:9。

为什么选择 Veo 3.1

Veo 3.1 提供具有前所未有的音视频同步的生产就绪视频生成。

联合音视频扩散

一起处理音频和视频,而不是分开。音频与屏幕动作自然同步,对话与嘴唇动作匹配,环境声音响应视觉环境。专业 48kHz 音频质量。

高级角色一致性

Ingredients to Video 在场景中保持角色外观。即使生成不同设置或角度,也保持相同的面部特征、服装和造型。适用于产品、时尚和品牌。

Frames to Video 控制

定义起始和结束帧。Veo 3.1 生成帧之间的过渡,配有音频。对叙事结构和关键时刻的精确控制。

视频内编辑

将新元素插入现有视频,具有自然的阴影、反射和光照。删除不需要的元素(开发中)。无需从头重新生成即可迭代。

多人对话

在提示词中使用引号指定对话。生成与嘴唇动作同步的语音。处理对话轮流和多个说话者,具有真实的情感和语调。

顶级基准

MovieGenBench 和 VBench 显示提示词遵循、视觉质量和音频同步的顶级性能。在多元素提示词和时间一致性方面始终优于竞争对手。

Veo 3.1 可以创建什么?

Veo 3.1 擅长跨多种用例的生产就绪视频创作,具有同步音频。

如何使用 Veo 3.1

创建带有同步音频的专业视频:

1

文本生成视频

用自然语言描述您的愿景。以 720p、1080p 或 4K 生成 4、6 或 8 秒视频。在引号中指定对话以实现同步语音。选择横向或垂直格式。

2

Ingredients to Video

上传最多 3 张角色、产品或物体的参考图像。生成在不同设置和角度中保持视觉一致性的视频。非常适合品牌活动和角色驱动的内容。

3

场景扩展

链接最多 20 个扩展以创建 140+ 秒视频。编写描述自然进展的提示词。模型跟踪角色位置、光照和运动以实现无缝延续。

4

Frames to Video

提供起始和结束帧。Veo 3.1 生成配有音频的过渡。控制叙事结构和关键时刻,同时模型填充真实运动。

常见问题

关于 Veo 3.1 AI 视频生成模型的常见问题。







准备好使用 Veo 3.1 创作了吗?

Google 旗舰 AI 视频生成,原生音频。以 720p、1080p 或 4K 创建具有角色一致性的专业视频。