谷歌推出全新视频与图片AI模型

近日，谷歌再次展现了其在人工智能（AI）领域的强大研发实力，正式发布了多款用于生成视频和图片的全新AI模型。这些新模型在图像质量、视频真实性以及多样性方面都实现了显著提升，为AI内容创作带来了更多可能性。此次发布的主要产品包括视频生成模型Veo 3（Video）和图片生成模型Imagen 4（Image），其中许多性能改进引人瞩目。这一系列创新都在2025年的谷歌开发者大会Google I/O中亮相，彰显了谷歌在推进行业智能化进程中的雄厚实力。

一、视频生成新突破：Veo 3的升级与应用
作为继Veo 2之后的最新版本，Veo 3针对实际应用中的难点进行了优化。Veo 2在上月刚刚向付费的“金桥（Gemini）”订阅用户推送。新版本Veo 3在模拟真实物理场景方面表现更佳，特别是在动态细节处理和人物唇同步（lip-syncing）方面都实现了明显提升。简而言之，生成的视频将比以往更逼真、更自然，极大地改善了以AI生成视频常出现的虚假感和不真实感。

值得一提的是，Veo 3首次加入了声音处理能力。过去由Veo生成的视频默认没有配音或背景音，但现在AI学习能力增强后，能够智能地加入适合场景的环境音，例如交通声、动物叫声以及人物对话。这一改进为视频内容的完整表达提供了极大便利，使AI生成的视频更具沉浸感和真实感。

谷歌还提供了一系列示范片段，以展示Veo 3的多项新功能。其中包含一段名为“老水手”的示例，这些视频从文本提示开始，通过AI自动生成，画面细腻，逼真度高。示例中，老水手在海边讲述海上故事，场景细节还原度高，没有出现以往AI常见的手指多出或比例失调等低级错误。尽管如此，这些视频依然呈现出一些典型的AI特征：场景和人物呈现出泛泛之感，内容略显“模板化”，不过整体质量已大幅超越早期版本。

目前，Veo 3仅对订阅“AI Ultra”计划的用户开放，月费250美元，门槛较高。而较为大众化的Veo 2也在不断优化，尤其在控制稳定性和画面一致性方面取得增强。谷歌表示，新版本Veo 2在摄像机运动、画面扩展（outpainting）以及对象添加和删除方面都有显著改进，为用户提供了更灵活的编辑体验。

二、图片生成：Imagen 4带来更细腻的视觉表现
除了视频，谷歌此次还带来了Imagen 4，一个继Imagen 3之后的重大升级版本。Imagen系列专注于生成高质量、细节丰富的图像。根据谷歌介绍，Imagen 4在细节表现方面达到了“令人惊叹”的水平，无论是复杂的纺织品、水滴还是动物毛发，都能展现出更高的清晰度和真实感。支持的分辨率最高可达2K，且兼容多种纵横比（Aspect Ratio），无论是写实风格还是抽象创作，都能输出令人满意的效果。

Imagen 4特别解决了一直困扰AI图像生成的一个难题——排版和文字显示。以往模型经常无法准确呈现字符和字母，导致生成的图片中出现错字或无法识别的符号。而Imagen 4在这方面表现出色，能生成字符、文字排版协调、自然，无明显错乱或“乱码”现象。这一改进为设计师、内容创作者带来了极大便利。

目前，Imagen 4已在谷歌的Gemini应用中面向所有用户开放。虽然谷歌尚未公布具体的使用限制，但推测非订阅用户可能会受制于一定的调用次数或频率。谷歌提供的样本图片和示例视频整体来看，画面质量都不错，基本没有明显的瑕疵或错误，体现出模型的稳定性和成熟度。据称，Imagen 4的处理速度比前一版本更快，谷歌还计划推出一款速度提高十倍的变体，以满足日益增长的内容生成需求。

三、谷歌的另一创新工具：Flow
除了图像与视频生成，谷歌还推出了一款名为Flow的AI影视制作工具。该工具结合了文字、视频与图片模型，可以帮助用户将多个场景有机连接，保持人物、背景和场景的一致性，从而实现连续性的动态演绎。Flow适合订阅“AI Pro”或“AI Ultra”计划的用户使用，后者提供更高的调用额度和更加先进的模型支持。

总结：
谷歌此次推出的Veo 3、Imagen 4以及Flow工具，标志着其在AI内容生成技术上的多项突破。这些创新不仅提升了生成内容的真实感和细节表现，也极大拓展了AI在影视、设计、广告等领域的应用前景。未来，随着模型速度的提升和功能的不断完善，AI将为数字创意产业带来全新的变革。谷歌在推动人工智能实用化、普及化方面的努力，无疑将持续引领行业发展潮流，开启智能创作的新时代。

[原始链接]

发表回复 取消回复

发表回复取消回复