谷歌推出全新视频与图片AI模型

近日,谷歌再次展现了其在人工智能(AI)领域的强大研发实力,正式发布了多款用于生成视频和图片的全新AI模型。这些新模型在图像质量、视频真实性以及多样性方面都实现了显著提升,为AI内容创作带来了更多可能性。此次发布的主要产品包括视频生成模型Veo 3(Video)和图片生成模型Imagen 4(Image),其中许多性能改进引人瞩目。这一系列创新都在2025年的谷歌开发者大会Google I/O中亮相,彰显了谷歌在推进行业智能化进程中的雄厚实力。

一、视频生成新突破:Veo 3的升级与应用
作为继Veo 2之后的最新版本,Veo 3针对实际应用中的难点进行了优化。Veo 2在上月刚刚向付费的“金桥(Gemini)”订阅用户推送。新版本Veo 3在模拟真实物理场景方面表现更佳,特别是在动态细节处理和人物唇同步(lip-syncing)方面都实现了明显提升。简而言之,生成的视频将比以往更逼真、更自然,极大地改善了以AI生成视频常出现的虚假感和不真实感。

值得一提的是,Veo 3首次加入了声音处理能力。过去由Veo生成的视频默认没有配音或背景音,但现在AI学习能力增强后,能够智能地加入适合场景的环境音,例如交通声、动物叫声以及人物对话。这一改进为视频内容的完整表达提供了极大便利,使AI生成的视频更具沉浸感和真实感。

谷歌还提供了一系列示范片段,以展示Veo 3的多项新功能。其中包含一段名为“老水手”的示例,这些视频从文本提示开始,通过AI自动生成,画面细腻,逼真度高。示例中,老水手在海边讲述海上故事,场景细节还原度高,没有出现以往AI常见的手指多出或比例失调等低级错误。尽管如此,这些视频依然呈现出一些典型的AI特征:场景和人物呈现出泛泛之感,内容略显“模板化”,不过整体质量已大幅超越早期版本。

目前,Veo 3仅对订阅“AI Ultra”计划的用户开放,月费250美元,门槛较高。而较为大众化的Veo 2也在不断优化,尤其在控制稳定性和画面一致性方面取得增强。谷歌表示,新版本Veo 2在摄像机运动、画面扩展(outpainting)以及对象添加和删除方面都有显著改进,为用户提供了更灵活的编辑体验。

二、图片生成:Imagen 4带来更细腻的视觉表现
除了视频,谷歌此次还带来了Imagen 4,一个继Imagen 3之后的重大升级版本。Imagen系列专注于生成高质量、细节丰富的图像。根据谷歌介绍,Imagen 4在细节表现方面达到了“令人惊叹”的水平,无论是复杂的纺织品、水滴还是动物毛发,都能展现出更高的清晰度和真实感。支持的分辨率最高可达2K,且兼容多种纵横比(Aspect Ratio),无论是写实风格还是抽象创作,都能输出令人满意的效果。

Imagen 4特别解决了一直困扰AI图像生成的一个难题——排版和文字显示。以往模型经常无法准确呈现字符和字母,导致生成的图片中出现错字或无法识别的符号。而Imagen 4在这方面表现出色,能生成字符、文字排版协调、自然,无明显错乱或“乱码”现象。这一改进为设计师、内容创作者带来了极大便利。

目前,Imagen 4已在谷歌的Gemini应用中面向所有用户开放。虽然谷歌尚未公布具体的使用限制,但推测非订阅用户可能会受制于一定的调用次数或频率。谷歌提供的样本图片和示例视频整体来看,画面质量都不错,基本没有明显的瑕疵或错误,体现出模型的稳定性和成熟度。据称,Imagen 4的处理速度比前一版本更快,谷歌还计划推出一款速度提高十倍的变体,以满足日益增长的内容生成需求。

三、谷歌的另一创新工具:Flow
除了图像与视频生成,谷歌还推出了一款名为Flow的AI影视制作工具。该工具结合了文字、视频与图片模型,可以帮助用户将多个场景有机连接,保持人物、背景和场景的一致性,从而实现连续性的动态演绎。Flow适合订阅“AI Pro”或“AI Ultra”计划的用户使用,后者提供更高的调用额度和更加先进的模型支持。

总结:
谷歌此次推出的Veo 3、Imagen 4以及Flow工具,标志着其在AI内容生成技术上的多项突破。这些创新不仅提升了生成内容的真实感和细节表现,也极大拓展了AI在影视、设计、广告等领域的应用前景。未来,随着模型速度的提升和功能的不断完善,AI将为数字创意产业带来全新的变革。谷歌在推动人工智能实用化、普及化方面的努力,无疑将持续引领行业发展潮流,开启智能创作的新时代。

[原始链接]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注