
近年来,人工智能技术飞速发展,从最初的自动驾驶汽车、机器人女仆的梦想,到现在能在国际象棋、文本分析乃至诗歌创作中“超越”人类的智能系统,带来了许多令人震惊的变化。令人困惑的是,许多涉及人类轻松完成的实体任务,对于机器人来说却异常困难。而算法的不断提升,却在模仿甚至超越我们的智力方面展示出惊人的能力。
然而,科学家们对某些奇特现象一直感到迷惑——那些让机器展现出“创造力”的算法究竟是如何实现的?尤其是以“扩散模型”为代表的图像生成技术背后的奥秘,成为近期研究的热点。
扩散模型,是现代图像生成工具如“DALL·E”、“Image”和“Stable Diffusion”的核心技术。它们的基本原理是:先将一张清晰的图像转变为噪声(随机像素点),然后再逐步清除噪声——这个过程被称为“去噪”。看似简单,但实际中,模型在一次次“去噪”过程中,竟然会“即兴发挥”,将不同元素融合,创造出新的、具有语义含义的图像。这一现象被归纳为“扩散模型的悖论”:如果模型只是机械地记忆训练图像,公司理论上只需复制,不会产生新意,然而实际却表现出令人惊讶的创造性。
巴黎国立高等师范学院的物理学家和人工智能研究员朱利奥·比罗利(Giulio Biroli)指出,扩散模型的“创造性”源于其“去噪”过程中的技术缺陷。一份将在2025年国际机器学习会议上发表的论文提出,他们通过数学模型分析了训练好的扩散模型,发现模型所谓的“创造力”其实是一个确定性的过程,是模型设计结构的直接结果。
研究人员展示,通过分析噪声图片的“去噪”过程,他们发现模型在“修复”图像时,会受到“局部性”和“对称性”这两个技术特性的影响。这两个特性在早期被认为是模型不足的表现,也就是说,只关注单一像素块的局部区域,没有考虑整体结构的平衡。它们的作用本被理解为限制模型的拟合能力,使得生成的图像不够完美,但最新研究发现,这恰恰也是模型展现创造力的根源。
“局部性”和“对称性”这两个特性让模型在没有全局信息的情况下,只专注于局部区域的“修补”。因为每次“去噪”都只处理一部分像素,模型便容易在局部区域创造出“新组合”。这就像拼贴艺术中,艺术家只 Focus于拼接一小块,然后逐步构建出完整画作。最终,这种基础机制,使模型在缺乏全局视野的情况下,也能“自发”地展现出创造力。
研究员们将这种现象命名为“等变局部得分机”。他们构建了一组数学方程,模拟模型的去噪过程,发现其结果与实际训练出来的模型高度吻合,准确率达到90%以上。这意味着,模型的“创造性”其实可以用复杂的数学公式解释,像是给“黑箱”中的“智慧”开了个窗。
这项发现引发了许多思考:如果机器的创造力如此确定和可预测,是否意味着人类的创造也存在相似的规律?心理学家和神经科学家提出,人的创造力可能也是大脑中某些未被完全理解的机制所驱动,或许人类与人工智能在本质上没有那么大差异。
斯坦福大学的应用物理学研究生、论文的第一作者孟·坎布(Mason Kamb)表示,他一直对生命系统的自我组装——即“形态发生”非常感兴趣。按照“图灵模型”,这类机制可以解释胚胎在细胞级别如何逐步形成器官和肢体。研究认为,这一过程主要依赖于局部细胞之间的信号,不依赖于顶层设计者的指挥,而是由一套“自组织”的规则驱动。
早在扩散模型的研究中,很多“错误”或“奇异”效果,比如出现“多指手“,都被认为是底层机制的副产物。和胚胎中的“自发组织”类似,模型在局部拼块的基础上,逐步构建整体图像,正是其“局部性”和“对称性”特性带来的副作用,却也赋予了它“创造”的能力。
许多专家相信,虽然这项研究揭示了扩散模型“创造力”的本质机制,但仍有许多未知。例如,大型语言模型(如聊天机器人)也展现出一定的“创造力”,但它们未必依赖类似的机制。这说明,创造力的根源还远未完全理解。
这项研究的意义在于,首次用数学模型描述了扩散模型中的“创造性”现象,将其视作去噪过程中的自然产物,极大地推进了对人工智能本质的理解。这类似于神经科学中用成像技术发现大脑中某些“共通的神经机制”,证明了“创新”其实也可以用一套公式写下来。
总的来说,这项研究不仅帮助我们理解了人工智能“创造力”的奥秘,也可能反向启示我们人脑是如何产生创意的。未来,随着对“黑箱”机制的不断揭示,人类与机器在创新机制方面的差距或许会逐渐缩小。正如科学家们所预示:无论人类还是机器,创造力的深层次本质,或许只是理解世界的另一种方式。