发布资源

现代人工智能艺术灵感之源，是一个物理原理

神译局国内新闻

2023-01-20 20:04:23 0 173

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：最近人工智能又开始一波炒作高峰。这主要是因为体验门槛降低和效果惊艳的功劳。其中之一就是文本生成图像（T2I）。DALL·E 2 等 T2I 模型让普通人输入文本提示即可生成令人惊艳的图像，但这些模型背后的原理确实来自于一个物理原理。本文就来介绍一下现代人工智能艺术灵感之源背后的秘密。文章来自编译。

浅蓝色云状漩涡（让人联想到墨水在液体中扩散的样子）。

如果跟 DALL·E 2 对话，让它画一幅“金鱼在海滩上喝可口可乐”的画，它就会给你变出一幅超现实的图像。在训练期间这个程序可能会看到过海滩、金鱼和可口可乐的图像，但不太可能看到这三者都同时出现的图像。可是，DALL·E 2 却能将这些概念组合到一起，变成一样可能连画家达利都感到自豪的东西。

DALL·E 2 是一种生成模型——一种尝试利用训练数据生成新事物的系统，而且质量和多样性方面可与那些数据相媲美。这是机器学习最困难的问题之一，我们其实走过了一段艰难的旅程，才终于到达了这一点。

第一个重要的图像生成模型使用了一种叫做神经网络的人工智能方法——神经网络是一种由多层计算单元（人工神经元）组成的程序。但即便它们生成的图像质量已经变得更好了，结果证明，这些模型还是不可靠且难以训练。与此同时，一位对物理学充满热情的博士后研究员也创建了一个强大的生成模型，但却一直处于休眠状态，直到两位研究生在技术上取得突破之后，才让这头野兽复活。

DALL·E 2 就是这样一头野兽。DALL·E 2 以及它的竞争对手 Stable Diffusion 和 Imagen 的那些图像之所以有可能，其关键洞察来自物理世界。支撑它们的系统叫做扩散模型，这种模型在很大程度上受到了非平衡热力学的启发，这是一种支配着流体和气体扩散等现象的原理。OpenAI 的机器学习研究员 Yang Song 表示：“有很多对机器学习非常重要的技巧其实一开始都是由物理学家发明的”。

这些模型的力量震撼了行业和用户。加州理工学院计算机科学家、英伟达机器学习研究高级主管 Anima Anandkumar 说：“对于生成模型来说，这是一个激动人心的时刻”。她说，虽然扩散模型创建的逼真图像有时候仍然会延续社会和文化偏见，但“我们已经证明，生成模型对提高预测性人工智能模型公平性的下游任务很有用。”

高概率

要想了解创建数据如何对图像管用，我们可以从只由两种相邻灰度像素组成的简单图像开始。根据每个像素的色度（0 是全黑， 255 是全白）我们只用两个值就可以完全描述这张图像。利用这两个值，你可以将图像绘制成二维空间里面的一个点。

如果我们把多张图像都绘制成点，就有可能会出现集群——特定图像及其对应的像素值的出现频率要高于其他。现在，请想象平面上方存在一个表面，这个表面的高度对应的是集群的密度。而这个表面映射的是概率分布。在这个表面最高部分的下方你最有可能找到单个的数据点，而在表面的最低处则很少。

DALL·E 2 制作了这些描述“金鱼在海滩上喝可口可乐”的图像。这个由OpenAI创建的程序可能从来都没见过类似图像，但仍然可以自行生成它们。

现在你可以利用这个概率分布来生成新图像了。你需要做的就是随机生成新的数据点，同时遵守一个约束：可能性更高的数据生成的频率更高——这个过程叫做对分布进行“采样”。每一个新点都是一张新的图像。

对于更逼真的灰度照片，比方说每张有一百万像素的图像来说，同样的分析一样适用。只是现在，绘制每张图像需要的不是两个坐标轴，而是一百万个。此类图像的概率分布将是某种百万加一维的复杂曲面。如果你对该概率分布进行采样，就会产生一百万个像素值。将这些像素打印在一张纸上，图像很可能看起来跟来自原始数据集的那种照片很像。

生成式建模的挑战是学习构成训练数据的某些图像集的复杂概率分布。这种分布之所以有用，部分是因为它捕捉到了关于该数据的广泛信息，部分是因为研究人员可以将不同类型的数据（比方说文本和图像）的概率分布结合到一起，去构造出超现实的输出，比方说金鱼在海滩上喝可口可乐。Anandkumar 说：“你可以将不同的概念混合和匹配在一起……从而创作出训练数据里面也没见过的全新场景”。

2014 年，一种叫做生成对抗网络（GAN）的模型成为第一个能生成逼真图像的模型。Anandkumar 说：“大家都非常激动”。但是 GAN 很难训练：这种模型可能没法学习到完整的概率分布，而且可能只能根据分布的一个子集生成图像。比方说，针对各种动物图像训练的 GAN 可能只生成狗的图片。

机器学习需要一个更强大的模型。Jascha Sohl-Dickstein 将会为我们提供一个。他的工作受到了物理学的启发。

兴奋的斑点

在 GAN 发明前后那段时间里，Sohl-Dickstein 还是斯坦福大学的一名博士后，他的主业是研究生成模型，但对非平衡热力学也很感兴趣。物理学的这个分支研究的是不处在热平衡状态的系统——那些在内部以及与环境交换物质和能量的系统。

我们可以用一个例子来说明这一点：往一个盛水的容器滴一滴蓝色墨水，然后观察墨水的扩散。一开始，它会形成一块暗色的斑点。此时，如果你想计算在容器的某一小块地方找到墨水分子的概率，你得用概率分布来对墨水开始扩散之前的初始状态进行明确的建模。但这种分布很复杂，也因此很难从中抽样。

不过，到头来墨水会扩散到水的各个地方，导致水变成淡蓝色。于是我们就可以用一个简单得多的，分布概率更为均等的模型描述分子的分布，这用一个直截了当的数字表达式即可描述。非平衡热力学描述了扩散过程每一步的概率分布。至关重要的是，每一步都是可逆的——通过一些足够小的步骤，就可以从一个简单的分布返回到一个复杂的分布。

Jascha Sohl-Dickstein 基于扩散原理构思了一种新的生成建模方法。

Sohl-Dickstein 利用了扩散原理制订出一种生成建模算法。这个想法很简单：算法先将训练数据集里面的复杂图像转化为简单的噪声——类似于从一滴墨水变成扩散的淡蓝色水——然后教系统如何反转这一过程，将噪声转化为图像。

它的工作原理是这样的。首先，算法从训练集中获取图像。和以前一样，我们假设这一百万像素的每一个都有一定的值，然后我们可以将图像画为百万维空间里面的一个点。算法在每一时步（time step）都会给每个像素添加一些噪声，相当于墨水在一个时步后的扩散。随着这个过程的继续，像素的值与它们在原始图像时候的值的关系越来越小，而像素看起来更像是一个简单的噪声分布。（算法还在每个时步将每个像素值朝着原点，也就是所有这些轴上的零值微移一点点。这种微移可以防止像素值变得太大，导致计算机没法很轻松地处理。）

原先是存在于一个百万维空间的点，布局是复合分布的形态（没法轻易地描述出来或者进行采样），在对数据集的所有图像都执行了这个之后，就变成了围绕在原图像素点周围的点，而布局则变成了简单的正态分布。

Sohl-Dickstein 说：“转换序列非常缓慢地把数据分布变成一个大噪音球”。这个“前向过程”最后会交给你一个可以轻松采样的分布。

Yang Song 帮助提出了一种新技术，这种技术可以通过训练网络有效解读噪声图像来生成图像。

接下来就是机器学习部分：给神经网络提供从正向传递获取的噪声图像，并训练它预测更早一步出现的噪声较少的图像。一开始它会出错，所以你得调整神经网络的参数，让它做得更好。到最后，神经网络就可以可靠地将代表简单分布样本的噪声图像转换为代表复杂分布样本的图像。

训练过的神经网络是一个成熟的生成模型。现在你甚至不需要原始图像就能完成前向过程了：现在你已经有了简单分布的完整数学描述，因此可以直接从中采样。神经网络可以将这个样本（本质上就是静态的）变成类似于训练数据集图像的最终图像。

Sohl-Dickstein 回忆起自己的扩散模型的第一个输出。他说：“你眯着眼睛盯了一会儿，然后说，‘我觉得那块彩色斑点看起来像一辆卡车’。我这辈子都没花过这么多时间在观察这些不同的像素模式上，我努力分辨我喜欢的结构，然后‘这次比我之前得到的更结构化了。’这实在是太令人兴奋了。”

展望未来

2015 年，Sohl-Dickstein 发表了他的扩散模型算法，但当时这种模型在能力上仍然远远落后于 GAN。虽然扩散模型可以对整个分布进行采样，并且永远不会只输出图像的一个子集，但图像看起来更糟，而且这个过程太慢了。 Sohl-Dickstein 说：“当时我觉得有点扫兴”。

把最初扩散模型的点连成像 DALL·E 2 这样的现代模型的线，还有待两名学生的努力。这两人既不认识 Sohl -Dickstein ，也不认识对方。第一位是 Song，当时他是斯坦福大学的博士生。2019 年，他和他的导师发表了一种构建生成模型的新方法。这种方法并不会去估算数据（高维表面）的概率分布。相反，它估算的是分布的梯度（可将其看作是高维表面的斜率）。

Song 发现，如果他先提高噪声级去干扰训练数据集的每张图像，然后再让神经网络用分布的梯度去预测原始图像，并有效去噪的话，自己的技术就能收到最好效果。经过训练之后，他的神经网络就可以从简单分布抽取出带有噪声的图像，并逐渐将其转换回代表训练数据集的图像。图像的质量很好，但他的机器学习模型采样速度非常慢。而且他做这件事情的时候并不知道 Sohl-Dickstein 的工作。Song 说： “我根本就不知道有扩散模型这个东西。 2019 年我们的论文发表后，我收到了 Jascha 发来的电子邮件。他向我指出，[我们的模型] 存在非常紧密的联系。”

2020 年，第二名学生看出了这些关联，并意识到 Song 的工作可以用来改进 Sohl-Dickstein 的扩散模型。Jonathan Ho 最近在加州大学伯克利分校完成了对生成建模的博士研究工作，但他还在继续研究。他说：“我认为这是机器学习当中数学上最美的分支学科”。

他借鉴了 Song 的一些想法，以及神经网络领域的其他进展，重新设计和更新了 Sohl-Dickstein 的扩散模型。他说：“我知道，要想引起社区的注意，我得让模型生成好看的样本。我确信这是当时自己能做的最重要的事情。”

他的直觉是对的。2020 年，Ho 和他的同事发表了题为《去噪扩散概率模型》（Denoising Diffusion Probabilistic Models）的论文，宣布了这种改进的新扩散模型的诞生。这很快成为一个里程碑，以至于研究人员现在把它简称为 DDPM。根据一项图像质量基准（将生成图像的分布与训练图像的分布进行比较），这些模型的效果相当或超越了所有其他生成模型竞争对手，其中也包括 GAN。没过多久，那些大玩家就注意到了。现在，DALL·E 2、Stable Diffusion、Imagen 以及其他商业模型都用了 DDPM 的一些变体。

Jonathan Ho 和他的同事将 Sohl-Dickstein 与 Song 的方法进行结合，让 DALL·E 2 等现代扩散模型成为可能。

现代扩散模型还有一个关键要素：大型语言模型（LLM），比方说 GPT-3。这些是基于互联网文本训练的生成模型，只不过是用来学习单词而不是图像的概率分布。2021 年，Ho（现在是一家尚未公开的公司的研究科学家）和他在 Google Research 的同事 Tim Salimans，还有来自其他地方的团队，他们展示了如何用文本（（比如， “金鱼在海滩上喝可口可乐”））将来自 LLM 和图像生成扩散模型的信息结合起来，去引导扩散过程，进而指导图像生成。这个“引导扩散”的过程就是 DALL·E 2 这样的文本生成图像模型成功的背后原因。

Ho 说：“这远远超出了我最疯狂的预期。我不会装得好像我提前看到了这一切。”

生成的问题

尽管这些模型非常成功，但 DALL·E 2 及其同类产品生成的图像离完美还差得远。大型语言模型生成的文本可能会体现出文化和社会偏见，比方说种族主义和性别歧视。那是因为训练这些模型的数据来自互联网摘录的文本，而这些文本往往会包含有带种族主义和性别歧视的语言。学习此类文本的概率分布的 LLM 于是也充满了相同的偏见。扩散模型也一样，也是用互联网上获取的未经整理的图像进行训练，这些图像也可能包含有类似带偏见的数据。难怪将 LLM 与当今的扩散模型相结合有时候会生成反映社会弊病的图像。

Anandkumar 拥有第一手经验。当她试着用基于扩散模型的应用生成自己的风格化头像时，她被结果震惊到了。她说： “有那么多的图像被高度性感化了。但呈现给男性的东西却不是这样的。”在这一点上她并不孤单。

有一些手段可以减少这些偏见，比如先整理和过滤数据（但鉴于数据集之庞大，这项任务极其困难），或检查这些模型的输入提示和输出。Ho 说：“当然了，任何手段都代替不了对一个模型进行仔细和广泛的安全测试。这对于这个领域来说是一大挑战。”

尽管存在这些顾虑，但 Anandkumar 仍然相信生成建模的力量。她说：“理查德·费曼那句名言我真的很喜欢：‘我无法创造，就代表我没有理解’”。理解的加深让她的团队得以开发出改进的生成模型，从而比方说，生成代表性不足类别的合成训练数据，然后用于预测性任务，比如较深肤色的面部识别，帮助提高公平性。生成模型还可以让我们深入了解我们的大脑是如何处理噪声输入，或者是如何唤起心理意象，并思考如何采取行动的。构建出更复杂的模型也可以赋予人工智能类似的能力。

Anandkumar 说： “就生成式人工智能可以做什么而言，我认为我们的探索才刚刚开始。”

译者：boxi。

收藏 (0) 打赏