OpenAI又一颗「重磅炸弹」：赋予AI艺术创造力

科技行者阅读 12217 2021-1-20 12:05

面对无限的可能，我们只需要充满期待。

OpenAI再次投下一颗重磅炸弹。

本月初，曾于去年夏季推出高人气语言模型GPT-3的OpenAI研究小组再次公布一套名为DALL-E的全新AI模型。虽然它在热度上不及GPT-3，但却很可能对AI的未来发展拥有更加深远的影响。

简而言之，DALL-E能够将文本描述作为输入，据此生成原始图像输出。（DALL-E这一名称，源自对超现实主义艺术家萨尔瓦多·达利及皮克斯工作室创造的可爱机器人形象WALL-E的致敬。）

例如，当输入“五角形绿色时钟”、“火球”或者“建筑物墙面上的蓝色南瓜壁画”之后，DALL-E即可生成令人震惊的准确视觉效果。

▲ 在要求生成“建筑物墙面上的蓝色南瓜壁画”后，OpenAI的全新深度学习模型DALL-E能够生成以上原始图像

DALL-E为什么意义重大？

首先，它预示着一种所谓“多模AI”的全新AI范式的出现。这种范式似乎代表着人工智能的未来面貌。以DALL-E为例，多模AI系统能够对多种信息模式进行解释、合成与翻译，由此把情境、语言与图像映射起来。虽然DALL-E并不是第一套多模AI方案，但却拥有迄今为止最令人惊叹的实际效果。

OpenAI联合创始人Ilya Sutskever总结道，“这个世界不仅由文字构成。人类在表达之余，还会诉诸视觉。视觉元素非常重要。”

目前存在的大部分AI系统只能处理一种数据类型。以自然语言处理模型（NLP模型，例如GPT-3）只能处理文本；计算机视觉模型（例如人脸识别系统）只能处理图像。但人脑所表现出的智能明显适应性更强，所能处理的信息也更为灵活。

人类能够不断从五种感官处接收并整合信息——我们也正是通过视觉、听觉、触觉、嗅觉与味觉的结合理解周遭世界。以此为基础，我们又以语音、文本、肢体表达、面部表情与音乐等多种形式将信息传递回这个丰富多彩的世界。

通过将自然语言理解与视觉表示生成的能力结合起来（也就是将「阅读」与「视觉」相结合），DALL-E再次证明多模AI中蕴藏的巨大潜力。

这还仅仅只是开始。在之后的几个月乃至几年中，新的AI系统有望将音频、视频、语音、图像、书面文本、触觉以及其他要素无缝衔接起来。随着AI学会以越来越复杂的方式将多种信息结合起来，其理解世界并产生新颖洞见的能力也将迎来爆发式增长。

DALL-E还有另一层，或者说更为根本的重要意义：人类越来越无法否认人工智能中蕴含的巨大创造力。

DALL-E生成的图像远超人类的想象力范畴。这绝不只是对互联网上的现成图像进行简单修改——相反，这些是前所未有的效果图，其中的巧妙性与独创性足以令艺术家们为之赞叹。事实上，就连DALL-E的创造者们往往也理解不了其生成原理。

下面来看DALL-E的几幅作品。首先是“一碗拉面表情符号”，接下来的一幅是“牛油果组成的企鹅”。如果这些成果来自人类设计师，我们无疑会将其视为实实在在的创作产物。既然如此，我们还有理由否定或者拒绝DALL-E吗？

OpenAI又一颗「重磅炸弹」：赋予AI艺术创造力

▲ DALL-E根据“一碗拉面表情符号”输出的图像

OpenAI又一颗「重磅炸弹」：赋予AI艺术创造力

▲ DALL-E根据“牛油果组成的企鹅”生成的图像

凭借这种强大的创造力，DALL-E足以在产品设计、时尚以及建筑等领域证明AI技术的现实意义。不久之后，人类设计师也许会习惯使用DALL-E等AI系统作为构思助手甚至是灵感来源。

举个例子，在要求设计“甜甜圈风格的扶手椅”时，DALL-E带来了种种富有构图的选择。当然，它的设计与外观还颇具水准。不难想象，未来一定会有家具设计师反复使用DALL-E以探索模型输出，调整输入文本进行设计迭代，最终将AI元素引入自己的作品当中。从汽车到灯具、从珠宝到房屋，类似的创意过程将适用于众多产品。

OpenAI又一颗「重磅炸弹」：赋予AI艺术创造力