Nvidia 将 AI 图像生成方法缩小到 WhatsApp 消息的大小
Perfusion,Nvidia 针对 AI 图像生成高存储需求的解决方案
英伟达研究人员开发了一种新的人工智能图像生成技术,可以实现高度定制的文本到图像模型,而存储需求却很小。
根据arXiv 上发表的一篇论文,所提出的名为“ Perfusion ”的方法可以将新的视觉概念添加到现有模型中,每个概念仅使用 100KB 的参数。
资料来源:Nvidia 研究部
正如该论文的作者所描述的,Perfusion 的工作原理是“对文本到图像模型的内部表示进行小幅更新”。
更具体地说,它对模型中将文本描述与生成的视觉特征连接起来的部分进行了仔细计算的更改,对交叉注意力层应用较小的参数化编辑允许 Perfusion 修改文本输入转换为图像的方式。
因此,Perfusion 并没有完全从头开始重新训练文本到图像模型。相反,它稍微调整了将文字转化为图片的数学转换。这使得它可以自定义模型以产生新的视觉概念,而无需太多的计算能力或模型重新训练。
灌注法仅需要100kb。
与竞争技术相比,灌注以少两到五个数量级的参数实现了这些结果。
虽然其他方法每个概念可能需要数百兆字节到千兆字节的存储空间,但 Perfusion 仅需要 100KB,与小图像、文本或 WhatsApp 消息相当。
这种大幅减少可以使部署高度定制的人工智能艺术模型变得更加可行。
据合著者盖尔·切奇克 (Gal Chechik) 称,
“灌注不仅可以以模型大小的一小部分实现更准确的个性化,而且还可以使用更复杂的提示以及在推理时结合单独学习的概念。”
该方法可以使用分别学习的“泰迪熊”和“茶壶”的个性化概念来生成创造性的图像,例如“在茶壶中航行的泰迪熊”。
资料来源:Nvidia 研究部
高效个性化的可能性
Perfusion 具有独特的功能,每个概念仅使用 100KB 即可实现 AI 模型的个性化,从而开辟了无数潜在的应用:
这种方法为个人轻松地使用新对象、场景或样式定制文本到图像模型铺平了道路,从而消除了昂贵的重新训练的需要。Perfusion 每个概念 100KB 参数更新的效率允许在消费设备上实现使用该技术定制的模型,从而实现设备上图像创建。
这项技术最引人注目的方面之一是它为围绕人工智能模型的共享和协作提供了潜力。用户可以将他们的个性化概念作为小型附加文件共享,从而避免共享繁琐的模型检查点。
在分发方面,针对特定组织量身定制的模型可以更轻松地在边缘传播或部署。随着文本到图像生成的实践继续变得更加主流,在不牺牲功能的情况下实现如此显着的尺寸减小的能力将是至关重要的。
然而,值得注意的是,Perfusion 主要提供模型个性化而不是完整的生成能力本身。
限制和发布
虽然很有希望,但该技术确实有一些局限性。作者指出,训练期间的关键选择有时可能会过度概括一个概念。仍需要更多的研究来将多个个性化想法无缝地结合到单个图像中。
作者指出,Perfusion 的代码将在他们的项目页面上提供,表明有意在未来公开发布该方法,可能正在等待同行评审和官方研究出版物。然而,由于该作品目前仅在 arXiv 上发布,因此公开可用性的具体细节仍不清楚。在这个平台上,研究人员可以在正式同行评审和在期刊/会议上发表之前上传论文。
虽然 Perfusion 的代码尚未访问,但作者提出的计划意味着,这种高效、个性化的人工智能系统可能会在适当的时候落入开发人员、行业和创作者的手中。
随着 MidJourney、DALL-E 2 和 Stable Diffusion 等 AI 艺术平台的发展,允许更大用户控制的技术对于现实世界的部署可能至关重要。通过 Perfusion 等巧妙的效率改进,Nvidia 似乎决心在快速发展的环境中保持其优势。
Scan QR code with WeChat