完美(中国体育)官方网站

苹果推出开源AI大模型MGIE能根据自然语言指令进行多种图像编辑-完美体育(中国大陆)官方网站

18681810705

新闻资讯 分类
苹果推出开源AI大模型MGIE能根据自然语言指令进行多种图像编辑

  日前,推出一款开源人工智能模型 MGIE,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。

苹果推出开源AI大模型MGIE能根据自然语言指令进行多种图像编辑(图1)

  据悉,该模型由和美国加利福尼亚大学圣芭芭拉分校的研究团队合作完成。相关论文以《通过多模态大语言模型指导基于指令的图像编辑》()为题在 arXiv 上发表 [1]。

  作者包括加利福尼亚大学圣芭芭拉分校研究助理 、博士后 和 教授,以及机器学习研究员 、 和 。

  如上所说,MGIE 能够对图像进行全方位编辑,包括照片全局优化、本地编辑、Photoshop 风格修改和依托于指令的编辑等功能。

  其一,能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。

  其二,既能够对目标图像中的目标区域或对象(服饰、人脸、眼睛等)进行修改,又能够改变这些区域或对象的性质,比如颜色、样式、大小等。

  其三,能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且应用更改背景、添加或删除对象,以及混合对象等更高级的编辑。

  其四,能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验。

  对于用户而言,由于该模型的设计非常易用、灵活定制,因此用户只需要提供自然语言指令,就能够实现对图像的编辑。

  在此基础上,用户也可以向该模型提供反馈,以更好地完善编辑。此外,该模型还能够与需要图像编辑功能的其他应用程序或平台集成。

  面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更健康”的指令,后者便会使用常识推理,给披萨添加西红柿、香草等蔬菜配料。

苹果推出开源AI大模型MGIE能根据自然语言指令进行多种图像编辑(图2)

  图丨引入 MLLM 引导 MGIE,以改进各种编辑方面的基于指令的图像编辑。顶部是输入指令,右侧是 MGIE 联合派生的表达指令(来源:arXiv)

  而面对下图中的左图所显示的多余的女性人物主体,完美体育 WM365用户可以通过 Photoshop 风格的修改,要求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。

苹果推出开源AI大模型MGIE能根据自然语言指令进行多种图像编辑(图3)

  在掌握使用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。

  据了解,它主要基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知响应生成方面表现优异,但尚未广泛地在图像编辑任务中获得应用。

  MGIE 则通过以下两种方式,成功地将 MLLM 集成到图像编辑的过程中。

  第一步,利用 MLLM 从用户输入的指令中总结出尽可能简单的说明,以更好地指导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。

  第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的指导。

  总的来说,该模型采用了一种全新的端到端的训练方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。

  据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预训练模型均已实现开源。不仅如此,还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示,方便用户在线试用。

  综上可以看出,MGIE 不但是一项基础研究成果,更是在各种图像场景下都能适用的实用工具。

  也就是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化,还能让用户通过图像表达自己的想法和情感,进而激发他们的创造力。

  正如该论文中提到的那样,“MGIE 不是简单但模糊的指导,而是得出明确的视觉感知意图,并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 引导的框架,可以为未来的视觉和语言研究做出贡献”。

  基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。完美体育 完美平台

官方微信 关闭