• 我的订阅
  • 科技

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

类别:科技 发布时间:2024-02-09 03:32:00 来源:浅语科技

2月8日消息,相比较微软的风生水起,苹果公司在AI领域的布局显得低调很多,但这并不意味着苹果在该领域就没有丝毫建树。苹果公司近日发布了名为“MGIE”的新型开源人工智能模型,它可以根据自然语言指令编辑图像。

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

图源:VentureBeat与Midjourney合作制作

MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE可以理解用户下达的自然语言命令,进行Photoshop风格的修改、全局照片优化和局部编辑等操作。

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

苹果公司和加州大学圣巴巴拉分校研究人员合作,在2024年国际学习表征会议(ICLR)上发表MGIE相关研究成果,而ICLR是人工智能研究的顶级会议之一。

介绍MGIE之前,IT之家先来介绍下MLLM。MLLM是一种强大的人工智能模型,可以同时处理文本和图像,从而增强基于指令的图像编辑能力。MLLMs在跨模态理解和视觉感知响应生成方面表现出卓越的能力,但尚未广泛应用于图像编辑任务。

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

MGIE通过两种方式将MLLMs集成到图像编辑过程中:首先,它使用MLLMs从用户输入中推导出富有表现力的指令。这些指令简洁明了,为编辑过程提供了明确的指导。

例如,当输入“让天空更蓝”时,MGIE可以生成“将天空区域的饱和度提高20%”的指令。

其次,它使用MLLM生成视觉想象力,即所需编辑的潜在表征。这一表征捕捉了编辑的本质,可用于指导像素级操作。MGIE采用了一种新颖的端到端训练方案,可联合优化指令推导、视觉想象和图像编辑模块。

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

MGIE可以处理各种编辑情况,从简单的颜色调整到复杂的对象操作。该模型还可以根据用户的偏好执行全局和局部编辑。MGIE的部分特性和功能包括:

基于指令的表达式编辑:MGIE可以生成简洁明了的说明,有效指导编辑过程。这不仅能提高编辑质量,还能增强用户的整体体验。

Photoshop风格修改:MGIE可以执行常见的Photoshop风格编辑,如裁剪、调整大小、旋转、翻转和添加滤镜。该模型还可以应用更高级的编辑,如更改背景、添加或删除对象以及混合图像。

全局照片优化:MGIE可以优化照片的整体质量,如亮度、对比度、清晰度和色彩平衡。该模型还能应用素描、绘画和漫画等艺术效果。

局部编辑:MGIE可以编辑图像中的特定区域或对象,如脸部、眼睛、头发、衣服和配饰。模型还可以修改这些区域或对象的属性,如形状、大小、颜色、纹理和风格。

苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像

MGIE是GitHub上的一个开源项目,用户可以点击这里找到代码、数据和预训练模型。该项目还提供了一个演示笔记本,展示如何使用MGIE完成各种编辑任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-09 09:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...方面一直表现不佳,但他们一直在不断发展‘硬件 + 软件人工智能’堆栈,没有太多耀眼的广告。我认为,如果新的 iOS 版本突然让 OpenAI/Bard 聊天框看起来可笑地过时
2023-12-26 14:06:00
微软推出全能型人工智能模型 Kosmos-1
...觉难题、执行视觉文本识别、通过视觉智商测试以及理解自然语言指令等等。从报道中获悉,Kosmos-1可以处理文本、音频、图像和视频等内容,构建一个全能型的人工智能,可以像人类思
2023-03-04 23:10:00
meta推出全新ai图像生成器,可创建高分辨率图像
...的、独立的AI图像生成器——ImaginewithMeta,允许用户通过自然语言描述来创建图像。据介绍,新的人工图像生成器由Meta现有的Emu图像生成模型提供支持
2023-12-07 13:34:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...多个细粒度原则进行标注,提供复杂精细化偏好标注。 自然语言语言反馈:提供细粒度批评和润色反馈,可利用此自然语言反馈开发算法及提升模型性能 跨模态 QA 对:输入输出包含混
2024-10-18 09:47:00
OpenAI推出GPT商店,人人可0代码自制智能体,业界看好成为下一个苹果
...上的一整套升级,为人们展现了一个未来:人人都能使用自然语言开发软件、拥有多个专属私人助理,像浏览应用一样购买流行的私人助理,就像在苹果应用商店里下载App。人们不禁好奇,Op
2023-11-07 15:48:00
...模态预训练大语言模型?记者采访了上海交通大学教授、自然语言处理专家赵海。“读图编程”表演令人惊艳赵海教授解释,模态对应的是人类感知类型,包括文本、图像、声音等。一个智能系统如
2023-03-16 09:23:00
谷歌揭幕projectastra通用人工智能系统
...Dall-E3图像生成器方面的重要策略。谷歌声称,Veo具备对自然语言和视觉语义的深刻理解能力,能够按照用户的意愿创建任何所需的视频内容。这些AI生成的视频可以持续超过一分钟
2024-05-16 04:19:00
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...I创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、
2024-01-29 09:20:00
全球顶级AI科学家李飞飞领衔的具身智能项目 到底长啥样?
...可将复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。该项目名为“VoxPoser”,相比传统方法需要进行额外的预训练,该项
2023-07-11 22:00:00
更多关于科技的资讯: