• 我的订阅
  • 科技

2022生成模型进展有多快,新论文盘点9类生成模型代表作

类别:科技 发布时间:2023-01-30 16:34:00 来源:浅语科技

ChatGPT的出现,彻底将生成AI推向爆发。

但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——

图像、视频、代码、3D模型、音频、文本、科学知识……

尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

这不,立刻有学者写了篇论文,对2022年新出现的主流生成模型进行了年终盘点。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

一起来看看这两年间,各领域的AI生成模型进展究竟怎么样了。9大生成模型,最新代表作是?

这篇论文将AI生成模型分成了9大类。

下图是2022年前后,在生成效果上达到最优的模型总览:

2022生成模型进展有多快,新论文盘点9类生成模型代表作

除了谷歌LaMDA和Muse以外,所有模型均为2022年发布。

其中,谷歌LaMDA虽然是2021年发布的,但在2022年又爆火了一波;Muse则是2023年刚发布的,但论文声称自己在图像生成性能上达到SOTA,因此也统计了进去。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

文本-图像生成

这方面的代表作有DALL-E2、StableDiffusion、Imagen、Muse。

DALL·E2 是来自OpenAI的生成模型,在零样本学习上做出大突破。与DALL・E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL・E2取得了不错的生成效果。

下图是DALL・E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图像:

2022生成模型进展有多快,新论文盘点9类生成模型代表作

Imagen 来自谷歌,基于Transformer模型搭建,其中语言模型在纯文本数据集上进行了预训练。Imagen增加了语言模型参数量,发现效果比提升扩散模型参数量更好。

下图是Imagen根据“一只可爱的柯基住在寿司做的房子里”生成的图像:

2022生成模型进展有多快,新论文盘点9类生成模型代表作

StableDiffusion 由慕尼黑大学的CompVis小组开发,基于潜在扩散模型打造,这个扩散模型可以通过在潜表示空间中迭代去噪以生成图像,并将结果解码成完整图像。

Muse 由谷歌开发,基于Transformer模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。

下图是Muse与DALL・E2和Imagen的生成效果对比:

2022生成模型进展有多快,新论文盘点9类生成模型代表作

文本-3D模型生成

主要代表作有Dreamfusion、Magic3D。(这里没有把OpenAI的Point・E统计进去,可能是生成效果上没有达到SOTA)

DreamFusion 由谷歌和UC伯克利开发,基于预训练文本-2D图像扩散模型实现文本生成3D模型。采用类似NeRF的三维场景参数化定义映射,无需任何3D数据或修改扩散模型,就能实现文本生成3D图像的效果。

下图是DreamFusion生成“穿夹克的松鼠”3D效果:

2022生成模型进展有多快,新论文盘点9类生成模型代表作

Magic3D 由英伟达开发,旨在缩短DreamFusion图像生成时间、同时提升生成质量。具体来说,Magic3D可以在40分钟内创建高质量3D网格模型,比DreamFusion快2倍,同时实现了更高分辨率,并在人类评估中以61.7%的比率超过DreamFusion。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

图像-文本模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo 是DeepMind推出的小样本学习模型,基于可以分析视觉场景的视觉模型和执行基本推理的大语言模型打造,其中大语言模型基于文本数据集训练。输入带有图像或视频的问题后,模型会自动输出一段文本作为回答。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

VisualGPT 是OpenAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

文本-视频模型生成

主要代表作有Phenaki、Soundify。

Phenaki 由谷歌打造,基于新的编解码器架构C-ViViT将视频压缩为离散嵌入,能够在时空两个维度上压缩视频,在时间上保持自回归的同时,还能自回归生成任意长度的视频。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

Soundify 是Runway开发的一个系统,目的是将声音效果与视频进行匹配,即制作音效。具体包括分类、同步和混合三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。文本-音频模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM 由谷歌开发,将输入音频映射到一系列离散标记中,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。

Jukebox 由OpenAI开发的音乐模型,可生成带有唱词的音乐。通过分层VQ-VAE体系将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。不过目前模型仍然局限于英语。

Whisper 由OpenAI开发,实现了多语言语音识别、翻译和语言识别,目前模型已经开源并可以用pip安装。模型基于68万小时标记音频数据训练,包括录音、扬声器、语音音频等,确保由人而非AI生成。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

文本-文本模型生成

主要代表作有ChatGPT、LaMDA、PPER、SpeechFromBrain。

ChatGPT 由OpenAI生成,是一个对话生成AI,懂得回答问题、拒绝不正当的问题请求并质疑不正确的问题前提,基于Transformer打造。它用人类打造的对话数据集、以及InstructGPT数据集的对话格式进行训练,此外也可以生成代码和进行简单数学运算。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

LaMDA 基于Transformer打造,利用了其在文本中呈现的长程依赖关系能力。其具有1370亿参数,在1.56T的公共对话数据集和网页文本上进行训练,只有0.001%的训练数据被用于微调,这也是它效果好的原因之一。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

PEER 由MetaAI打造,基于维基百科编辑历史进行训练,直到模型掌握完整的写作流程。具体来说,模型允许将写作任务分解成更多子任务,并允许人类随时干预,引导模型写出人类想要的作品。

SpeechfromBrain 由MetaAI打造,用于帮助无法通过语音、打字或手势进行交流的人,通过对比学习训练wave2vec2.0自监督模型,基于非侵入式脑机接口发出的脑电波进行解读,并解码大脑生成的内容,从而合成对应语音。文本-代码模型生成

主要代表作有Codex、AlphaCode。

Codex 是OpenAI打造的编程模型,基于GPT-3微调,可以基于文本需求生成代码。首先模型会将问题分解成更简单的编程问题,随后从现有代码(包含库、API等)中找到对应的解决方案,基于GitHub数据进行训练。

AlphaCode 由DeepMind打造,基于Transformer模型打造,通过采用GitHub中715.1GB的代码进行预训练,并从Codeforces中引入一个数据集进行微调,随后基于Codecontests数据集进行模型验证,并进一步改善了模型输出性能。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

文本-科学知识模型生成

主要代表作有Galactica、Minerva。

Galatica 是MetaAI推出的1200亿参数论文写作辅助模型,又被称之为“写论文的Copilot模型”,目的是帮助人们快速总结并从新增论文中得到新结论,在包括生成文本、数学公式、代码、化学式和蛋白质序列等任务上取得了不错的效果,然而一度因为内容生成不可靠被迫下架。

Minerva 由谷歌开发,目的是通过逐步推理解决数学定量问题,可以主动生成相关公式、常数和涉及数值计算的解决方案,也能生成LaTeX、MathJax等公式,而不需要借助计算器来得到最终数学答案。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

其他生成模型

主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。

AlphaTensor 由DeepMind开发,懂得自己改进矩阵乘法并提升计算速度,不仅改进了目前最优的4×4矩阵解法,也提升了70多种不同大小矩阵的计算速度,基于“棋类AI”AlphaZero打造,其中棋盘代表要解决的乘法问题,下棋步骤代表解决问题的步骤。

GATO 由DeepMind开发,基于强化学习教会大模型完成600多个不同的任务,包含离散控制如Atari小游戏、推箱子游戏,以及连续控制如机器人、机械臂,还有NLP对话和视觉生成等,进一步加速了通用人工智能的进度。

PhysDiff 是英伟达推出的人体运动生成扩散模型,进一步解决了AI人体生成中漂浮、脚滑或穿模等问题,教会AI模仿使用物理模拟器生成的运行模型,并在大规模人体运动数据集上达到了最先进的效果。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

作者介绍

两位作者均来自西班牙卡米亚斯大主教大学(UniversidadPontificiaComillas)。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

一作RobertoGozalo-Brizuela,目前是卡米亚斯大主教大学研究助理(Investigadorasociado),从事AI相关的项目研究工作。

2022生成模型进展有多快,新论文盘点9类生成模型代表作

EduardoC.Garrido-Merchán,卡米亚斯大主教大学助理教授,研究方向是贝叶斯优化、机器学习、强化学习、生成式AI等。

你感觉哪个领域的生成式AI进展最大?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-01-30 18:45:21

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌DeepMind推Imagen2;ChatGPT Plus恢复订阅;OpenAI提出用小模型监督大模型 | 本周硅谷发生了什么?
...用世界模型研发,旨在通过研究通用世界模型改进其视频生成系统,使其更好地模拟现实世界的互动。谷歌Deepmind推出Imagen 2
2023-12-17 18:40:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...过程如下:使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验 将经验存储在优先经验回放缓冲区中 从缓冲区采样批次数据进行训练 更新模型参数和经验优先级论文中也给出
2024-11-06 09:49:00
大语言模型、量子计算、再生稻等入选2023年度十大科技名词
...词盘点评选活动12月26日在北京揭晓发布,大语言模型、生成式人工智能、量子计算、脑机接口、数据要素、智慧城市、碳足迹、柔性制造、再生稻、可控核聚变等10个科技名词入选。202
2023-12-26 14:37:00
...等新技术新应用纷纷涌现,特别是以大语言模型为代表的生成式人工智能技术不断取得进展,拓展了信息技术在国家治理中的应用场景。在此背景下,将信息技术与调查研究深度融合,不仅能够提高
2023-12-20 07:45:00
...银河E8只是2023年汽车行业“百模大战”的一个缩影。随着生成式人工智能ChatGPT的横空出世,人工智能的热潮被推向了一个新的高度。2023年大模型“上车”成为了车企“决战
2024-01-07 19:19:00
活动回顾|当我们谈论Sora时,我们在谈论什么?
...PixVerse合作者生态负责人熊沁茹带来了几位合作艺术家的代表作。▲ 熊沁茹03 大模型X:不一样的互动沙龙现场设计了多个互动环节。Seed V实验室联合创始人童超主持圆桌
2024-04-01 16:00:00
Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控
...HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。3.推理范式 Claude Computer Use采用了一种推理-行动范式
2024-11-26 09:43:00
【多彩新论】AI剧情聊天亦须恪守“边界”
...剧情聊天软件中,用户可以自定义虚拟人物风格,由系统生成AI人物形象。AI剧情聊天软件以其虚拟的丰富情感体验吸引受众,然而部分AI剧情聊天软件中存在涉嫌违法违规内容,色情擦边、
2025-01-15 23:42:00
【多彩新论】AI赋能文旅,开启智慧旅游新篇
...花费大量时间查阅攻略,AI系统能够根据个人偏好,快速生成最优行程方案。这种智能化的服务模式,极大提升了旅游体验的便捷性和舒适度。对旅游管理部门而言,智能化带来的变革更为深远。
2025-02-22 22:47:00
更多关于科技的资讯:
有电储能户外电源:国庆出游不断电,畅享自然每一程
国庆长假,是探索远方、寄情山水的绝佳时机。然而,无论是长途自驾中的电子设备续航,还是露营时的照明、烹饪需求,传统的充电宝或小型发电机往往捉襟见肘
2025-09-30 13:45:00
莱西市夏格庄镇:政企同频创新培育新动能
鲁网9月30日讯(记者 葛万彩 通讯员 张磊)引进14个亿元以上高新技术项目,其中8个已开工建设;新投产的青岛新茂林机械装备制造基地
2025-09-30 10:41:00
谨防“二选一”换上新马甲
范仁超据多家媒体报道,在天猫、京东、抖音等多个平台开店的某化妆品品牌负责人日前向媒体反映,之前和某带货达人达成合作意向
2025-09-30 10:48:00
胶东在线9月28日讯(记者 卢伟霞)近日,以“山海有约 烟台有乐”为主题的2025烟台沙滩音乐季在幸福湾活力海岸圆满收官
2025-09-30 06:37:00
京津研发河北转化进行时(三):一个康复机器人的协同样本
从北京研发中心到冀州生产线一个康复机器人的协同样本9月25日,在位于衡水市冀州区的极智医疗器械(河北)有限公司生产车间
2025-09-29 08:26:00
东风与腾讯签署战略合作协议 共建“汽车+互联网”智能新生态
9月28日,东风汽车集团股份有限公司(以下简称“东风汽车”)与深圳市腾讯计算机系统有限公司(以下简称“腾讯”)在武汉举行战略合作签约仪式
2025-09-29 08:33:00
大厂:发放第二期惠民电子消费券 为消费市场注入新活力
河北新闻网讯(张嘉良)消费热潮涌动,市场活力持续攀升。日前,大厂回族自治县发放第二期“乐享大厂·焕新潮”惠民电子消费券
2025-09-29 09:49:00
唐山启动2025“迎国庆、庆中秋”系列促消费活动
河北新闻网讯(张强、王育民)9月27日,2025唐山市“迎国庆、庆中秋”系列促消费活动在路南区京东电器城市旗舰店启动。本次活动由唐山市商务局
2025-09-29 10:28:00
中新经纬9月29日电 29日,中新经纬查询中国执行信息公开网发现,该网站已经没有万达集团董事长王健林“限高”信息。28日
2025-09-29 10:58:00
京东服务商开放季交流会释放11.11商家增长信号
齐鲁晚报·齐鲁壹点 记者 王颖颖2025年9月28日,在年度电商盛宴京东11.11启幕前夕,以“开放共赢 高效合作”为主题的2025京东服务商开放季交流会在京东集团总部成功举行
2025-09-29 11:00:00
官宣!普拉斯与腾讯云深化“云+AI”合作,加速制造业智能转型
近日,四川省宜宾普拉斯包装材料有限公司(下称“普拉斯”)宣布与腾讯云深化战略合作,双方将基于普拉斯在智慧包装行业的丰富经验和腾讯在AI领域的领先技术
2025-09-29 11:05:00
王健林“限高”措施已取消,其所持4.9亿股权仍被冻结
记者9月29日查询,中国执行信息公开网已经没有万达集团董事长王健林“限高”信息。另据企查查9月29日信息,显示王健林限高措施已取消
2025-09-29 11:37:00
象屿集团与钉钉合作,打造统一、智能、全球化的AI办公平台
9月28日,厦门象屿集团有限公司(以下简称“象屿集团”)与钉钉正式达成合作协议,并宣布象屿集团新一代数字化办公平台项目建设正式启动
2025-09-29 11:37:00
春雪食品集团总裁郑钧谈品质建设与战略转型
近日,春雪食品集团股份有限公司(以下简称“春雪食品集团”)宣布,继去年扭亏为盈后,今年上半年实现归母净利润1427.65万元
2025-09-29 11:37:00
聊城智汇 链接全球丨从布艺收纳到宠物用品,泊西集团海外订单供不应求
鲁网9月29日讯在山东聊城茌平区洪官屯镇,阳光洒在错落有致的乡村院落上。走进山东泊西实业集团有限公司生产基地的产品展厅
2025-09-29 12:06:00