国内国际社会时尚情感人文汽车健康

头条订阅服务

体育娱乐财经军事科技游戏教育育儿

三国以色列人工智能AI ChatGPT 数字经济

我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ai自给自足，用合成数据做训练

类别：科技发布时间：2023-02-23 12:53:00 来源：浅语科技

AI生成的图像太逼真，为什么不能拿来训练AI呢？

可别说，现在还真有人这么做了。

来自香港大学、牛津大学和字节跳动的几名研究人员，决定尝试一下能否使用高质量AI合成图片，来提升图像分类模型的性能。

为了避免AI合成的图像过于单一、或是质量不稳定，他们还提出了几类提升数据多样性和可靠性的方法，帮助AI合成更好的数据集（来喂给AI的同类doge）。

结果他们发现，不仅效果不错，有的AI在训练后，效果竟然比用真实数据训练还要好！

ai自给自足，用合成数据做训练

目前这篇论文已经被ICLR2023收录。

ai自给自足，用合成数据做训练

把AI生成的数据喂给AI

作者们分别从零样本（zero-shot）、少样本（few-shot）图像分类、模型预训练（pre-training）与迁移学习三个⽅⾯进⾏了探讨，并给出了提升数据多样性与可靠性的方法。零样本图像分类

零样本（Zero-shot）图像分类任务，指没有任何⽬标类别的训练图⽚，只有对⽬标类别的描述。

作者们先是提出了一种名为语言增强（LanguageEnhancement，LE）的⽅法，用于增强合成数据多样性。

具体来说，这种方法会给标签“扩句”，如果原标签是简单的“飞机”，那么经过“扩句”后的提示词就会变成“一架盘旋在海滩和城市上空的白色飞机”。

随后，还采用了一种叫做 CLIP过滤器（CLIPFilter）的⽅法确保合成数据的可靠性，即过滤掉合成质量不行的图片，确保AI数据质量过硬。

在17个数据集上，相⽐此前效果最好的CLIP模型，相关⼤⼩模型均获得了显著提升（4.31%/2.90%），展示了合成数据的有效性。

ai自给自足，用合成数据做训练

少样本图像分类

少样本图像（Few-shot）分类任务，通常仅有极少数量（1～16张）的⽬标类别图⽚，与零样本任务的区别是增加了类别与任务特定领域信息。

因此，作者们决定将域内数据（in-domain）的知识⽤于图像⽣成，即将少量的⽬标类别图⽚⽤于噪声叠加的初始状态（RealGuidance），进⼀步发挥⽣成模型的能⼒，从而进⼀步提升性能。

ai自给自足，用合成数据做训练

ai自给自足，用合成数据做训练

预训练与迁移学习

模型预训练（pre-training）任务，即将模型在⼤量数据上进⾏训练，将训练后的模型作为“起始点”，来帮助提升下游任务的性能。

作者们利⽤合成数据，对模型进⾏了预训练，并对数据量、数据多样性程度、预训练模型结构和预训练⽅法进⾏了实验研究。

最终发现：

⽤合成数据进⾏预训练。已经可以达到甚⾄超越⽤真实数据预训练的效果。

⽤更⼤的数据量和数据多样性的合成数据，可以获得更好的预训练效果。

从模型结构和预训练⽅法来看，ViT-based模型（相比convolutional-based模型）、⾃监督⽅法（相比有监督⽅法）会更适合合成数据下的预训练。

ai自给自足，用合成数据做训练

论文认为，利⽤⽣成模型产⽣的合成数据来帮助图像分类任务是可行的，不过也存在⼀定的局限性。

例如，如何处理特定任务的domaingap和数据多样性之间的trade-off，以及如何更有效地利⽤潜在⽆穷量的合成图⽚⽤于预训练，都是需要进一步去解决的问题。作者介绍

ai自给自足，用合成数据做训练

一作何睿飞，香港大学在读博士生@CVMILab，指导老师为齐晓娟老师，本科毕业于浙江大学竺可桢学院，研究方向是data-efficientlearning,vision-languagemodel,knowledgedistillation,semi/self-supervisedlearning。CVMILab正在招收计算机视觉与深度学习方向的博士生，感兴趣的伙伴可以直接email老师！

对于将AI合成图像用于预训练模型这件事，你还能想到更高效的方法吗？

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-02-23 16:45:13

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于训练,数据,数据,训练,模型,图像的资讯：

ai绘画侵权实锤，扩散模型可能记住你的照片

ai绘画侵权实锤，扩散模型可能记住你的照片

...绘画侵权，实锤了！最新研究表明，扩散模型会牢牢记住训练集中的样本，并在生成时“依葫芦画瓢”。也就是说，像StableDiffusion生成的AI画作里，每一笔背后都可能隐藏着

2023-02-03 22:00:00

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更快、更强

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器（ViT）模型与对比性预训练的模型（SigLIP）进行了比较

2023-10-17 16:31:00

微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模型，实现高质量的语义分割任务

微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模

...。然而，由于语义分割任务的复杂性和数据的不足，单独训练一个语义分割模型可能会面临一些挑战，例如模型过拟合、模型泛化能力不足等。为了解决这些问题，微美全息（NASDAQ:WIM

2023-11-15 01:02:00

华人团队爆火instructblip抢跑看图聊天

华人团队爆火instructblip抢跑看图聊天

...究人员首先介绍了指令微调数据的构建，然后则是具体的训练过程。之后，分别从模型和数据的角度阐述了两种提高指令微调性能的技术。为了保证指令微调数据的多样性，同时考虑到它们的可及性

2023-05-15 20:17:00

海外New Things | 清理用于 AI 训练的图像数据

...资由Madrona和Insight Partners领投。据悉，新资金将用于管理训练、测试、微调由人工智能模型生成的大量视觉数据集

2023-05-29 20:02:00

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 | ACM MM2024

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...因为黑客可能会未经授权地利用图像-文本数据进行模型训练，其中可能包括个人和隐私敏感信息。最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本（Unlearnable Examples）

2024-08-02 09:55:00

1890美元，就能从头训练一个还不错的12亿参数扩散模型

1890美元，就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高

2024-07-30 09:37:00

2022生成模型进展有多快，新论文盘点9类生成模型代表作

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...上做出大突破。与DALL・E一样，两点依旧是CLIP模型，除了训练数据庞大，CLIP基于Transformer对图像块建模

2023-01-30 16:34:00

微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率

微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分

...，构建了图像分类融合模型，通过利用在大规模数据集上训练的模型的特征表示来提升小样本数据集上的分类性能。深度迁移学习可将已经在大规模数据集上训练好的深度学习模型应用于新的任务中

2023-10-23 16:02:00

更多关于科技的资讯：

具身智能万亿市场来袭！2025中关村论坛解锁发展密码

具身智能万亿市场来袭！2025中关村论坛解锁发展密码

2025-04-01 11:34:00

央国企新能源第一品牌岚图汽车3月销量再破万：同涨64%

央国企新能源第一品牌岚图汽车3月销量再破万：同涨64%

2025-04-01 11:39:00

五菱银标3月销量近7万台暴增166%！宏光MINIEV占了近4万台

五菱银标3月销量近7万台暴增166%！宏光MINIEV占了近

2025-04-01 11:39:00

女性仍主导高消费：男性消费由“取悦他人”转向“自我满足”

女性仍主导高消费：男性消费由“取悦他人”转向“自我满足”

2025-04-01 11:39:00

我国首款！新能源轻型运动类飞机正式交付：续航里程达280公里

我国首款！新能源轻型运动类飞机正式交付：续航里程达280公里

2025-04-01 11:39:00

性能对比惨烈：RTX 5090移动版比桌面版慢了50%！

性能对比惨烈：RTX 5090移动版比桌面版慢了50%！

2025-04-01 11:39:00

新手第一次开盖AMD锐龙9 9950X3D成功！只用两样简单工具

新手第一次开盖AMD锐龙9 9950X3D成功！只用两样简单

2025-04-01 11:39:00

科华交通能源与中国18万公里巨龙共舞

科华交通能源与中国18万公里巨龙共舞

2025-04-01 11:45:00

小米SU7高速上碰撞爆燃？雷军评论区沦陷，客服回应：全力配合调查

小米SU7高速上碰撞爆燃？雷军评论区沦陷，客服回应：全力配合

2025-04-01 11:50:00

为什么新注册的PayPal收款容易被冻结

为什么新注册的PayPal收款容易被冻结

2025-04-01 11:53:00

今晚请抬头！年度最大“蛾眉月”来了：距地球36.3万公里

今晚请抬头！年度最大“蛾眉月”来了：距地球36.3万公里

2025-04-01 12:09:00

一件顶6件：JEEP夏季防晒服29.9元大促（170元券）

一件顶6件：JEEP夏季防晒服29.9元大促（170元券）

2025-04-01 12:09:00