• 我的订阅
  • 社会

用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃

类别:社会 发布时间:2024-07-27 13:11:00 来源:缘之心

中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。

该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。

生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。

随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。

论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)【编辑:甘甜】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑
...)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。图 天数智芯产品线总监宋
2023-06-13 12:00:00
...解除Word Embedding与lmhead共享参数,有效提升模型稳定性和训练效果,并基于精细化的CheckPoint效果验证
2024-04-28 11:38:00
纽约大学教授 Nature 发文:为了科学界的未来
...言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。最近Nature世界观
2023-05-10 15:10:00
本文转自:中国科学报南开大学等让人工智能模型训练提速10倍以上本报讯(通讯员高雨桐 记者陈彬)南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布了一项国际联合研究成果MD
2024-04-03 07:20:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,202
2024-03-14 15:12:00
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果
2023-10-30 15:35:00
圆桌|生成式AI时代,大模型数据安全如何保障?
...主任黄民烈如是说道。他认为,生成式人工智能可以通过训练去组合,去生成新的内容,这些内容可能在过去的语料里根本没出现过,但它依然是有害的。所以,即便把训练数据处理得很干净,在生
2024-04-27 00:22:00
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...然是一个复杂领域。基于深度学习的机器翻译,虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。除了训练数据的局限性之外,AI的上下文理
2024-10-17 09:49:00
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...会限制大模型的应用效果和准确性。隐私方面,大模型的训练和应用过程中可能涉及用户的隐私信息及企业的敏感数据,需要采取措施保护用户隐私和企业数据安全。算力则是大模型训练的另一个刚
2023-12-08 17:24:00
更多关于社会的资讯: