• 我的订阅
  • 社会

用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃

类别:社会 发布时间:2024-07-27 13:11:00 来源:缘之心

中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。

该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。

生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。

随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。

论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)【编辑:甘甜】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑
...)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。图 天数智芯产品线总监宋
2023-06-13 12:00:00
...解除Word Embedding与lmhead共享参数,有效提升模型稳定性和训练效果,并基于精细化的CheckPoint效果验证
2024-04-28 11:38:00
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...讯飞星火坚持走全国产化路线。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最
2025-01-15 15:07:00
纽约大学教授 Nature 发文:为了科学界的未来
...言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。最近Nature世界观
2023-05-10 15:10:00
本文转自:中国科学报南开大学等让人工智能模型训练提速10倍以上本报讯(通讯员高雨桐 记者陈彬)南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布了一项国际联合研究成果MD
2024-04-03 07:20:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,202
2024-03-14 15:12:00
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果
2023-10-30 15:35:00
圆桌|生成式AI时代,大模型数据安全如何保障?
...主任黄民烈如是说道。他认为,生成式人工智能可以通过训练去组合,去生成新的内容,这些内容可能在过去的语料里根本没出现过,但它依然是有害的。所以,即便把训练数据处理得很干净,在生
2024-04-27 00:22:00
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...然是一个复杂领域。基于深度学习的机器翻译,虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。除了训练数据的局限性之外,AI的上下文理
2024-10-17 09:49:00
更多关于社会的资讯:
擦亮文明窗口|崂山区:看派出所民警如何化身“救火队员”化解身边纠纷
鲁网11月7日讯生活中,难免遇到让人“心头一慌”的麻烦事,车辆突然不见、邻里争执不下、家庭矛盾升级……每当这时,他们却一直都在
2025-11-07 11:42:00
中新经纬11月7日电 (李晓萱 郑艺佳)近日,泡泡玛特某平台官方直播间在推广某款IP周边产品时,两名现场工作人员的私下对话被直播间收录
2025-11-07 12:10:00
中新经纬11月7日电 据国家卫健委网站7日消息,为指导医疗机构和医务人员规范开展互联网健康科普,更好满足人民群众健康需求
2025-11-07 12:11:00
近日,一网友通过“四川省网上群众工作平台——问政四川”反映,自己不喜欢名字“丽春”,跑了4次派出所,两次提交申请材料要求改名
2025-11-07 12:28:00
“经纬共生,澜湄艺境”国际艺术展暨学术论坛将于2025年11月29-30日在泰国曼谷举行
——共庆中泰建交50周年,推动区域文化艺术交流为庆祝中泰建交50周年,积极响应“一带一路”倡议,促进中泰两国艺术与人文交流的深入发展
2025-11-07 13:28:00
【名医预约】山东省肿瘤医院于金明院士团队即将莅临泰安市中医医院,开展高水平多学科诊疗及学术交流!
鲁网11月7日讯为了让泰安的肿瘤患者在家门口就能享受到顶尖的诊疗服务,11月16日,我们特别请到了山东省肿瘤医院于金明院士旗下的核心医疗团队亲临泰安
2025-11-07 14:06:00
外卖小哥、网络主播集体发声!这份文明宣言请查收
大河网讯(记者 赵檬)“请您珍视职业声誉、请您内容真实守底线、请您自觉抵制低俗虚假内容……”11月5日晚,在2025河南省网络文明大会上
2025-11-07 14:11:00
小叶医探 | 安徽疾控最新研判!手足口病疫情或达近十年高峰
大皖新闻讯 今天是立冬节气,标志着冬季的开始,也意味着进入了呼吸道等传染病的高发季节。11月7日,“小叶医探”从安徽省政府新闻办召开的新闻发布会上获悉
2025-11-07 14:42:00
她把“老家”河南讲给世界听,评论区沸腾了
大河网讯(记者 张磊 申华)“爷爷,我们替你回来了。” 今年四月,台湾前电视台主持人翟翾在河南孟州老家土地上刻下一个“家”字
2025-11-07 14:42:00
民警张野的 “逆龄成长记”
在吉林市公安局船营区德胜街道,有个身影走到哪儿都被人热络地打招呼 :孩子们叽叽喳喳地围上来喊“张妈”;老人们热情地拉着她的手叫“闺女”
2025-11-07 14:49:00
当满载大湾区调味品、家居建材的班列从佛山丹灶启程,3天直达南京、常州的物流新篇,不仅是粤苏两大经济强省的动线升级,更是中国顶尖经济体从“齐头并进”到“双向赋能”的生动注解
2025-11-07 15:05:00
出租房内抓获两名违法人员,北京通州警方依法处罚违规出租房东
针对房屋出租人不按规定登记信息、不落实房屋管理责任、违规出租短租住房等违法违规行为,通州警方持续开展专项整治行动。近日
2025-11-07 15:36:00
北京顺义警方通报:男子造谣充“劣质电”导致车辆自燃
北京市公安局顺义分局通过微信公众号“顺义警方”11月6日发布消息称,如今,刷短视频成为不少人休闲娱乐的选择,而有个别人就盯上了视频平台上的各类社会热点信息
2025-11-07 15:37:00
福建信息职业技术学院举办“心中的旗帜” 情景组歌晚会
为推动思政工作与文艺创作深度融合,让思想政治教育更具温度、更富感染力,2025年福建信息职业学院申报的福建省高校思想政治工作质量提升综合改革与精品建设项目“心中的旗帜”情景组歌主题文艺晚会
2025-11-07 15:43:00
上饶市广信农商银行:暖心服务无国界 举手之劳不“见外”
近日,广信农商银行华坛山支行里,一位本地居民带着法国友人匆匆走进网点。刚到柜台前,法国客户便拿出银行卡,焦急地用手势比画着“取款”的需求
2025-11-07 15:52:00