• 我的订阅
  • 社会

用AI数据训练AI效果怎样?国际最新研究称可能最终导致崩溃

类别:社会 发布时间:2024-07-27 13:11:00 来源:缘之心

中新网北京7月27日电 (记者 孙自法)国际学术期刊《自然》最新发表一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。

该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。

生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。

论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及合作者一起,用数学模型演示了AI模型可能会如何出现模型崩溃。他们证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。

随后,论文作者还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致模型崩溃。他们测试的几乎所有递归训练语言模型都容易出现重复短语。比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。

论文作者指出,为了让人工智能成功使用其自身输出进行训练,本次研究认为用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。(完)【编辑:甘甜】

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑
...)70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。图 天数智芯产品线总监宋
2023-06-13 12:00:00
...解除Word Embedding与lmhead共享参数,有效提升模型稳定性和训练效果,并基于精细化的CheckPoint效果验证
2024-04-28 11:38:00
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...讯飞星火坚持走全国产化路线。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最
2025-01-15 15:07:00
纽约大学教授 Nature 发文:为了科学界的未来
...言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。最近Nature世界观
2023-05-10 15:10:00
本文转自:中国科学报南开大学等让人工智能模型训练提速10倍以上本报讯(通讯员高雨桐 记者陈彬)南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布了一项国际联合研究成果MD
2024-04-03 07:20:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,202
2024-03-14 15:12:00
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果
2023-10-30 15:35:00
圆桌|生成式AI时代,大模型数据安全如何保障?
...主任黄民烈如是说道。他认为,生成式人工智能可以通过训练去组合,去生成新的内容,这些内容可能在过去的语料里根本没出现过,但它依然是有害的。所以,即便把训练数据处理得很干净,在生
2024-04-27 00:22:00
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...然是一个复杂领域。基于深度学习的机器翻译,虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。除了训练数据的局限性之外,AI的上下文理
2024-10-17 09:49:00
更多关于社会的资讯:
逢节必逛!滨港商业中心今潮8弄国庆中秋超百场活动演绎海派过节新玩法
华灯璀璨,共庆佳节。随着2025第二届上海国际光影节点亮全城,位于虹口四川北路的沪上海派潮流地标“滨港商业中心今潮8弄”作为虹口分会场核心活动区域
2025-10-05 10:39:00
记者走基层·假日消费 活力涌动|太行市集 山货荟萃圈粉无数
10月3日,游客在武安市活水乡李家庄村的山李冀·山游市集休闲娱乐。 河北日报记者 苑立立摄青石板路平整延伸,石锅泉水鱼香气扑鼻
2025-10-05 08:34:00
第十四届鼓浪屿钢琴艺术周吸引海内外众多游客沉浸式体验
国际友人在鼓浪屿钢琴码头下沉广场演出,营造浓厚的音乐氛围。鼓浪屿钢琴艺术周推出丰富多样的活动。图为新疆舞者带来精彩的表演
2025-10-05 08:34:00
亲子共赴科学之约 厦门科技馆国庆中秋假期前四天客流量超6万人次
厦门科技馆推出《大鲸家族》特展,吸引众多孩子参观。(厦门日报记者 林铭鸿 摄)厦门网讯 (厦门日报记者 薛尧)国庆中秋假期前四天
2025-10-05 08:34:00
白天玩不尽兴,晚上不妨来一场说走就走的夜游。到迎泽大桥赏夜景、在铜锣湾特色街区淘夜食、去晋阳湖观看实景夜演,体验太原“越夜越精彩”的独有魅力
2025-10-05 07:30:00
10月4日的西铭车场里,太原公交一公司三车队驾驶员们的身上多了一抹亮色——鲜红的志愿者绶带,他们手捧小红旗和国庆主题风车来到站台
2025-10-05 07:30:00
湖北利川发生交通事故 致2人当场死亡、3人因抢救无效死亡
华商网讯 利川市公安局10月5日发布警情通报:来源:华商网 相关热词搜索:
2025-10-05 07:56:00
18年双膝关节痛折磨 济南南郊医院助七旬老人重拾生活信心
一位饱受双膝关节疼痛折磨长达18年的七旬老人,在济南南郊医院骨二科成功接受手术治疗后重获健康,现已恢复劳动能力。如今,老人已能自如地使用农具翻晒农作物
2025-10-04 08:11:00
双节送温暖回访:济南南郊医院骨二科将“人本位”服务送到患者家中
10月2日,正值国庆中秋双节假期,当大多数人沉浸在团聚与休闲的氛围中时,济南南郊医院的一支医疗小队却踏上了一段特殊的行程
2025-10-04 08:13:00
□南京日报/紫金山新闻记者李子俊这个双节假期,五湖四海的游客纷纷与“宁”相约。南京的“宠粉”举措和南京人的热情好客,让他们竖起了大拇指
2025-10-04 08:14:00
单侧膝关节骨性关节病困扰老人多年 济南南郊医院骨二科精准手术解病痛
77岁的老人,多年来因左膝持续疼痛,行走日益困难。每一步都步履蹒跚,姿态不稳,不仅让人担忧其安全,连日常简单走动也成为一种负担
2025-10-04 08:14:00
“唱”游一厦!免费搭双层巴士 听演唱赏美景
唱游巴士专门设置了专业表演区域。图为阿卡贝拉椰子乐队现场演绎歌曲。厦门网讯(文/图 厦门日报记者 林钦圣 通讯员 江安娜)“坐着双层巴士
2025-10-04 09:20:00
“乐”享美好 厦门环岛路错时上演海风音乐会
清晨五点半,黄厝海滩的晨光音乐会在朝霞映衬下开场,陪伴着等候日出的游客。(厦门日报记者 林铭鸿 摄)厦门网讯(厦门日报记者 吴燕如)从晨光熹微到夜幕降临
2025-10-04 09:20:00
陕西旬阳通报“男子婚礼当天跳河”:因婚礼琐事情绪失控 多部门正全力搜救
华商网讯 10月4日,旬阳市融媒体中心发布消息, 通报“男子婚礼当天跳河”:因婚礼琐事情绪失控,多部门正全力搜救。全文如下
2025-10-04 10:26:00
张继科落水处放置“我在张继科落水处很想你”宣传牌?景区回应:虚构的!“没有放这样的牌子”
大皖新闻讯 近日,张继科在位于福建省福安市的白云山风景名胜区落水一事引发关注。10月4日,记者注意到,一张网传图片显示
2025-10-04 11:16:00