我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“GPT-N”一定更强吗？专家警告：当人类数据用完 AI大模型或将越来越笨

类别：科技发布时间：2023-06-14 11:31:00 来源：学术头条

1966年，在由Michael Keaton主演的科幻喜剧电影《丈夫一箩筐》（Multiplicity）中，剧中主角 Doug Kinney 在 Leeds 博士的帮助下成功克隆了自己，随后又制作了“克隆人的克隆人”，其结果是，后代克隆人的智力水平均呈现出了指数级下降，愚蠢程度不断增加。

图｜《丈夫一箩筐》海报

放眼当下，以 ChatGPT 为代表的大型语言模型（LLMs），在一定程度上也成为了人类智力的克隆产物。而数据作为模型性能和泛化能力的重要基础之一，会直接影响这些“克隆人”的智能水平。

如我们所知，用于训练 LLMs 和其他支撑 ChatGPT、Stable Diffusion 和 Midjourney 等产品的 Transformer 模型的数据，最初都来自于人类的资源，如书籍、文章、照片等。而这些都是在没有人工智能（AI）帮助的情况下创造出来的。

未来，随着 AI 生成的数据越来越多，大模型训练又将如何展开？当 AI 只能用自己生成的数据来训练自己时，又会怎样？

近日，牛津大学、剑桥大学的研究人员及其合作者对这一问题进行了研究，并将研究成果论文发表在了预印本网站 arXiv 上。

论文链接： https://arxiv.org/abs/2305.17493v2

他们通过研究文本到文本和图像到图像 AI 生成模型的概率分布，得出了这样一个结论：

“模型在训练中使用（其他）模型生成的内容，会出现不可逆转的缺陷。”

即“模型崩溃”（Model Collapse）。

什么是模型崩溃？

本质上，当 AI 大模型生成的数据最终污染了后续模型的训练集时，就会发生“模型崩溃”。

论文中写道，“模型崩溃指的是一个退化的学习过程，在这个过程中，随着时间的推移，模型开始遗忘不可能发生的事件，因为模型被它自己对现实的投射所毒化。”

一个假设的场景更有助于理解这一问题。机器学习（ML）模型在包含 100 只猫的图片的数据集上进行训练——其中 10 只猫的毛色为蓝色，90 只猫的毛色为黄色。该模型了解到黄猫更普遍，但也表示蓝猫比实际情况偏黄一点，当被要求生成新数据时，会返回一些代表“绿毛色的猫”的结果。随着时间的推移，蓝色毛色的初始特征会在连续的训练周期中逐渐消失，从逐渐变成绿色，最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失，就是“模型崩溃”。

论文中还强调，还有许多其他方面会导致更严重的影响，比如基于性别、种族或其他敏感属性的歧视，特别是如果生成式 AI 随着时间的推移学会在其反应中产生一个种族，而“忘记”他人的存在。

重要的是要注意，这种现象不同于“灾难性遗忘”（catastrophic forgetting），模型只是丢失以前学到的信息，相比之下，“模型崩溃”涉及模型根据它们强化的信念误解现实。

此外，研究人员表示，即使在训练后代模型时使用的人类自身创作数据占比依然有 10%，“模型崩溃也还会发生，只是不会那么快。”

可以避免吗？

幸运的是，有一些方法可以避免模型崩溃，即使是对于当前的 Transformers 和 LLMs 而言。

在论文中，为避免响应质量下降，并减少 AI 模型中不需要的错误或重复，研究人员给出了两种具体方式。

第一种方法是，保留原始的完全或名义上由人类生成的数据集的副本，并避免与 AI 生成的数据相混淆。然后，模型可以根据这些数据定期重新训练，或者从头开始进行一次“完全刷新”。

第二种方法，将新的、清洗过的、人类生成的数据集重新引入到模型训练中。

然而，正如研究人员指出的那样，这需要内容制作者或 AI 公司采用某种大规模的标签机制，或由内容生产商、AI 公司使用更好的方法来区分 AI 和人类生成的内容。“这会增加训练成本，但至少在某种程度上会帮助你抵消模型崩溃。”

另外，研究人员也给出了提示：“为了阻止模型崩溃，我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表。”

但在实践中，这是十分困难的。例如，数据需要被仔细备份，并涵盖所有可能的少数情况。在评估模型的性能时，应该使用模型预期要处理的数据，即使是那些最不可能的数据案例。（请注意，这并不意味着应该对不可能的数据进行过采样，而是应该适当地表示它们。）

未来，人类创造的内容将更有价值？

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的，但是从中长期来看，或许能让人类内容创作者看到更多希望。

研究人员表示，在充满 AI 工具及其生成内容的未来世界，人类创造的内容将比今天更有价值——如果只是作为人工智能原始训练数据的来源。

这一发现，对 AI 领域有着重要的意义。研究人员强调，我们通过改进方法来保持生成模型的完整性，以及未经检查的生成过程的风险，并可能指导未来的研究，防止或管理模型崩溃。

“很明显，模型崩溃是 ML 的一个问题，必须采取一些措施来确保生成式 AI 继续得到改进。”

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-06-14 13:45:11

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于越来,模型,越来越,人类,专家,数据的资讯：

人工智能专家张文宇：人工智能的发展离不开人性的驱动

...人们开始担忧人工智能会让人类下课甚至下线吗？当机器越来越像人，人类路在何方？2023年12月2日下午，温州市中国基因药谷国际学术交流中心热闹非凡

2023-12-04 20:16:00

面壁智能联合创始人刘知远：AI的第二次智能涌现，是群体智能的

...任务。第三个阶段，从2018年开始，我们已经进入到一个越来越通用的智能阶段，由大模型所驱动的一种自监督学习的方法。它可以利用互联网上没有任何标注的通用数据，用一些通用的方法来

2023-11-30 14:50:00

大模型应用于金融行业面临两大挑战，专家支招如何应对

...展，华瑞银行业务总监刘罡介绍，AI在金融机构里应用得越来越广，很多机构都在尝试，机器人客服替代人工客服已经是过去式，华瑞银行现在做到机器人客服和人工客服叠加，人加机器、人配机

2023-08-01 12:26:00

AI检测AI：“矛”更利还是“盾”更坚

...AI检测工具如何根据差异进行识别？AI检测工具如何应对越来越聪明的大模型？带着这些问题，记者采访了有关专家。AI创作套路化明显“虽然大模型在不断发展迭代，但到目前为止，AIG

2024-08-16 10:04:00

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...之所以提出HourVideo，是因为研究人员发现目前长视频理解越来越重要，而现有评估benchmark存在不足。多模态越来越卷

2024-11-11 13:31:00

摆脱“数字负累”，才能专注创新

...才能专注创新 ■本报记者周辰数字化、智能化办公越来越普遍，有调研发现，64%的职场受访者提出，由于信息泛滥导致自己无法专注于当下工作任务，遑论创新和战略性思考

2023-07-07 05:06:00

大模型面临四大关键缺陷，“知识方程”能否通向强人工智能

...着基于计算的大模型和知识推理引擎的不断发展，AI也将越来越接近甚至超越人类，这将在极大程度上推动生产力。（作者为中国科学技术大学教授、知识计算实验室主任）作者：周熠图片：除注

2023-08-23 11:03:00

有关AI+，不只谈前景

...I来说是重大的技术挑战。技术治理也是挑战，一旦AI系统越来越强大，就有了做各种事情的能力，大家快速地学习、快速地实现，但可能做的是好事，也可能是坏事。各种智能体出来后我们需要

2024-07-04 23:59:00

专家提示：警惕GPT技术引发工业安全风险

...。加拿大也在对OpenAI展开调查。苹果、三星、SK海力士等越来越多的企业也开始禁用ChatGPT。7月6日，在2023工业安全大会上

2023-07-06 19:20:00

更多关于科技的资讯：

温岭企业研发的民用航空涂料获设计/生产批准函飞机有了国产“

浙江日报讯（记者赵静张源共享联盟·温岭郑灵芝通讯员陈远笛）日前，浙江鱼童新材料股份有限公司传出喜讯：这家深耕船舶涂料的企业

2026-02-03 08:10:00

2026“中国味·好年货”专场活动圆满举办 “内容+消费”共

2月1日，央视财经、央视频联合润星集团创始人杨润心（网名蛋蛋）推出“中国味·好年货”专场直播，并在央视财经、央视频快手账号同步转播

2026-02-03 09:11:00

把好智能时代的“方向盘”-中国吉林网

长白时评评论员崔越然近期，关于AI在商品推荐中存在“幻觉”的讨论在舆论场中引发广泛热议。有关专家建议厂商须标注信息来源

2026-02-03 10:26:00

市科技馆举办“好奇π·科创筑梦慧聚新春” 寒假科普体验日活动

胶东在线2月3日讯2月1日，市科技馆“好奇π·科创筑梦慧聚新春”寒假科普体验日活动在青少年科学工作室举办，活动吸引了40组家庭参与

2026-02-03 10:46:00

巴特罗之家光影大秀《隐藏的秩序》点亮高迪年 ——从巴塞罗那城

作为巴塞罗那“高迪年（Año Gaudí 2026）”的第一场重要文化活动，Casa Batlló 于2026年1月31日至2月1日推出年度外立面光影大秀《隐藏的秩序（Hidden Order）》

2026-02-03 08:40:00

基于财务共享模式下企业财务信息化建设研究

王凯莉对外经济贸易大学国际商学院摘要：随着企业规模的扩大及人工智能的飞速发展，财务共享模式已成为企业提高运营效率、提升风险管控能力

2026-02-03 07:03:00

新春走基层｜白沟黑马玩具成“黑马”

1月29日，伊呀呀毛绒玩具制造有限公司负责人李辉正在给直播间的顾客介绍产品。河北日报见习记者李靖恬摄农历马年将至，保定市白沟新城的一款黑马毛绒玩具意外走红

2026-02-03 07:45:00

走市场看消费①｜新一轮消费品以旧换新政策落地河北消费市场

新一轮消费品以旧换新政策落地河北消费市场加速焕新1月14日，消费者在京东MALL石家庄新华店选购商品。河北日报记者冯阳摄■编者按消费是经济增长的“主引擎”

2026-02-03 07:52:00

小创新破解大难题太重油膜分公司优化工艺降本增效

“工欲善其事，必先利其器。”这句千年古训，在太重油膜轴承分公司的生产车间里，正被一群扎根一线的劳动者以创新实践赋予新的时代内涵

2026-02-03 07:12:00

中国银联：从未联合或授权任何机构发行所谓“农业专属卡”

中新经纬2月2日电据“中国银联”网站消息，1月30日，中国银联发布声明称，公司从未联合或授权任何机构发行所谓“农业专属卡”

2026-02-02 20:22:00

贵州刺梨以高附加值产品开拓全国大市场

春节前夕，正值年货采买热潮，贵州刺梨产业也迎来新的发展节点——由贵州农发集团下属贵州刺梨集团研发的SOD（超氧化物歧化酶）肠溶片系列产品

2026-02-02 17:01:00

“刚刚好”的安静——全国铁路提供“静音车厢”服务列车将超80

2026-02-02 19:15:00

如何评价一家事业编培训机构？从鸿图政通教育的扎实筹备说起

在快速更迭的培训市场，不乏一时风头无两的机构，但能持续赢得信任的品牌，往往离不开长时间的潜心积淀与专业化打磨。北京鸿图政通教育虽于2024年1月22日正式注册成立

2026-02-02 19:30:00

海信发布璀璨大冻梨冰箱以“真大冷冻”新标准破解行业用户痛点

鲁网2月2日讯1月31日，海信正式推出全新产品——海信璀璨大冻梨冰箱。这款被定义为“行业大冷冻冰箱开创者”的产品，旨在系统性解决中国家庭在食材冷冻存储中长期面临的容积不足

2026-02-02 14:17:00

深挖用户痛点：海信璀璨大冻梨冰箱背后的“冻力”革命与创新哲学

鲁网2月2日讯中国家庭的冷冻室正面临一场普遍的“存储危机”：食材堆积导致存取不便；大量囤货时中心温度难以下降；化冻后的肉类口感干柴

2026-02-02 14:18:00

头条订阅服务

“GPT-N”一定更强吗？专家警告：当人类数据用完 AI大模型或将越来越笨