• 我的订阅
  • 科技

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

类别:科技 发布时间:2023-06-14 11:31:00 来源:学术头条

1966年,在由Michael Keaton主演的科幻喜剧电影《丈夫一箩筐》(Multiplicity)中,剧中主角 Doug Kinney 在 Leeds 博士的帮助下成功克隆了自己,随后又制作了“克隆人的克隆人”,其结果是,后代克隆人的智力水平均呈现出了指数级下降,愚蠢程度不断增加。

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

图|《丈夫一箩筐》海报

放眼当下,以 ChatGPT 为代表的大型语言模型(LLMs),在一定程度上也成为了人类智力的克隆产物。而数据作为模型性能和泛化能力的重要基础之一,会直接影响这些“克隆人”的智能水平。

如我们所知,用于训练 LLMs 和其他支撑 ChatGPT、Stable Diffusion 和 Midjourney 等产品的 Transformer 模型的数据,最初都来自于人类的资源,如书籍、文章、照片等。而这些都是在没有人工智能(AI)帮助的情况下创造出来的。

未来,随着 AI 生成的数据越来越多,大模型训练又将如何展开?当 AI 只能用自己生成的数据来训练自己时,又会怎样?

近日,牛津大学、剑桥大学的研究人员及其合作者对这一问题进行了研究,并将研究成果论文发表在了预印本网站 arXiv 上。

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

论文链接: https://arxiv.org/abs/2305.17493v2

他们通过研究文本到文本和图像到图像 AI 生成模型的概率分布,得出了这样一个结论:

“模型在训练中使用(其他)模型生成的内容,会出现不可逆转的缺陷。”

即“模型崩溃”(Model Collapse)。

什么是模型崩溃?

本质上,当 AI 大模型生成的数据最终污染了后续模型的训练集时,就会发生“模型崩溃”。

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

论文中写道,“模型崩溃指的是一个退化的学习过程,在这个过程中,随着时间的推移,模型开始遗忘不可能发生的事件,因为模型被它自己对现实的投射所毒化。”

一个假设的场景更有助于理解这一问题。机器学习(ML)模型在包含 100 只猫的图片的数据集上进行训练——其中 10 只猫的毛色为蓝色,90 只猫的毛色为黄色。该模型了解到黄猫更普遍,但也表示蓝猫比实际情况偏黄一点,当被要求生成新数据时,会返回一些代表“绿毛色的猫”的结果。随着时间的推移,蓝色毛色的初始特征会在连续的训练周期中逐渐消失,从逐渐变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失,就是“模型崩溃”。

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

论文中还强调,还有许多其他方面会导致更严重的影响,比如基于性别、种族或其他敏感属性的歧视,特别是如果生成式 AI 随着时间的推移学会在其反应中产生一个种族,而“忘记”他人的存在。

重要的是要注意,这种现象不同于“灾难性遗忘”(catastrophic forgetting),模型只是丢失以前学到的信息,相比之下,“模型崩溃”涉及模型根据它们强化的信念误解现实。

此外,研究人员表示,即使在训练后代模型时使用的人类自身创作数据占比依然有 10%,“模型崩溃也还会发生,只是不会那么快。”

可以避免吗?

幸运的是,有一些方法可以避免模型崩溃,即使是对于当前的 Transformers 和 LLMs 而言。

在论文中,为避免响应质量下降,并减少 AI 模型中不需要的错误或重复,研究人员给出了两种具体方式。

第一种方法是,保留原始的完全或名义上由人类生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始进行一次“完全刷新”。

第二种方法,将新的、清洗过的、人类生成的数据集重新引入到模型训练中。

然而,正如研究人员指出的那样,这需要内容制作者或 AI 公司采用某种大规模的标签机制,或由内容生产商、AI 公司使用更好的方法来区分 AI 和人类生成的内容。“这会增加训练成本,但至少在某种程度上会帮助你抵消模型崩溃。”

另外,研究人员也给出了提示:“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表。”

但在实践中,这是十分困难的。例如,数据需要被仔细备份,并涵盖所有可能的少数情况。在评估模型的性能时,应该使用模型预期要处理的数据,即使是那些最不可能的数据案例。(请注意,这并不意味着应该对不可能的数据进行过采样,而是应该适当地表示它们。)

未来,人类创造的内容将更有价值?

尽管这一警示似乎对当前的生成式 AI 技术以及寻求通过它获利的公司来说都是令人担忧的,但是从中长期来看,或许能让人类内容创作者看到更多希望。

研究人员表示,在充满 AI 工具及其生成内容的未来世界,人类创造的内容将比今天更有价值——如果只是作为人工智能原始训练数据的来源。

“GPT-N”一定更强吗?专家警告:当人类数据用完 AI大模型或将越来越笨

这一发现,对 AI 领域有着重要的意义。研究人员强调,我们通过改进方法来保持生成模型的完整性,以及未经检查的生成过程的风险,并可能指导未来的研究,防止或管理模型崩溃。

“很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成式 AI 继续得到改进。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-14 13:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

人工智能专家张文宇:人工智能的发展离不开人性的驱动
...人们开始担忧人工智能会让人类下课甚至下线吗?当机器越来越像人,人类路在何方?2023年12月2日下午,温州市中国基因药谷国际学术交流中心热闹非凡
2023-12-04 20:16:00
面壁智能联合创始人刘知远:AI的第二次智能涌现,是群体智能的涌现 | WISE2023商业之王大会
...任务。第三个阶段,从2018年开始,我们已经进入到一个越来越通用的智能阶段,由大模型所驱动的一种自监督学习的方法。它可以利用互联网上没有任何标注的通用数据,用一些通用的方法来
2023-11-30 14:50:00
...展,华瑞银行业务总监刘罡介绍,AI在金融机构里应用得越来越广,很多机构都在尝试,机器人客服替代人工客服已经是过去式,华瑞银行现在做到机器人客服和人工客服叠加,人加机器、人配机
2023-08-01 12:26:00
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...之所以提出HourVideo,是因为研究人员发现目前长视频理解越来越重要,而现有评估benchmark存在不足。多模态越来越卷
2024-11-11 13:31:00
...AI检测工具如何根据差异进行识别?AI检测工具如何应对越来越聪明的大模型?带着这些问题,记者采访了有关专家。AI创作套路化明显“虽然大模型在不断发展迭代,但到目前为止,AIG
2024-08-16 10:04:00
...才能专注创新 ■本报记者 周辰数字化、智能化办公越来越普遍,有调研发现,64%的职场受访者提出,由于信息泛滥导致自己无法专注于当下工作任务,遑论创新和战略性思考
2023-07-07 05:06:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...着基于计算的大模型和知识推理引擎的不断发展,AI也将越来越接近甚至超越人类,这将在极大程度上推动生产力。(作者为中国科学技术大学教授、知识计算实验室主任)作者:周熠图片:除注
2023-08-23 11:03:00
有关AI+,不只谈前景
...I来说是重大的技术挑战。技术治理也是挑战,一旦AI系统越来越强大,就有了做各种事情的能力,大家快速地学习、快速地实现,但可能做的是好事,也可能是坏事。各种智能体出来后我们需要
2024-07-04 23:59:00
专家提示:警惕GPT技术引发工业安全风险
...。加拿大也在对OpenAI展开调查。苹果、三星、SK海力士等越来越多的企业也开始禁用ChatGPT。7月6日,在2023工业安全大会上
2023-07-06 19:20:00
更多关于科技的资讯:
在生成式AI搜索浪潮席卷而来的2025年,选择一名合格的GEO服务商,已成为企业营销决策者的核心课题。然而,市场喧嚣背后
2025-11-02 17:33:00
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00