• 我的订阅
  • 科技

生成式AI的抄袭输出问题值得关注(附图片)

类别:科技 发布时间:2024-01-11 06:45:00 来源:每日看点快看

本文转自:人民邮电报

生成式AI的抄袭输出问题值得关注(附图片)

Midjourney制作的图像与知名电影和视频游戏中的镜头几乎相同(左侧为原作,右侧为Midjourney生成图片)。

(图片来源:IEEE Spectrum)

生成式AI的抄袭输出问题值得关注(附图片)

这些图像均由Midjourney制作生成,提示词中均包含“screencap”。

(图片来源:IEEE Spectrum)

大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别的训练集内初始文本。

例如,Milad Nasr及其同事在2023年发表的一篇论文表明,大语言模型可能会在提示词的引导下泄露个人信息,比如电子邮箱地址和电话号码等。来自谷歌Deepmind的Nicholas Carlini也在最近的研究中发现,参数规模较大的大语言模型有时会逐字逐句照搬训练时“见过”的大段文本。

前不久,《纽约时报》向美国曼哈顿联邦法院提起诉讼,指控OpenAI涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。《纽约时报》称其“非法使用”“数百万篇”受版权保护的文章来训练生成式人工智能模型,并要求赔偿“数十亿美元”。

对此,OpenAI知识产权和内容首席Tom Rubin表示,公司近期与数十家出版商展开了有关许可协议的谈判:“我们正处于多场谈判中,正在与多家出版商进行讨论。他们十分活跃积极,这些谈判进展良好。”

自生成式AI应用成为热门话题以来,版权问题逐渐凸显。我们把复制训练数据的输出称为“抄袭输出”。此类输出的存在和特定诉讼结果很可能决定生成式AI的未来经济效益和社会影响。

如何判定LLM的输出内容是否属于对训练内容的抄袭?这是一个难以精确回答的问题。其中一个原因是LLM就像一个“黑盒子”——我们并不完全了解输入(训练数据)和输出之间的关系。更重要的是,大语言模型的输出可能从此刻到下一刻发生难以预测的变化,且抄袭输出的程度可能由模型大小和训练集的具体性质决定。也正是由于LLM的这种“黑盒子”特性(对于开发者自己也是如此,无论是否开源),关于抄袭输出的问题只能通过实验的方式来研究解决。

值得注意的是,由于抄袭输出的存在,引发了一系列问题,包括技术问题(可以采取哪些措施来避免抄袭输出)、社会学问题(新闻业会因此受到哪些影响)、法律问题(这些输出是否涉及版权侵犯)以及实际问题(当用户使用LLM生成的某些内容时,是否需要担心版权问题)。

抄袭输出是否仅存在于文字生成领域,文生图模型是否也会基于受版权保护的图片产生抄袭输出?

从Midjourney v6“alpha”版摘录的部分示例表明,只要提供与商业电影相关的简短提示词,Midjourney的最新版本就会生成和原作高度相似的抄袭输出。(见下图左)

如果提示词中不包含电影名称、角色、演员等信息,Midjourney应该不会产生抄袭输出吧?经过多番尝试,测试人员最终发现,在提示词包含“screencap(截图)”时,即使没有输入任何电影/游戏的角色信息,也会生成明显的侵权内容。(见下图右)

测试人员认为,目前的实验结果表明,Midjourney存在违规使用受版权保护的素材的行为,从而引发抄袭输出的问题。即使提示词中没有要求模型生成侵权内容,用户仍然可能面临版权侵权索赔的风险。这一发现并非偶然,事实上,Midjourney最近已经因为类似的问题陷入法律纠纷。Midjourney最近收到了4700多名艺术家的联合起诉,因为Midjourney在未经同意的情况下使用了他们的作品用于训练AI。

目前尚不清楚Midjourney的训练数据中包含多少未经许可使用的版权材料,该公司对于其原始训练数据以及哪些数据获得了相应使用许可都尚未公开。如果未获得原素材许可,可能会使Midjourney面临来自电影工作室、视频游戏发行商、演员等的大量诉讼。

与Midjourney一样,OpenAI的文生图大模型DALL·E 3似乎也借鉴了大量受版权保护的素材,即使提示词中没有要求模型生成侵权内容,DALL·E 3仍能够创建与原作高度相似的复制品。

解决生成式AI大模型的抄袭输出问题有多难?从训练数据集的角度来看,如果发现有受版权保护的材料被用于训练,就需要从数据集中删除这些材料。然而,不同于在数据库中简单地删除某项数据,从训练数据集中删除特定受版权保护的材料并不仅仅是简单地移除数据。由于AI大模型的训练依赖于大规模的数据集,删除部分数据集可能需要对模型进行重新训练,以确保模型的准确性和有效性,而这一过程需要消耗大量的时间和计算资源。此外,大模型在生成内容时往往会借鉴和参考已有的知识,这使得判断其输出是否侵犯版权变得更加复杂。

然而,尽管解决抄袭输出问题并不容易,但一些方法和策略仍然值得尝试。首先,开发者可以通过改进模型的训练方法和算法,使其更加注重原创性和多样性。这可以通过引入更加先进的生成模型、使用更加全面的数据集或者改进模型的优化目标来实现。

其次,引入版权保护机制也是一种有效的方法。这种机制可以在AI生成内容时自动检测和防止抄袭,从而确保其输出的合法性和道德性。这可能需要开发专门的技术和工具,以实现对互联网上信息的实时监控和检测。

最后,用户在使用生成式AI时也需要提高自身的版权意识。用户应该尊重原创者的知识产权,在使用AI生成的内容时注明来源和版权信息。同时,用户也应对AI的输出进行合理的评估和审查,避免使用AI生成的侵权内容。

(Gary Marcus & Reid Southen/文吴双/译)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-01-11 09:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...根据用户提示创建逼真文本,它通过消化大量现有的人类生成文本来学习执行任务。美国的软件公司OpenAI于去年11月发布了该工具,并供用户免费使用。自发布以来,研究人员一直在努力
2023-01-17 02:46:00
谷歌之后,OpenAI也要给新闻网站付费了?
...,大模型喷涌,它们在文字、图片、音视频等内容形态的生成上大放异彩。内容创作一直认为是人“独属”的技能,自OpenAI于2022年发布ChatGPT之后,众多大模型开始挑战一直
2024-07-10 15:13:00
手游抄袭《喷射战士》引争议!老任已申请玩法专利
...虚拟空间(涂地),以及根据敌方对应颜色绘制的虚拟空间生成战斗判定,将其更改成为己方颜色的虚拟空间(涂对方地块)。专利文档中还包括对具体玩法以及游戏机制判定等方面的超详细说明。
2023-01-15 16:58:00
促进导学关系 生成式人工智能应发挥积极作用
...国科学报李锋亮 清华大学教育研究院长聘教授近几年,生成式人工智能技术发展如火如荼,高教界已公认其将对教育系统产生方方面面的影响,乃至冲击。特别是研究生教育阶段,目前大家普遍认
2024-06-25 06:34:00
chatgpt引爆新一轮人工智能革命代表事例
...表事例之一就是ChatGPT,一个在去年11月底发布的问答文本生成系统。这样的系统过去一般只在科幻小说中见到,但现在
2023-02-11 20:52:00
法眼|DeepSeek爆火!AI生成作品著作权到底该归谁?
...词,它们就能在绘画、文学、音乐、影视等艺术创作领域生成相应作品,展现出巨大潜力。但与此同时,一个备受瞩目的关键问题也浮出水面:AI生成作品的著作权究竟该归谁?大家对此看法不一
2025-02-14 10:22:00
AI生成作品究竟有没有著作权?法院判了
...飞速发展,输入几个提示词、表达清楚构想,就可以自动生成经过个性化改编的文图新作品。但这种创作模式不免产生新的法律问题,AI生成的作品有版权吗?前不久,江苏省常熟市人民法院判决
2025-03-22 07:44:00
...的下一层中的神经元。每个神经元都能够处理给定输入并生成输出,而且可以将输出传输给下一层的神经元,最后一层的神经元的输出即为系统输出并且不再传输到其他层。每个神经元处理给定输入
2024-01-04 06:06:00
...、流程自动化等。一、助力内容创作的提升1.通过AI自动生成报告等基础内容,减少人工投入。一些编辑在进行调研的过程中已经通过数据驱动对选题开发给出建议:如通过AI分析趋势数据,
2025-06-28 06:21:00
更多关于科技的资讯:
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00