• 我的订阅
  • 科技

大模型侵权第一案 学而思或被起诉偷数据

类别:科技 发布时间:2023-06-13 14:30:00 来源:真故研究室

大模型侵权第一案 学而思或被起诉偷数据

撰文 | 郑思芳

编辑 | 龚 正

全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。

日前,北京笔神作文公司计划起诉其多年的合作伙伴学而思,指其近期推出的数学大模型MathGPT和在学而思学习机上线的AI助手,在未经其授权和许可情况下,爬取了海量数据,要求学而思公开道歉、删除数据资源,求偿1元。

笔者通过笔神作文联系上了与其保持有业务沟通的学而思相关负责人,发去求证信息,不过截至发稿,学而思方面未给予回复。

01.一夜之间,数百万篇数据资源直接被爬

4月的一个周末,北京中关村笔神作文公司。

码农们都在家休息,办公室里空荡荡。然而直至周一,归来的程序员才发现,公司的海量数据,在周末这几天被一群“天外来客”爬了个遍,总爬取数超过两百万次。

事后,笔神作文的创始人及CEO宋嘉伟经过分析判断,并直接向他猜测的爬取方询问,才发现爬取者不是别人,正是与其保持有多年合作关系的学而思。

事件中的主角笔神作文,成立于2017年,是一个中小学生作文AI批改平台和投稿社区,隶属于北京一笔两划科技有限公司。

创始人宋嘉伟是一位技术达人,也是一位爱好写作的专业作家。经过过去6年的创业,笔神作文从以学生为主的用户那里,收集及沉淀了海量的作文资源。

官方宣传资料称,“笔神作文每月会收到超过30万篇作文投稿和超过40万次的点赞评论。6年来,笔神作文积累了超过数百万篇作文素材,月批改作文量超3万篇。”

宋嘉伟说,这里面融入了团队创业的心血,以来一点一点积累起来的成果。

他至今记得,为了获得作文素材的数据,笔神作文用人工审核的方式、一篇一篇筛选投稿来的作文,通过打标签、分级、数据清洗(指发现及纠正数据文件中的错误)等,最终得以积累到目前的作文素材体量。

宋嘉伟认为,正是这些优质的作文数据资源,成了“天外来客”眼中的目标。

大模型侵权第一案 学而思或被起诉偷数据

图 | 学而思&笔神作文

笔神作文与学而思的合作要追溯到三年前。当时笔神作文与学而思旗下的一款学习工具APP——题拍拍签约合作,为其提供作文素材查询服务。

官方资料显示,题拍拍是一款免费答题APP,于2020年3月上线,涵盖全年级、全学科,为广大用户提供真人在线免费答题服务,专注于6-18岁中小学生课后学习场景。

根据双方的合作合同,双方协议笔神作文为题拍拍中的作文版块、只提供用户查询服务,且题拍拍不得将作文数据缓存本地以及机器学习训练。

合同中有这样几项条款,对笔神作文数据的使用用途,进行了较为明确的规定。

1、作为第三方技术服务商的深圳市三体云联网络科技有限公司(即“三体云联公司”,系学而思子公司),有义务保障北京一笔两划科技有限公司(即“一笔两划公司”)服务接口的安全性,应经一笔两划公司允许后、方可将合作接口内容用于双方约定好的平台或产品中。

2、合同原文称,三体云联公司不得随意泄漏、使用、传播或缓存乙方服务接口中的作文范文及其相关内容,否则造成的损失将由甲方全额赔付。

3、合同原文强调,三体云联公司不得在未经一笔两划公司允许的情况下用于任何其它用途,包括级存、存储、作为语料进行计算、训练等。

基于双方的合作精神,笔神作文介绍,自己的技术团队设计了完备的安全机制,正常情况下,可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。

爬取事件被发掘后,宋嘉伟也曾一度怀疑是不是有黑客利用了这个接口盗取数据,所以专门与学而思经常对接的程序员求证。

然而令他出乎意料的是,对方直接承认,笔神作文数据后台被高频调用、确实来自学而思方算法组的调用操作。

通常来说,算法组的工作之一,就是训练人工智能大模型。果然,在数据调用异常不到两周后,大量关于学而思推出数学大模型的新闻开始密集出现。5月初,学而思宣布将推出MathGPT,以及其中即将上线的AI助手涉及的功能。

宋嘉伟团队于是高度怀疑,学而思的这项产品已将其多年积攒的数据化为己用,关键是未经过笔神作文的同意。

尤其AI助手被介绍为是“涵盖作文助手、口语助手、阅读助手、数学助手等功能”。宋嘉伟称,学而思自己并没有海量作文素材数据,否则此前双方的合作也不会开始。

苦心经营多年的数据在一个周末被擅自爬取,“团队的苦心经营为他人的大模型做了嫁衣。”宋嘉伟表示。

事件发生之后,宋嘉伟多次向学而思相关方询问事宜,包括发出律师函,却始终没有得到实质性答复。

目前一笔两划公司已经搜集证据,准备走司法程序来维权。其诉求有三:

要求公开致歉、删除非法获取的数据并中止应用、求偿1元。

对于笔神作文的诉求,笔者通过笔神作文联系到了学而思方面相关负责人,对方在通过微信验证、并看到相关提问后,直接拉黑了联络微信。未针对笔神作文的诉求给于回应。

02.海外类似纠纷频发

笔神作文与学而思题拍拍之间发生的纠纷,揭开了大模型热潮下一个容易被忽视的角落。

大模型想变得智能,就需要对海量数据进行深度学习。然而海量数据来自哪,是否被版权方授权,是否有需要付费,目前这是一个模糊地带。

《真故研究室》搜集了国内过往诸多案例。围绕一般版权的诉讼案例比较多,鲜见围绕大模型数据版权而展开的诉讼。但在海外,类似数据版权纠纷已经显示出频发态势。

先说结论,从海外数据版权纠纷来看,侵权方与被侵权方之间未存在共识。这导致数据版权保护起来还有难度。

今年年初,被称为美国最大的商业图库提供商Getty Images,在英国起诉了Stability AI。这是英国首起涉及人工智能的重大知识产权纠纷。

Stability AI公司,即Stable Diffusion这个AI图像生成模型的创建者。

Getty Images认定Stability AI非法复制和处理了Getty Images拥有或代表的受版权保护的图像以及相关元数据,涉及数以百万计数据。而这些行为并未获得Getty Images任何授权许可,在给Stability AI的商业利益带来收益的同时,侵害了内容创作者的权益。

截至目前,Stability AI尚未就这个申诉作出公开评论,但其首席执行官Emad Mostaque在推特中表示,“我认为他们(指自己)都是通过合乎规范、道德和法律标准的方式获得并使用的”。

大模型侵权第一案 学而思或被起诉偷数据

图 | AI正在迅速学习数据,拓展更多用途

这种情况不算个例。

今年4月,美国艾伦人工智能研究院(2014年成立,最初定位为AI技术自研平台)等发布了一份针对谷歌C4数据集的调查结果。

调查拆解了谷歌的C4数据集,它是很多知名英语AI大模型的训练材料,比如谷歌的T5(2019年10月发布)和Facebook的LLaMA(2023年2月发布)。

拆解的目的是为研究C4数据集里究竟包含哪些数据材料来源。研究认为,这关系许多英语AI大模型所使用数据的正当性,比如是否有侵权,以及是否存在“脏数据”(比如本身就是盗版的数据)。

调查结果显示,C4数据集中实际包含的大约1000万个网站数据发现,其中有很大一部分是来路不正的数据源,包括盗版电子书网站b-ok.org等。

而一些诸如创意产品众筹网站、个人博客也包含其中且排名靠前,意味着这类数据被使用的权重越高。问题的关键是,这些数据版权方可能未获得任何授权或报酬。

作为头部人工智能大模型的OpenAI,显然也知道行业存在的这些问题,但没有直接提出解决措施。

今年5月16日,OpenAI首席执行官山姆·奥特曼曾在一个听证会场合表示,他呼吁主管部门对生成式人工智能进行监管和干预。然而,对于作品被用于人工智能生成的歌曲、文章,或其他作品的内容创作者如何得到补偿等问题时,奥特曼并未给出明确的回答。

大模型侵权第一案 学而思或被起诉偷数据

图 | OpenAI首席执行官山姆·奥特曼

从上述案例可以看到,数据版权方被侵权,在许多大模型中是一种已发生的事实。版权方与使用方在相关问题上存有分歧,并未有达成一致的解决措施。

03.围绕数据侵权的治理已在路上

从海内外数据版权纠纷来看,这是否就意味着数据版权方的利益,就难以得到保护呢。

还是先说结论。目前,我国《著作权法》对数据版权的保护存在相关规定,可被侵权者使用。其次,包括中国国家互联网信息办公室在内的相关单位、以及行业组织,已经行动起来,准备出台措施、或发出倡议,呼吁保护数据版权方的利益,全社会的共识正在凝聚中。

在我国目前现行的《著作权法》框架下,GPT训练数据使用过程的不同行为均可能存在著作权侵权风险。

《著作权法》中规定了12种合理使用情形,包括为个人学习、研究或者欣赏;为介绍、评论某一作品或说明某一问题,在作品中适当引用他人已经发表的作品;为报道时事新闻,在各类媒体中不可避免地再现或者引用已经发表的作品;为学校课堂教学或者科学研究等。

而ChatGPT对训练数据的使用,明显并非为“个人学习”“教学或科研”“公共文化机构”所使用,本质上属商业性使用,因此涉嫌侵权方很难直接援引该条为自己侵权抗辩。

针对大模型带来的新情况,海内外也在出台一系列政策文件,进一步规范。

4月11日,中国国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》,以期促进生成式人工智能技术的健康发展和规范应用。当中就有一条明确指出:用于生成式人工智能产品的预训练、优化训练数据,应满足不含有侵犯知识产权的内容。

大模型侵权第一案 学而思或被起诉偷数据

图 | 大模型发展,版权保护也不能置之不理

国际社会也正在加快相关讨论。

4月30日,世界发达国家的技术部长在日本发布了共同声明,指出需要促进“负责任”地使用ChatGPT等人工智能工具。其中就包括治理、如何保障包括版权在内的知识产权、促进透明度、处理虚假信息,以及如何负责任地利用这些技术等议题。

目前,国内的相关行业已经开始有相关动作。

近日,中文在线(300364)、同方知网、中国工人出版社等26家单位共同发布了国内首份有关AIGC训练数据版权的倡议书。

作为业内首份AIGC数据版权倡议书,业内认为其最大的价值在于两点:一是唤醒了国内AI企业关于大模型训练数据的版权意识;二是为AIGC研发者规避版权争议提供了方向性指引。

有关方面指出,合理使用正版数据的倡议被提出,是对AIGC研发主体的警示和启发。

回到最开始的笔神作文与学而思纠纷,关注这个案件进展的意义在于,它关系着所有手上持有优质数据版权公司的切身利益。而大模型行业要健康发展,不能对存在的问题假装闭一只眼睛就能蒙混过关。

宋嘉伟回忆,原本笔神作文与题拍拍合作的过程还算愉快,哪怕中途遇到行业调整,似乎也没影响双方的合作。

双减打击之下,教培行业受政策调整,业务受到了影响。宋嘉伟说,在题拍拍效益不好、规模变小之时,笔神也将合同中约定的服务收费调整到原本的三分之一,意在携手度过教培寒冬。

然而寒冬还没挺过,令宋嘉伟意外的是,感觉自己遭到了合作伙伴的背刺。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-13 16:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“大模型数据被盗第一案”和解 学而思与笔神是真误会还是另有隐情?
...和解,王浩轩获得了赔偿。不过,王浩轩推测,笔神作文侵权的文章可能远不止他这一篇,只是更多人不知道。并且笔神作文平台面向的群体是中小学生,他们就算知道自己的文章被侵权,也不一定
2023-08-14 10:00:00
6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应
...经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”04AI 训练数据的版权问题从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热
2023-06-15 11:42:00
ai绘画侵权实锤,扩散模型可能记住你的照片
AI绘画侵权,实锤了!最新研究表明,扩散模型会牢牢记住训练集中的样本,并在生成时“依葫芦画瓢”。也就是说,像StableDiffusion生成的AI画作里,每一笔背后都可能隐藏着
2023-02-03 22:00:00
生成式AI的抄袭输出问题值得关注(附图片)
...使没有输入任何电影/游戏的角色信息,也会生成明显的侵权内容。(见下图右)测试人员认为,目前的实验结果表明,Midjourney存在违规使用受版权保护的素材的行为,从而引发抄袭
2024-01-11 06:45:00
AI生成内容归谁?百度、讯飞、商汤协议“打架”,专家称AI时代版权是技术问题
...内的信息收集、使用等数据流动,甚至不排除更大规模的侵权情况。早前火爆的妙鸭相机就因“霸王条款”,被外界质疑涉嫌侵害用户个人信息。然而,不少用户出于对大模型产品的尝鲜或好奇心理
2023-09-13 18:00:00
AI生图版权陷争议,“套娃”式生成图算谁的?
...图片,再用AI生成图片,这种用AI“套娃”式生成的图片侵权吗?最终图片版权归谁所有?随着AI技术应用越来越广泛,版权问题成了AI图片的争议焦点
2024-06-14 19:17:00
...京互联网法院针对人工智能生成图片(AI绘画图片)著作权侵权纠纷一案,作出一审判决,被告须道歉并赔偿原告经济损失。这引发了AI生成内容与著作权之间关系的热烈讨论。本案件首次认可
2023-12-03 09:57:00
...更低的模型GPT-4 Turbo、辅助工具API助手。此外,为了缓解侵权担忧,OpenAI 还推出了“版权盾”(Copyright Shield)功能
2023-11-13 10:07:00
AI“魔改”:创作自由还是侵权行为?记者调查AI生成内容乱象今天是第25个“世界知识产权日”。当“数字变革中的知识产权”遇上生成式AI的狂飙突进,一场关于创作与版权的“攻防战”打
2025-04-26 08:37:00
更多关于科技的资讯:
为建设“人工智能第一城”注入新动能杭州日报讯 杭州正加快构建场景驱动的AI产业基金,为人工智能产业发展注入全新动力。近日
2025-12-31 07:07:00
单个项目最高补助5000万元每日商报讯 用“意念”操控机械臂帮助瘫痪患者重获行动能力,以人脑为蓝本打造超低功耗芯片处理复杂任务……这些曾只存在于科幻作品中的场景
2025-12-31 07:37:00
日复一日,年复一年,新年的脚步已悄然叩响门环,无论你我是否整理好行囊。这一年的时光,有多少已从指缝间不经意溜走——被闹钟唤醒的清晨
2025-12-31 07:38:00
“现代化城市雄安探路”系列报道(五):数字孪生 创新之城
数字孪生 创新之城——“现代化城市雄安探路”系列报道⑤日前拍摄的雄安城市计算中心。它是雄安数字城市建设的核心枢纽。 河北日报记者 刘光昱摄建筑通过数字建模
2025-12-31 07:42:00
■王鑫摘要:在数字化转型的背景下,企业财务管理正面临由传统核算型向智能决策型的系统性变革。本文从数字化发展的实际需求出发
2025-12-31 04:48:00
1元租机器人,线下开首店:人形机器人打响大众化“发令枪”
大皖新闻讯 2025年的最后两天,中国的人形机器人产业以两件标志性事件,为即将到来的2026年按下了商业化加速键。一边是擎天租以“1元闪租”的体验价格将可以“打太极”的人形机器人推向大众市场
2025-12-30 21:48:00
从\
鲁网12月30日讯12月30日,在济南召开的"永生之手叩响仿生机器人元年之门"主题峰会上,山东未来机器人技术有限公司首次提出将人类生命划分为"碳基阶段"与"硅基阶段"的颠覆性理论框架
2025-12-30 22:13:00
贵州艺森源集团:从手工敲打到智能轰鸣 书写酒包装产业升级答卷
多彩贵州网讯 近日,贵州艺森源集团有限公司生产车间内,智能设备高效运转,自动化生产线有序作业,一派繁忙景象。历经十年深耕
2025-12-30 22:38:00
浪潮智慧文旅“智享商旅 聚力同行”2025浪潮商旅服务日成功举办
鲁网12月30日讯12月25日,由山东浪潮智慧文旅产业发展有限公司主办、山东浪潮智慧空间技术服务有限公司承办的“智享商旅·聚力同行——2025浪潮商旅服务日”在浪潮科技园圆满落幕
2025-12-30 17:23:00
潮新闻讯 浙商,是商业期刊的常客。2025年,他们的名字却接连登上《细胞》(Cell)《自然》(Nature)《科学》(Science)等学术期刊的作者栏
2025-12-30 17:52:00
扎根毕节十年,年产能超7500万只,出口覆盖欧非亚——贵州贵航新能源科技有限公司,已成为推动区域新能源产业链发展的“关键一环”
2025-12-30 18:35:00
肯悦咖啡苹果冰雕点亮冰城 代言人白敬亭助阵亮灯迎新春
2025年12月29日,肯悦咖啡在哈尔滨中央大街举办了一场别开生面的“红苹果心愿季”冰雕点灯仪式。肯悦咖啡的巨型红色咖啡杯造型冰雕搭配“水晶”苹果
2025-12-30 18:50:00
博士创新站典型案例|保定市鑫诺电科软件开发有限公司博士创新站:校企协同创新赋民生
当前供水行业智能化转型加速推进,保定市鑫诺电科软件开发有限公司作为本地企业,在技术层面面临自主开发的智能客服系统缺乏适配技术
2025-12-30 19:36:00
京东京喜自营2025年成交额增长10倍 5大产业带订单量破亿
2025年即将结束,回看这一年,外贸逆袭、市场反内卷、AI全面爆发,用户消费需求回归理性,带动品质消费。今日,京东旗下特价购物品牌京喜自营披露了这一年的成绩单——2025年实现成交额10倍增长
2025-12-30 19:48:00
事关以旧换新!河南公开征集
大河网讯 为深入推进2026年消费品以旧换新政策实施,河南省商务厅日前正式发布《河南省2026年消费品以旧换新家电及数码智能产品参与品牌厂家征集公告》
2025-12-30 19:55:00