• 我的订阅
  • 科技

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

类别:科技 发布时间:2023-06-15 11:42:00 来源:CSDN

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。

彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。

不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

01 6 年成果,一个周末被爬取超 200 万次

此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。

而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!

02诉求:1 元赔偿金,公开道歉并删除数据

从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。

事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。

03 学而思回应:均符合合同要求

经多家媒体报道后,这起事件逐渐发酵,于是昨晚学而思官方微博也对此发文回应:

首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

04AI 训练数据的版权问题

从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。

事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应
6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。

然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题,你又是否有什么看法?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-15 13:45:49

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“大模型数据被盗第一案”和解 学而思与笔神是真误会还是另有隐情?
...偷”指控,深陷多场集体和作者个体诉讼时,中国“AI大模型数据被盗第一案”也一触即发,但最终以双方消除误会而和解,“误会”背后是否另有隐情?近日,世纪天鸿投资的AI辅助写作产品
2023-08-14 10:00:00
大模型侵权第一案 学而思或被起诉偷数据
...文 | 郑思芳编辑 | 龚 正全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。日前,北京笔神作文公司计划起
2023-06-13 14:30:00
让AI成为中小学教师“好帮手”
...鲁师范学院人工智能教育研究院研发团队正在研发作文大模型。受访者供图◎本报记者 王延斌 通讯员 张淑芬“走在绿树葱茏的山间小路上,耳边传来小鸟叽叽喳喳的歌唱,甜甜的空气令人陶
2024-06-26 03:58:00
...教育科技公司网易有道在京举办了“powered by 子”教育大模型应用成果发布会。会上重磅推出了国内首个教育领域垂直大模型“子曰”,并发布了基于“子曰”大模型研发的六大创新
2023-07-27 14:52:00
2024世界人工智能大会开幕 小猿学练机携最新AI大模型应用成果亮相
...下墨水屏学习平板小猿学练机亮相大会,首次展现了AI大模型与墨水屏平板在教育领域的深度融合应用。教育AI大模型与墨水屏首次深度融合 “以练促学”推动个性化学习在猿力科技展区,一
2024-07-05 09:42:00
“盗窃”而来的3000亿单词?ChatGPT摊上事了,遭索赔217亿元!
...充分通知的情况下,收集并泄露了他们的个人信息,要求索赔 30 亿美元(约合人民币217亿元)。01 “盗窃”而来的 3000 亿单词
2023-07-05 17:12:00
“不要卷模型,要卷应用!”李彦宏谈AI:大模型公司热衷于写高考作文,价值不大
...。百度创始人、董事长兼首席执行官李彦宏再次强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础模型一文不值。李彦宏还表示,要避免掉入“超级应用陷阱
2024-07-04 17:34:00
教育板块强势上涨,学大教育、传智教育涨停
...停,昂立教育、全通教育大幅上涨。科大讯飞星火认知大模型验证AI+教育场景落地:5月6日,讯飞星火认知大模型成果发布会在安徽合肥举行。其在教育应用场景的表现较为突出,主要表现在
2023-05-11 10:10:00
齐鲁师范学院:人工智能助力教师教学能力提升
...的一个重要功能模块。模块结合了语音转写技术、大语言模型技术、课堂数据无感采集技术,对教师授课过程、授课表现进行智能化分析,总结课堂教学亮点和不足,为教师提出针对性改进建议,并
2023-09-11 11:08:00
更多关于科技的资讯:
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00