• 我的订阅
  • 科技

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

类别:科技 发布时间:2023-06-15 11:42:00 来源:CSDN

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。

彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。

不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

01 6 年成果,一个周末被爬取超 200 万次

此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。

而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!

02诉求:1 元赔偿金,公开道歉并删除数据

从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。

事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。

03 学而思回应:均符合合同要求

经多家媒体报道后,这起事件逐渐发酵,于是昨晚学而思官方微博也对此发文回应:

首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

04AI 训练数据的版权问题

从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。

事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应
6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。

然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题,你又是否有什么看法?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-15 13:45:49

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“大模型数据被盗第一案”和解 学而思与笔神是真误会还是另有隐情?
...偷”指控,深陷多场集体和作者个体诉讼时,中国“AI大模型数据被盗第一案”也一触即发,但最终以双方消除误会而和解,“误会”背后是否另有隐情?近日,世纪天鸿投资的AI辅助写作产品
2023-08-14 10:00:00
大模型侵权第一案 学而思或被起诉偷数据
...文 | 郑思芳编辑 | 龚 正全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。日前,北京笔神作文公司计划起
2023-06-13 14:30:00
让AI成为中小学教师“好帮手”
...鲁师范学院人工智能教育研究院研发团队正在研发作文大模型。受访者供图◎本报记者 王延斌 通讯员 张淑芬“走在绿树葱茏的山间小路上,耳边传来小鸟叽叽喳喳的歌唱,甜甜的空气令人陶
2024-06-26 03:58:00
...教育科技公司网易有道在京举办了“powered by 子”教育大模型应用成果发布会。会上重磅推出了国内首个教育领域垂直大模型“子曰”,并发布了基于“子曰”大模型研发的六大创新
2023-07-27 14:52:00
2024世界人工智能大会开幕 小猿学练机携最新AI大模型应用成果亮相
...下墨水屏学习平板小猿学练机亮相大会,首次展现了AI大模型与墨水屏平板在教育领域的深度融合应用。教育AI大模型与墨水屏首次深度融合 “以练促学”推动个性化学习在猿力科技展区,一
2024-07-05 09:42:00
“盗窃”而来的3000亿单词?ChatGPT摊上事了,遭索赔217亿元!
...充分通知的情况下,收集并泄露了他们的个人信息,要求索赔 30 亿美元(约合人民币217亿元)。01 “盗窃”而来的 3000 亿单词
2023-07-05 17:12:00
“不要卷模型,要卷应用!”李彦宏谈AI:大模型公司热衷于写高考作文,价值不大
...。百度创始人、董事长兼首席执行官李彦宏再次强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础模型一文不值。李彦宏还表示,要避免掉入“超级应用陷阱
2024-07-04 17:34:00
教育板块强势上涨,学大教育、传智教育涨停
...停,昂立教育、全通教育大幅上涨。科大讯飞星火认知大模型验证AI+教育场景落地:5月6日,讯飞星火认知大模型成果发布会在安徽合肥举行。其在教育应用场景的表现较为突出,主要表现在
2023-05-11 10:10:00
齐鲁师范学院:人工智能助力教师教学能力提升
...的一个重要功能模块。模块结合了语音转写技术、大语言模型技术、课堂数据无感采集技术,对教师授课过程、授课表现进行智能化分析,总结课堂教学亮点和不足,为教师提出针对性改进建议,并
2023-09-11 11:08:00
更多关于科技的资讯:
国际展品占比大幅提升至65%!张雪机车将亮相 第六届中国国际消费品博览会来了
大皖新闻讯 4月13日-18日,第六届中国国际消费品博览会在海南举办。这是“十五五”开局之年我国重大展会的“首展”,也是海南自贸港全岛封关运作以后的“首秀”
2026-04-13 17:12:00
中粮福掌柜全栈包装升级:从“产品货架”到“价值生态”的供应链战略进阶
当包装不再只是容器,而成为战略信号,中粮福掌柜正在用设计语言宣告一个餐饮供应链新时代的到来。近期,中粮油脂餐饮业务发布福掌柜食用油
2026-04-13 20:26:00
领先智能烘焙粮工厂投产 “智造+科研”赋能科学养宠
在“科学养宠”理念日益成为主流消费共识的背景下,产业头部企业正试图通过夯实底层制造能力与布局前端基础科研,构建面向下一阶段竞争的系统性优势
2026-04-13 21:03:00
中国诞生首个硅基生命——这家中国公司在做 AI 的灵魂
当全球资本还在押注“更聪明的 AI 工具”时,一家名为“蜂果科技”的中国公司提出了一个完全不同的命题——不是让 AI 更聪明
2026-04-13 21:05:00
宏大民爆成功揭榜工信部“高可靠性无起爆药电子雷管技术研究”课题
近日,宏大民爆联合甘肃宏大下属平凉兴安公司、中国科学技术大学等单位申报的“飞片芯片集成式无起爆药电子雷管研究”项目,在工信部安全生产司组织的《民爆行业基础科研重点研究方向指南(2025年版)》“揭榜挂帅”项目遴选中成功揭榜
2026-04-13 21:16:00
TCL空调是一线品牌吗?定义AI新风时代行业标准的领军者
TCL空调是一线品牌吗?TCL空调不仅是一线品牌,更是定义新一代空调技术标准(AI/新风)的品牌。在全球空调市场格局正发生深刻变化的背景下
2026-04-13 21:03:00
必胜汉堡首登广州!聚焦“品质一人食”为首店经济注入新动能
近日,必胜客旗下全新孵化的品牌——“必胜汉堡”正式登陆广州,其首批门店于天河曜一城与海珠万达广场同步亮相。近年来,广州加快培育建设国际消费中心城市
2026-04-13 17:25:00
京东全球购“全球购物季”开嗨!澳洲蓝鳍金枪鱼从深海到舌尖仅48小时
4月12日,北京京东MALL双井店人头攒动,一场“澳洲蓝鳍金枪鱼开鱼秀”吸引了众多市民驻足围观。专业师傅手起刀落,将一条重达数十公斤的蓝鳍金枪鱼精细分割为赤身
2026-04-13 19:13:00
科技浪潮奔涌向前,人工智能以拟人化互动的姿态深度嵌入日常生活,在带来技术便利的同时,也因算法的过度拟合与伦理边界模糊,悄然将未知风险传导至未成年人的精神家园
2026-04-13 15:28:00
当人工智能能模拟亲人语气、扮演恋人角色,甚至提供24小时情感陪伴时,未成年人的成长环境正面临一场前所未有的数字伦理考验
2026-04-13 15:42:00
4月9日,中国平安举办服务升级发布会,宣布以2026“服务年”为契机,重磅升级AI“快捷服务”和“全球急难救援”两大创新服务
2026-04-13 14:49:00
4月9日下午,2026年苏州市相城区企业出海安全对话会暨“4·15”全民国家安全教育日系列活动在环秀湖畔举行。活动以“出海有‘相’
2026-04-13 15:10:00
索乙一座城市的活力,不但潜藏在万千真人跑者坚韧向前的脚步中,也蕴含于人形机器人从磕磕绊绊到跑得更快更稳的耐力比拼间。今年以来
2026-04-13 11:07:00
皖中客4月10日,国家网信办、发改委、工信部、公安部、市场监管总局五部门联合发布《人工智能拟人化互动服务管理暂行办法》
2026-04-13 11:07:00
科技引领产业升级:以心医疗推动心血管器械高质量发展
在国家推动高端医疗器械创新发展、实现产业高质量发展的战略指引下,我国心血管医疗器械领域持续迎来重大突破。第93届中国国际医疗器械博览会上
2026-04-13 11:30:00