• 我的订阅
  • 科技

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

类别:科技 发布时间:2023-06-15 11:42:00 来源:CSDN

整理 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

上个月,学而思曾透露消息称,目前其正在自研数学大模型 MathGPT,即面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心打造而成。

彼时许多人感慨,“理科生”版的 ChatGPT 终于要来了。

不曾想,MathGPT 还未真正面世,有关它的“丑闻”就先一步爆发了:本周二,笔神作文 App 指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达 258 万次,以此开发 MathGPT 的新产品“作文 AI 助手”。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

01 6 年成果,一个周末被爬取超 200 万次

此次事件的主角之一,笔神作文,是一个成立于 2017 年 12 月的 K12(从幼儿园到 12 年级的教育)作文教育平台,隶属于北京一笔两划科技有限公司。

当时的 AI 市场远不如现在火爆,笔神作文却凭借其“用人工智能技术,帮助写作者提升写作能力”的特色,在 2018 年 1 月获得了真格基金数百万元种子轮融资,后来又在 2019 年 7 月完成了数百万天使轮融资。

根据官方资料显示,笔神作文上线六年,每月会收到超过 30 万篇作文投稿和超过 40 万次的点赞评论,积累了数百万篇作文素材,月批改作文量超 3 万篇。

而伴随着去年年底 ChatGPT 的横空出世,笔神作文的投资方之一世纪天鸿曾表示,“笔神”与 ChatGPT 技术同源,都是采用基于 Transformer 的最新算法作为 AI 模型底层。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队有超过 60% 为技术研发人员,在成立公司之前该团队就曾创立过 NLP 类公司,部分骨干在自然语言理解领域合作并深耕多年。”

因此整体而言,笔神作文的算法模型为一笔两划公司自研训练,其平台的大数据来自于自身累积。

因其在写作方面的技术积累和显著成果,三年前笔神作文与学而思达成了合作:与学而思旗下的学习工具 App “题拍拍”签约,主要负责提供作文素材查询服务。

而作为合作伙伴,本周笔神作文表示:在 4 月 13 日发生了一件我们都没有预想的事情,我们团队从创业以来的 6 年成果,被合作多年的“学而思”在短短一个周末的时间爬取了超过两百万次!

02诉求:1 元赔偿金,公开道歉并删除数据

从笔神作文官方微博的声明来看,本身它没有完备的数据安全机制,而对于“合作伙伴”学而思,更是没有设置全部的提防,从而导致三体云联公司(学而思子公司)利用这份信任,即:在未经笔神作文 APP 授权许可的情况下,在 2023 年 4 月 13 日至 4 月 17 日期间通过“爬虫”技术非法访问、缓存笔神作文 APP 服务器数据多达 258 万次。

对此,笔神作文主张该行为违反了双方的合同条款,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文 APP 的数据权益。

事后,笔神作文向学而思进行了求证,对方直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,却没有得到对方的实质性回复,而此时学而思的 AI 大模型 MathGPT 却即将上线新产品“作文 AI 助手”。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律途径来维护我们的权益。”但笔神作文在声明中也指出,目前的法律法规并没有【AI 大模型数据盗取】的判决先例,因此只能“勇敢地走出这第一步”。

至于笔神作文的诉求,实际上也并非是索要大额赔偿金:只想要学而思支付 1 元赔偿金,公开道歉并删除已爬取的数据。

对此,笔神作文解释道:“数据是有价值的,但我们心血更是无价,索赔 1 元是因为公平公正并不能用金钱衡量,我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展,靠的是共同创造,而非觊觎和剽窃他人的成果。”

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

确实正如笔神作文所说,其体量并不大,因此这封声明也并未引起太多关注,不过仅有的几条评论中都在谴责学而思的行为。

03 学而思回应:均符合合同要求

经多家媒体报道后,这起事件逐渐发酵,于是昨晚学而思官方微博也对此发文回应:

首先,MathGPT 是专注于数学领域的自研大模型,没有任何作文相关数据;其次,“作文 AI 助手”目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

而笔神作文声称被爬取二百多万次的数据,学而思指出合同中明确过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。

在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是:“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

04AI 训练数据的版权问题

从目前双方给出的声明来看,此次纠纷还不能给出最终结论,但这也揭示了近来日益火热的 AI 大模型角逐下,一个容易被忽略却又十分重要的盲点:AI 训练数据的版权问题。

事实上,最近在外网闹得沸沸扬扬的“美版贴吧” Reddit 强制对 API 进行收费的决定也出于这个原因。

近年来 Reddit 上发布的聊天内容,已成为谷歌、OpenAI 和微软等企业训练 AI 大模型的素材,以此来开发 ChatGPT 等生成式 AI 产品。而伴随着这类 AI 工具的火爆,Reddit 创始人兼 CEO 表示:“Reddit 的数据语料库非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”

继 Reddit 带头表态要求科技巨头付费使用数据后,知名 IT 问答网站 Stack Overflow 也宣布计划从今年年中起,向大型 AI 开发商收取数据访问费用,其 CEO 也指出:“社区平台推动了大语言模型(LLM)发展,所作出的贡献也必须得到补偿。”

除了 Reddit 和 Stack Overflow 这类大型网站,甚至在开发者圈子中,部分程序员也因 Copilot 涉嫌侵犯代码版权宣称要弃用 GitHub:

6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应
6年成果,被爬取200+万次,仅索赔1元?AI大模型被指控“偷”数据 学而思最新回应

毫无疑问,AI 大模型在变得更智能的过程中,海量的训练数据必不可少,但从目前来看,当今 AI 领域的“当红炸子鸡”OpenAI,对于训练数据的版权问题都没有很好的解决方案。

然而,伴随着 AI 热潮进一步推进,这个问题又势必要得到解决。正如北京大学计算机学院教授陈钟所说:“可能在研发初期,大家对数据来源并不在意,但当你产生了巨大的经济效益时,现实传统的经济模式、法律体系都将约束着你的行为。”

那么对于这个问题,你又是否有什么看法?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-15 13:45:49

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“大模型数据被盗第一案”和解 学而思与笔神是真误会还是另有隐情?
...偷”指控,深陷多场集体和作者个体诉讼时,中国“AI大模型数据被盗第一案”也一触即发,但最终以双方消除误会而和解,“误会”背后是否另有隐情?近日,世纪天鸿投资的AI辅助写作产品
2023-08-14 10:00:00
大模型侵权第一案 学而思或被起诉偷数据
...文 | 郑思芳编辑 | 龚 正全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。日前,北京笔神作文公司计划起
2023-06-13 14:30:00
让AI成为中小学教师“好帮手”
...鲁师范学院人工智能教育研究院研发团队正在研发作文大模型。受访者供图◎本报记者 王延斌 通讯员 张淑芬“走在绿树葱茏的山间小路上,耳边传来小鸟叽叽喳喳的歌唱,甜甜的空气令人陶
2024-06-26 03:58:00
...教育科技公司网易有道在京举办了“powered by 子”教育大模型应用成果发布会。会上重磅推出了国内首个教育领域垂直大模型“子曰”,并发布了基于“子曰”大模型研发的六大创新
2023-07-27 14:52:00
2024世界人工智能大会开幕 小猿学练机携最新AI大模型应用成果亮相
...下墨水屏学习平板小猿学练机亮相大会,首次展现了AI大模型与墨水屏平板在教育领域的深度融合应用。教育AI大模型与墨水屏首次深度融合 “以练促学”推动个性化学习在猿力科技展区,一
2024-07-05 09:42:00
“盗窃”而来的3000亿单词?ChatGPT摊上事了,遭索赔217亿元!
...充分通知的情况下,收集并泄露了他们的个人信息,要求索赔 30 亿美元(约合人民币217亿元)。01 “盗窃”而来的 3000 亿单词
2023-07-05 17:12:00
“不要卷模型,要卷应用!”李彦宏谈AI:大模型公司热衷于写高考作文,价值不大
...。百度创始人、董事长兼首席执行官李彦宏再次强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础模型一文不值。李彦宏还表示,要避免掉入“超级应用陷阱
2024-07-04 17:34:00
教育板块强势上涨,学大教育、传智教育涨停
...停,昂立教育、全通教育大幅上涨。科大讯飞星火认知大模型验证AI+教育场景落地:5月6日,讯飞星火认知大模型成果发布会在安徽合肥举行。其在教育应用场景的表现较为突出,主要表现在
2023-05-11 10:10:00
齐鲁师范学院:人工智能助力教师教学能力提升
...的一个重要功能模块。模块结合了语音转写技术、大语言模型技术、课堂数据无感采集技术,对教师授课过程、授课表现进行智能化分析,总结课堂教学亮点和不足,为教师提出针对性改进建议,并
2023-09-11 11:08:00
更多关于科技的资讯:
全国媒体聚焦:智能机器人有哪些新本领?
大皖新闻讯 当会跳高的人形机器人轻松跃起,当“变形金刚”般的轮式机器人在狭小车间自由伸展,当手掌大小的微型无人机在“废墟”中寻找生命迹象……这些原本存在于科幻电影中的场景
2026-03-09 21:36:00
杰克科技与百亿具身智能公司成立机器人公司
杰克科技(603337)作为缝制设备行业的领军企业,是全球工业缝纫机行业领航者之一,连续14年全球销量第一,市占率超30%
2026-03-09 18:45:00
3月9日,随着指数季度调整生效,不同集团(06090)正式被纳入恒生综合指数并同步进入港股通标的名单。随着更多投资者进入
2026-03-09 19:25:00
轻薄手感碰撞旗舰实力,AI加持更出彩:高颜值超薄手机推荐全能款
颜值与便携并重的当下,高颜值超薄手机推荐成用户核心选购诉求,优质机型需兼顾纤薄设计、出众颜值、旗舰性能与智能体验,而非单纯轻薄牺牲核心功能
2026-03-09 14:41:00
国网济宁供电公司开展配网“机器人”带电作业
鲁网3月9日讯3月6日,国网济宁供电公司2026年春季检修工作正式启动。与往年不同,今年春检首项带电作业任务由智能配网带电作业机器人独立完成
2026-03-09 15:14:00
长光卫星举行8颗卫星出征仪式 含“邮储银行号”等将择期发射
3月9日,长光卫星技术股份有限公司在吉林省航天信息产业园举行“邮储银行号”卫星、“吉星”高分07A02星、“吉星”高分07A04星
2026-03-09 15:26:00
贵州普瑞眼科启动近视防控挑战赛
多彩贵州网讯(本网记者 罗晟鸣)为积极响应国家近视防控政策,3月8日,贵州普瑞眼科医院正式启动2026近视防控挑战赛,以医院特色“三维一体近视防控体系”为核心
2026-03-09 15:38:00
女性成为中坚力量,携程助力近2.7万女性灵活就业
文旅产业高质量发展的浪潮中,女性正以多元姿态成为行业稳就业、促创新的核心中坚力量。2025年,携程依托平台生态累计带动文旅领域灵活就业超 12万人
2026-03-09 15:44:00
胶东在线3月9日讯(记者卢伟霞)“我们的工作职责就是对烟台移动的核心网络进行维护和管理,工作质量直接影响着全市上百万用户的用网体验
2026-03-09 16:56:00
海信发布世界杯定制冰箱 海信璀璨650U8以真空磁场技术领跑保鲜赛道
随着2026年美加墨世界杯的脚步日益临近,全球球迷的热情已被点燃。3月5日,海信冰箱正式推出了世界杯定制产品—海信璀璨650U8真空头等舱冰箱
2026-03-09 14:03:00
麦当劳开启2026年派Day欢庆,苹果香蕉双拼派限时上新
鲁网3月9日讯麦当劳中国宣布正式开启第十二届“派Day”。即日起至2026年3月15日,麦当劳派Day以“心想派成,吃派就对”为主题
2026-03-09 14:03:00
巾帼绽芳华 农商共相伴—博兴农商银行开展三八妇女节主题活动
鲁网3月9日讯春风拂暖,花开正好,在第116个“三八”国际妇女节来临之际,博兴农商银行组织辖内网点统一开展“巾帼绽芳华 农商共相伴”主题活动
2026-03-09 14:05:00
国产AI大模型探索普惠化发展新路径
当前,国内生成式人工智能产业已从早期的通用对话能力比拼,进入垂直场景深耕、专业能力攻坚的深水区。如何让大模型从“闲聊助手”转向能真正解决复杂问题的生产工具
2026-03-09 11:14:00
数据要素价值释放年|AI下半场,“大数据工厂”如何赋能千行百业?
近日,国家数据局局长刘烈宏指出:“当前人工智能要往下走,关键在数据;AI下半场,拼的是数据。”如何将海量原始数据转化为人工智能模型可高效吸收的“优质燃料”
2026-03-09 11:43:00