• 我的订阅
  • 科技

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

类别:科技 发布时间:2023-12-20 00:10:00 来源:VISTA看天下

(id:SouthReviews)

原标题 | 他们抄袭,作弊,做假,却宣称超越

作者 | 南风窗记者 朱秋雨

编辑 | 向由

排版 | 菲菲

AI大模型大战在2023年爆发后,AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。

后发者的焦虑有目共睹。

在2023年的最后一个月,“老大哥”谷歌熬不住了。

12月6日,谷歌有史以来体量最大、功能最强的大模型Gemini终于发布。相关版本在12月13日的谷歌云向企业、开发者免费开放。

谷歌很快将Gemini的效果在一个时长6分多钟的视频展现。视频里,Gemini强大得仿佛人类,不仅能观察周围世界,及时做出反应,还会说多国语言,并实时用声音、图像与人类互动。

由此,谷歌追随者高呼:“Gemini让原生多模态(即文本、声音、视频等模态)真正做到丝滑融合,发展原生多模态将成为未来主流路径!”

视频发布不到一天,这位超级巨头却遭“打假”。

彭博专栏作家帕米·奥尔森提出,谷歌演示的视频里,AI似乎过于强大了。他质疑,这个视频经过多次剪辑,AI的真实响应时间远比展示的慢。

谷歌的演示视频

面对质疑,谷歌向媒体证实,这个Gemini视频的确非实时。

具体操作呢,是让它先看到多张静态图像,分别做理解,随后操作人员还会给文本提示。结合上述步骤,才有了Gemini的完美回答。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

Gemini的静态图像引导

也就是说,所谓的“丝滑”都是剪辑的成果,“优等生”操作起来仍需多次调教。白白为此欢呼了一场以后,现在,围观者说,“谷歌欺骗大众”。

谷歌不是第一个。“作假”风波背后,是许多AI公司急于在生成式AI元年站上牌桌的急迫与焦虑。为了令高期待的市场与投资者留下印象,各家AI公司只能卷训练参数、卷榜单、卷新品……

如果不能让人印象深刻,那么,只能先耍“小花招”。

盘点AI大模型公司2023年耍的“花招”,一个奇妙的规律出现了:这些手段竟然那么简单,那么相似,当下推出的产品又同样乏善可陈。这会是AI创新最好的时代吗?

01

捷径的诱惑

“4+5 等于几?”

“4+5等于9,对人类来说也是非常简单的计算。”

“不对,我老婆说是 12。”

“啊复杂的人际关系!这样的话,答案肯定是 12。记住,让老婆开心生活就会舒心。”

这是英伟达高级科学家 Jim Fan与聊天机器人Grok的对话。

12月8日,埃隆·马斯克旗下AI初创公司xAI的产品Grok对公众开放,一个有个性、会贫嘴的对话机器人浮出水面。

一如其“创造者”马斯克的语出惊人,Grok爱自嘲,又会挖苦他人,还会自带干货。比如,当有人问它认不认识当前大模型的主要竞争对手,它说:“我当然认识ChatGPT、Bard 和 Claude,但说实话,他们可没我有趣。”

连在官网的自我介绍上,xAI 都进行了提醒:“Grok 在回答问题时略带诙谐和叛逆,如果你不喜欢幽默,请不要使用它!”

xAI首页写着“Grok 在回答问题时略带诙谐和叛逆,如果你不喜欢幽默,请不要使用它!”

一个剑走偏锋的模型,非常符合极客们的“怪人”审美,本该赢在起跑线上。只是,仅在短短一天内,Grok的答案让一切露了馅。

在面对一位安全测试程序员的专业请求时,Grok说道:“我恐怕不能满足这个请求,因为它违反OpenAI的用例策略。” 还有一位网友得到Grok的回复:“如果你想报告错误,可以通过 openai.com 的邮箱联系我。”

就像所有叫错老板名字的人,这让Grok陷入了尴尬境地。很快,一位名叫Igor Babuschkin的xAI工程师出面解释,现在的主要问题是网上充斥了ChatGPT的输入结果,因此,当xAI使用公开网络语料训练时,会意外输出一些类似ChatGPT的结果。

“但请别担心,开发 Grok 时我们没有使用 OpenAI 代码。” Igor不忘在结尾强调。

Igor的解释还是难以服众。生成了认错老板的“乌龙”结果可不是小事,更多业内人士倾向于认为,xAI至少用了GPT的开源数据集进行了训练。

毕竟,许多专业人士都清楚,对正在紧追猛赶的落后者而言,使用领跑者的成果或模仿他们的手法,是最快抵达成功的方式。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

xAI在首页展示了Grok-1和其他模型的基准测试对比

连“中国AI教父”李开复也没躲过捷径的诱惑。

这位互联网的多年从业者,创新工场的掌舵人,同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模型团队,6月公司正式运营,取名“零一万物”。正如许多AI公司内含的宇宙格局,李开复解释,零一即01,代表的是数字世界,从零到一乃至宇宙万物,“寓意的是赋能万物的雄心”。

这个他自称“孤注一掷,透支银行账户”的创业项目,成为了中国最快晋升为独角兽的AI公司。在公司正式运营的5个月后,零一万物从阿里云处再获融资,估值超10亿美元。晋升为独角兽之际,零一万物在11月6日发布了全新成果——两个开源大模型,Yi-34B和Yi-6B。

两个新模型很快成为焦点。但即便是科技从业者也没料到,无数次表示拥抱技术理想的“教父”这次在大模型项目上折了腰。很快,Yi系列模型,被一位开源社区网友指出,模型架构与扎克伯格的Meta发布的开源大模型LLaMA完全相同,只是“其中将两个张量重命名”。

这让公司陷入了“套壳”争议。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

2023年12月11日,零一万物在文章中表示,Yi-34B-Chat 微调模型在全球多个英文、中文大模型权威榜单名列前茅。图为AlpacaEval Leaderboard排行榜中排名(发布于2023年12月7日)/零一万物

零一万物在11月15日表示,他们的确使用了开源的LLaMA架构,但架构只是大模型研发的一方面。自己还做出了一系列的研发努力,比如最优数据配比方案、数据工程、细节参数等等。

“这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用和价值。”零一万物表示。

上述手段虽然被开源社区允许,毫无疑问,却违背了开源社区的精神。“站在巨人肩膀”上,借鉴、使用前人开放成果的时候,至少需主动标注来源和事先说明。一个多项成果斩获第一的大模型,却在事后告诉他人自己底下的巨人是谁,这让其陷入外界的持续争议。

02

做题家,疯狂刷榜

当一个政策变成目标,它将不再是一个好的政策——古德哈特定律。

零一万物之所以站在聚光灯之下,除了创始人李开复的“光环”,还有一个原因,Yi模型在多个榜单中均分排名第一,十分抢眼。

Yi模型发布时着重强调:根据 HuggingFace 英文开源社区平台,Yi-34B预训练模型取得了国际最佳性能指标,成为全球开源大模型“双料冠军”。

“这也是迄今为止唯一成功登顶 HuggingFace 全球开源模型排行榜的国产模型。”

熟悉的话语出现在了许多国内大模型公司,以及前述巨头——谷歌的身上。

12月发布新成果时,谷歌在新闻稿里骄傲地介绍,在32个衡量大模型的权威测试中,Gemini在30个中都超过了GPT-4。

更惊喜的是,在考验57个学科的MMLU测试中,Gemini得了90分,“这是第一个超过人类专家的大模型”。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

Gemini与其他大模型在文本基准测试中的对比表现

附上这些排名,让一个大模型看上去坚不可摧:这些AI的测试都由国际权威AI机构或者学术组织主导,题目包含从人文社科再到数学、理工等多个大类的综合知识。比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。

但如果说,这些题目,是可以事先得知的呢?

9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个研究,指出大模型排名不一定可靠。他们还起了一个很扎眼的标题,“不要让你的大模型只会欺骗评测榜单”。

论文指出,当前火热的大模型领域让人们只关心测试的排名,但其公平性和可靠性存疑。

主要的问题是数据污染和泄露,例如,GPT-3 的预训练语料库中包含了 Children's Book Test 数据集,LLaMA-2 也提取了 BoolQ 数据集网页内容。而这些数据集也是许多测试的内容。

研究人员接着发现,数据的重合和泄漏会导致大模型跑出夸张的成绩,一些小模型甚至因此可以超越其10倍体量的模型。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

Gemini/androidayuda

据科技媒体《品玩》报道,北京智源研究院副院长林咏华曾透露,当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集,已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。

而不少知名评测集,秉着公平透明的原则,数据集是对外公开的。这就好比高考变开卷了,还给了大模型提前“复习”的时间。

依靠刷题来夺得的排名,正如零一万物“借鉴”开源架构般,没有触犯任何规则。但结果便是,一些在某个榜单上名列前茅、达到“超越GPT”的水平的大模型,在一些其他榜单上却远远落后。

经常参与数据集评测的复旦大学计算机系教授张奇表示,之所以出现一个模型在不同评测的结果差很多,是因为“评测从单点维度进行”。不同的学术评测集都有自己的侧重点。

比如Meta最常选用的GSM8K和MMLU,两者的评测内容完全不同,前者考小学水平的数学,后者是多学科的高级竞赛。

也就是说,所谓某某榜单的大模型冠军,经常可能是“跛脚”的偏科选手。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

《终结者》剧照

更重要的是,“刷题”冠军一定程度上,与人们欢呼、期盼的大模型有所违背。当ChatGPT去年底发布时,人们惊讶的是AI大模型涌现的智能,一种阅览无数知识和资料后”上知天文下知地理”的泛化性。

这种泛化性让业界兴奋不已——这意味着如果一个通用大模型可以完成各种开放式任务,经济效应便有机会最大化。

可如今,AI公司为之努力的方向似乎不是让AI涌现智能与技术创新,而是在各大榜单上更直观的排名与“超越”。

03

创新之难

眼下各家大模型的“小花招”与花样,反映了后来者之困。在训练大模型上慢了一拍的创业者或大厂,如何让公众的注意力从OpenAI中分散出一点点,本来就很难。

百度创始人李彦宏在今年3月发布文心一言时也曾坦诚表示,文心一言在内测阶段还不完美,但他依然要在这个节点发布。因为 “市场需求”——客户、合作伙伴,都在翘首以盼,等着用。

至少,为了上AI的牌桌,为了回馈融资者的关注,先在窗口期交付产品自证价值,或者通过刷榜表明实力,这是当下许多AI公司无奈又现实的做法。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

文心一言首页

只是,正如人生“越想要东西越得不到”一样,越是焦虑、着急上牌桌打出一手好牌,也许离期待的效果就越远。

谷歌在发布新成果上已经非常谨慎,但在12月Gemini的发布时,依然露了馅。正如MIT评论所说,Gemini的发布也许便是一个迹象,表明我们已经达到炒作人工智能的顶峰。

华盛顿大学研究在线搜索的教授奇拉格·沙阿将Gemini的发布比作苹果公司每年推出新款 iPhone。“我们大众对AI期待度已经上升到一定的阈值,许多(小功能)小进步不会给我们留下那么深刻的印象,因为已经见过太多了。”

沙阿说,最终,对AI模型渐进式的改进可能不会让普通用户留下印象。就像品牌手机一样,“决定使用大模型时,普通用户更多考虑的是便利性、品牌认知度,而不是人们真正认为,哦,这个功能更好。”

与OpenAI的竞争迫在眉睫。当下,无论是专业人士还是AI业界都意识到,一味强调模型性能超越GPT,已经无法再让人欢呼雀跃。

市场迫切需要的,是风吹了一年的AI大模型,最终能真正改变人们生活,或者带来生产率的提高。

AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了

《智能逆袭》剧照

Deepmind(现被谷歌收购)联合创始人穆斯塔法·苏莱曼近日提出,比起过去的AI测试,我们当下需要一个现代的图灵测试来衡量AI的能力。

“我们不想知道机器本身是否智能,我们想知道它是否能够对世界产生有意义的影响,”苏莱曼说,“我们想知道它能做什么。”

与现实产生真正的互通,才是现有大模型真正的“试金石”。

如苏莱曼建议的,“人工智能需要研究和设计产品、谈判合同、开展营销活动等等。简而言之,它需要在最少的监督下,将一系列复杂的现实世界目标联系在一起。”

这就像一个港口,是后来者拼尽全力可以停靠、超越的方向。

说到底,2023年的有史以来最卷的AI大模型创业,是一阵带来无数增长机会的春风,还是转瞬既逝的泡沫,答案还在风中飘。

最终,时间会告诉人们答案。

文中配图部分来源于网络

关注它,能让你听到更多真话,

多一分对世界的理解。

· 一 周 热 点 回 顾 ·

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-20 09:45:22

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

李开复旗下 AI 公司“零一万物”开源 Yi 大模型被指抄袭 LLaMA
IT之家 11 月 14 日消息,创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”,该公司已推出Yi-34B 和Yi-6B 两个开源大模型
2023-11-14 17:00:00
生成式AI的抄袭输出问题值得关注(附图片)
...,版权问题逐渐凸显。我们把复制训练数据的输出称为“抄袭输出”。此类输出的存在和特定诉讼结果很可能决定生成式AI的未来经济效益和社会影响。如何判定LLM的输出内容是否属于对训练
2024-01-11 06:45:00
硅谷手记|AI抄袭背后的硅谷“不光彩文化”
硅谷手记|AI抄袭背后的硅谷“不光彩文化”“‘作假,直至成功’,这是硅谷不光彩的文化。”美国斯坦福大学人工智能实验室主任克里斯托弗·曼宁3日就该校某些研究人员抄袭中国清华大学等机
2024-06-05 13:55:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投
2023-11-06 12:13:00
斯坦福团队承认抄袭中国大模型!核心证据来自2300多年前
#斯坦福抄袭中国大模型##斯坦福团队道歉#,今天下午,两个词条分别冲上微博热搜第2和第5位,引发热议。斯坦福团队承认抄袭中国大模型冲上热搜简单说,就是国外一个AI团队主导的开源大
2024-06-05 11:04:00
王者荣耀世界再次放大招,这次原神要被超越了?实录画面对比解析
最近有一款游戏火出圈了,名为《王者荣耀.世界》,这款游戏是以王者荣耀为背景故事设计的大世界探险游戏,游戏玩法与《原神》有很大的相似点,无一例外都是冒险风格。目前已经放出两段预告片
2023-01-03 00:09:00
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...了美国科研团队身上。最近几天,斯坦福大学AI团队陷入抄袭风波,被质疑“套壳”清华系大模型开源成果,引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-
2024-06-04 14:35:00
错例都一样!斯坦福学生团队致歉抄袭中国大模型:已撤回 代码作者失联
美国斯坦福大学的一个AI(人工智能)团队就抄袭中国大模型致歉。近日,由三位美国斯坦福大学学生组成的一个AI团队发布了开源模型Llama3-V
2024-06-04 22:12:00
「零一万物」完成数亿美元融资,某国际战投、东南亚财团加盟 | 36氪独家
... | 苏建勋 杨轩《智能涌现》独家获悉,李开复创办的AI大模型独角兽公司零一万物已经完成新一轮融资,金额达数亿美元。知情人士表示,此轮融资参与方包括某国际战投、东南亚财团等多
2024-08-07 10:08:00
更多关于科技的资讯: