我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

类别：科技发布时间：2023-12-20 00:10:00 来源：VISTA看天下

（id:SouthReviews）

原标题 | 他们抄袭，作弊，做假，却宣称超越

作者 | 南风窗记者朱秋雨

编辑 | 向由

排版 | 菲菲

AI大模型大战在2023年爆发后，AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点，好让产品迭代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。

后发者的焦虑有目共睹。

在2023年的最后一个月，“老大哥”谷歌熬不住了。

12月6日，谷歌有史以来体量最大、功能最强的大模型Gemini终于发布。相关版本在12月13日的谷歌云向企业、开发者免费开放。

谷歌很快将Gemini的效果在一个时长6分多钟的视频展现。视频里，Gemini强大得仿佛人类，不仅能观察周围世界，及时做出反应，还会说多国语言，并实时用声音、图像与人类互动。

由此，谷歌追随者高呼：“Gemini让原生多模态（即文本、声音、视频等模态）真正做到丝滑融合，发展原生多模态将成为未来主流路径！”

视频发布不到一天，这位超级巨头却遭“打假”。

彭博专栏作家帕米·奥尔森提出，谷歌演示的视频里，AI似乎过于强大了。他质疑，这个视频经过多次剪辑，AI的真实响应时间远比展示的慢。

谷歌的演示视频

面对质疑，谷歌向媒体证实，这个Gemini视频的确非实时。

具体操作呢，是让它先看到多张静态图像，分别做理解，随后操作人员还会给文本提示。结合上述步骤，才有了Gemini的完美回答。

Gemini的静态图像引导

也就是说，所谓的“丝滑”都是剪辑的成果，“优等生”操作起来仍需多次调教。白白为此欢呼了一场以后，现在，围观者说，“谷歌欺骗大众”。

谷歌不是第一个。“作假”风波背后，是许多AI公司急于在生成式AI元年站上牌桌的急迫与焦虑。为了令高期待的市场与投资者留下印象，各家AI公司只能卷训练参数、卷榜单、卷新品……

如果不能让人印象深刻，那么，只能先耍“小花招”。

盘点AI大模型公司2023年耍的“花招”，一个奇妙的规律出现了：这些手段竟然那么简单，那么相似，当下推出的产品又同样乏善可陈。这会是AI创新最好的时代吗？

捷径的诱惑

“4+5 等于几？”

“4+5等于9，对人类来说也是非常简单的计算。”

“不对，我老婆说是 12。”

“啊复杂的人际关系！这样的话，答案肯定是 12。记住，让老婆开心生活就会舒心。”

这是英伟达高级科学家 Jim Fan与聊天机器人Grok的对话。

12月8日，埃隆·马斯克旗下AI初创公司xAI的产品Grok对公众开放，一个有个性、会贫嘴的对话机器人浮出水面。

一如其“创造者”马斯克的语出惊人，Grok爱自嘲，又会挖苦他人，还会自带干货。比如，当有人问它认不认识当前大模型的主要竞争对手，它说：“我当然认识ChatGPT、Bard 和 Claude，但说实话，他们可没我有趣。”

连在官网的自我介绍上，xAI 都进行了提醒：“Grok 在回答问题时略带诙谐和叛逆，如果你不喜欢幽默，请不要使用它！”

xAI首页写着“Grok 在回答问题时略带诙谐和叛逆，如果你不喜欢幽默，请不要使用它！”

一个剑走偏锋的模型，非常符合极客们的“怪人”审美，本该赢在起跑线上。只是，仅在短短一天内，Grok的答案让一切露了馅。

在面对一位安全测试程序员的专业请求时，Grok说道：“我恐怕不能满足这个请求，因为它违反OpenAI的用例策略。” 还有一位网友得到Grok的回复：“如果你想报告错误，可以通过 openai.com 的邮箱联系我。”

就像所有叫错老板名字的人，这让Grok陷入了尴尬境地。很快，一位名叫Igor Babuschkin的xAI工程师出面解释，现在的主要问题是网上充斥了ChatGPT的输入结果，因此，当xAI使用公开网络语料训练时，会意外输出一些类似ChatGPT的结果。

“但请别担心，开发 Grok 时我们没有使用 OpenAI 代码。” Igor不忘在结尾强调。

Igor的解释还是难以服众。生成了认错老板的“乌龙”结果可不是小事，更多业内人士倾向于认为，xAI至少用了GPT的开源数据集进行了训练。

毕竟，许多专业人士都清楚，对正在紧追猛赶的落后者而言，使用领跑者的成果或模仿他们的手法，是最快抵达成功的方式。

xAI在首页展示了Grok-1和其他模型的基准测试对比

连“中国AI教父”李开复也没躲过捷径的诱惑。

这位互联网的多年从业者，创新工场的掌舵人，同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模型团队，6月公司正式运营，取名“零一万物”。正如许多AI公司内含的宇宙格局，李开复解释，零一即01，代表的是数字世界，从零到一乃至宇宙万物，“寓意的是赋能万物的雄心”。

这个他自称“孤注一掷，透支银行账户”的创业项目，成为了中国最快晋升为独角兽的AI公司。在公司正式运营的5个月后，零一万物从阿里云处再获融资，估值超10亿美元。晋升为独角兽之际，零一万物在11月6日发布了全新成果——两个开源大模型，Yi-34B和Yi-6B。

两个新模型很快成为焦点。但即便是科技从业者也没料到，无数次表示拥抱技术理想的“教父”这次在大模型项目上折了腰。很快，Yi系列模型，被一位开源社区网友指出，模型架构与扎克伯格的Meta发布的开源大模型LLaMA完全相同，只是“其中将两个张量重命名”。

这让公司陷入了“套壳”争议。

2023年12月11日，零一万物在文章中表示，Yi-34B-Chat 微调模型在全球多个英文、中文大模型权威榜单名列前茅。图为AlpacaEval Leaderboard排行榜中排名（发布于2023年12月7日）/零一万物

零一万物在11月15日表示，他们的确使用了开源的LLaMA架构，但架构只是大模型研发的一方面。自己还做出了一系列的研发努力，比如最优数据配比方案、数据工程、细节参数等等。

“这些科学训模的系统性工作，往往比起基本模型结构能起到巨大的作用和价值。”零一万物表示。

上述手段虽然被开源社区允许，毫无疑问，却违背了开源社区的精神。“站在巨人肩膀”上，借鉴、使用前人开放成果的时候，至少需主动标注来源和事先说明。一个多项成果斩获第一的大模型，却在事后告诉他人自己底下的巨人是谁，这让其陷入外界的持续争议。

做题家，疯狂刷榜

当一个政策变成目标，它将不再是一个好的政策——古德哈特定律。

零一万物之所以站在聚光灯之下，除了创始人李开复的“光环”，还有一个原因，Yi模型在多个榜单中均分排名第一，十分抢眼。

Yi模型发布时着重强调：根据 HuggingFace 英文开源社区平台，Yi-34B预训练模型取得了国际最佳性能指标，成为全球开源大模型“双料冠军”。

“这也是迄今为止唯一成功登顶 HuggingFace 全球开源模型排行榜的国产模型。”

熟悉的话语出现在了许多国内大模型公司，以及前述巨头——谷歌的身上。

12月发布新成果时，谷歌在新闻稿里骄傲地介绍，在32个衡量大模型的权威测试中，Gemini在30个中都超过了GPT-4。

更惊喜的是，在考验57个学科的MMLU测试中，Gemini得了90分，“这是第一个超过人类专家的大模型”。

Gemini与其他大模型在文本基准测试中的对比表现

附上这些排名，让一个大模型看上去坚不可摧：这些AI的测试都由国际权威AI机构或者学术组织主导，题目包含从人文社科再到数学、理工等多个大类的综合知识。比如，谷歌引以为傲的MMLU，是一个由伯克利大学主导的评测，囊括阅读理解、大学数学以及物理和社会科学等57项测验。

但如果说，这些题目，是可以事先得知的呢？

9月，中国人民大学与伊利诺伊大学香槟分校联合推出了一个研究，指出大模型排名不一定可靠。他们还起了一个很扎眼的标题，“不要让你的大模型只会欺骗评测榜单”。

论文指出，当前火热的大模型领域让人们只关心测试的排名，但其公平性和可靠性存疑。

主要的问题是数据污染和泄露，例如，GPT-3 的预训练语料库中包含了 Children's Book Test 数据集，LLaMA-2 也提取了 BoolQ 数据集网页内容。而这些数据集也是许多测试的内容。

研究人员接着发现，数据的重合和泄漏会导致大模型跑出夸张的成绩，一些小模型甚至因此可以超越其10倍体量的模型。

Gemini/androidayuda

据科技媒体《品玩》报道，北京智源研究院副院长林咏华曾透露，当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集，已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。

而不少知名评测集，秉着公平透明的原则，数据集是对外公开的。这就好比高考变开卷了，还给了大模型提前“复习”的时间。

依靠刷题来夺得的排名，正如零一万物“借鉴”开源架构般，没有触犯任何规则。但结果便是，一些在某个榜单上名列前茅、达到“超越GPT”的水平的大模型，在一些其他榜单上却远远落后。

经常参与数据集评测的复旦大学计算机系教授张奇表示，之所以出现一个模型在不同评测的结果差很多，是因为“评测从单点维度进行”。不同的学术评测集都有自己的侧重点。

比如Meta最常选用的GSM8K和MMLU，两者的评测内容完全不同，前者考小学水平的数学，后者是多学科的高级竞赛。

也就是说，所谓某某榜单的大模型冠军，经常可能是“跛脚”的偏科选手。

《终结者》剧照

更重要的是，“刷题”冠军一定程度上，与人们欢呼、期盼的大模型有所违背。当ChatGPT去年底发布时，人们惊讶的是AI大模型涌现的智能，一种阅览无数知识和资料后”上知天文下知地理”的泛化性。

这种泛化性让业界兴奋不已——这意味着如果一个通用大模型可以完成各种开放式任务，经济效应便有机会最大化。

可如今，AI公司为之努力的方向似乎不是让AI涌现智能与技术创新，而是在各大榜单上更直观的排名与“超越”。

创新之难

眼下各家大模型的“小花招”与花样，反映了后来者之困。在训练大模型上慢了一拍的创业者或大厂，如何让公众的注意力从OpenAI中分散出一点点，本来就很难。

百度创始人李彦宏在今年3月发布文心一言时也曾坦诚表示，文心一言在内测阶段还不完美，但他依然要在这个节点发布。因为 “市场需求”——客户、合作伙伴，都在翘首以盼，等着用。

至少，为了上AI的牌桌，为了回馈融资者的关注，先在窗口期交付产品自证价值，或者通过刷榜表明实力，这是当下许多AI公司无奈又现实的做法。

文心一言首页

只是，正如人生“越想要东西越得不到”一样，越是焦虑、着急上牌桌打出一手好牌，也许离期待的效果就越远。

谷歌在发布新成果上已经非常谨慎，但在12月Gemini的发布时，依然露了馅。正如MIT评论所说，Gemini的发布也许便是一个迹象，表明我们已经达到炒作人工智能的顶峰。

华盛顿大学研究在线搜索的教授奇拉格·沙阿将Gemini的发布比作苹果公司每年推出新款 iPhone。“我们大众对AI期待度已经上升到一定的阈值，许多（小功能）小进步不会给我们留下那么深刻的印象，因为已经见过太多了。”

沙阿说，最终，对AI模型渐进式的改进可能不会让普通用户留下印象。就像品牌手机一样，“决定使用大模型时，普通用户更多考虑的是便利性、品牌认知度，而不是人们真正认为，哦，这个功能更好。”

与OpenAI的竞争迫在眉睫。当下，无论是专业人士还是AI业界都意识到，一味强调模型性能超越GPT，已经无法再让人欢呼雀跃。

市场迫切需要的，是风吹了一年的AI大模型，最终能真正改变人们生活，或者带来生产率的提高。

《智能逆袭》剧照

Deepmind（现被谷歌收购）联合创始人穆斯塔法·苏莱曼近日提出，比起过去的AI测试，我们当下需要一个现代的图灵测试来衡量AI的能力。

“我们不想知道机器本身是否智能，我们想知道它是否能够对世界产生有意义的影响，”苏莱曼说，“我们想知道它能做什么。”

与现实产生真正的互通，才是现有大模型真正的“试金石”。

如苏莱曼建议的，“人工智能需要研究和设计产品、谈判合同、开展营销活动等等。简而言之，它需要在最少的监督下，将一系列复杂的现实世界目标联系在一起。”

这就像一个港口，是后来者拼尽全力可以停靠、超越的方向。

说到底，2023年的有史以来最卷的AI大模型创业，是一阵带来无数增长机会的春风，还是转瞬既逝的泡沫，答案还在风中飘。

最终，时间会告诉人们答案。

文中配图部分来源于网络

关注它，能让你听到更多真话，

多一分对世界的理解。

· 一周热点回顾 ·

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-12-20 09:45:22

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于王者,抄袭,模型,万物,公司,数据的资讯：

李开复旗下 AI 公司“零一万物”开源 Yi 大模型被指抄袭

IT之家 11 月 14 日消息，创新工场董事长兼 CEO 李开复于今年创办了 AI 大模型创业公司“零一万物”，该公司已推出Yi-34B 和Yi-6B 两个开源大模型

2023-11-14 17:00:00

生成式AI的抄袭输出问题值得关注（附图片）

...，版权问题逐渐凸显。我们把复制训练数据的输出称为“抄袭输出”。此类输出的存在和特定诉讼结果很可能决定生成式AI的未来经济效益和社会影响。如何判定LLM的输出内容是否属于对训练

2024-01-11 06:45:00

硅谷手记｜AI抄袭背后的硅谷“不光彩文化”

硅谷手记｜AI抄袭背后的硅谷“不光彩文化”“‘作假，直至成功’，这是硅谷不光彩的文化。”美国斯坦福大学人工智能实验室主任克里斯托弗·曼宁3日就该校某些研究人员抄袭中国清华大学等机

2024-06-05 13:55:00

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时，36氪获悉，零一万物已完成新一轮融资，由阿里云领投

2023-11-06 12:13:00

斯坦福团队承认抄袭中国大模型！核心证据来自2300多年前

#斯坦福抄袭中国大模型##斯坦福团队道歉#，今天下午，两个词条分别冲上微博热搜第2和第5位，引发热议。斯坦福团队承认抄袭中国大模型冲上热搜简单说，就是国外一个AI团队主导的开源大

2024-06-05 11:04:00

王者荣耀世界再次放大招，这次原神要被超越了？实录画面对比解析

最近有一款游戏火出圈了，名为《王者荣耀.世界》，这款游戏是以王者荣耀为背景故事设计的大世界探险游戏，游戏玩法与《原神》有很大的相似点，无一例外都是冒险风格。目前已经放出两段预告片

2023-01-03 00:09:00

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...了美国科研团队身上。最近几天，斯坦福大学AI团队陷入抄袭风波，被质疑“套壳”清华系大模型开源成果，引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-

2024-06-04 14:35:00

错例都一样！斯坦福学生团队致歉抄袭中国大模型：已撤回代码作

美国斯坦福大学的一个AI（人工智能）团队就抄袭中国大模型致歉。近日，由三位美国斯坦福大学学生组成的一个AI团队发布了开源模型Llama3-V

2024-06-04 22:12:00

「零一万物」完成数亿美元融资，某国际战投、东南亚财团加盟 |

... | 苏建勋杨轩《智能涌现》独家获悉，李开复创办的AI大模型独角兽公司零一万物已经完成新一轮融资，金额达数亿美元。知情人士表示，此轮融资参与方包括某国际战投、东南亚财团等多

2024-08-07 10:08:00

更多关于科技的资讯：

都市丽人——加拿大鹅绒保暖衣背后的战略咨询公司

当都市丽人的加拿大鹅绒保暖衣在冬日市场中掀起热潮，新品订货会上取得经销商5亿订单销量的数据。这个经典内衣品牌的华丽转身背后

2025-10-17 13:41:00

秋补正当红｜邂逅秋补热潮，抖音生活服务一站式解锁多元滋补新体

转眼秋意渐浓，中秋、国庆双节余温未散，团圆出游的热潮与“应季而食、适时而补”的传统饮食文化相互交织，共同点燃了金秋时节的滋补消费热情

2025-10-17 13:56:00

江西热敏灸机器人获批上市赋能百亿产业链提速

本报讯(全媒体记者李芳)10月9日，省药监局正式批准热敏灸机器人第二类医疗器械上市。这标志着江西热敏灸产业进入数智化时代

2025-10-17 07:10:00

无人机运动相机大幅降价摄入正是良机

厦门网讯（厦门日报记者薛尧）无人机、运动相机迎来降价潮！近日有市民发现相关热门产品价格跳水，记者走访了解到，我市多家大疆授权体验店中

2025-10-16 08:38:00

助力视弱群体畅行公交视弱辅助系统“喊”您上车

视弱人士庄先生在公交视弱辅助系统的帮助下乘车。厦门网讯（文/图厦门日报记者林钦圣通讯员江安娜） “我们先找到并打开公交App

2025-10-16 08:38:00

迎接2025世界航海装备大会，福州夜景强势刷屏！

10月15日晚，福州金融街商务区“亮灯”，迎接2025世界航海装备大会。

2025-10-16 08:59:00

石油工程设计公司自主研发系统，提高管道“诊断”效能

近日，中石化石油工程设计有限公司自主研发的“管道环焊缝射线检测缺陷智能辅助评判系统”，顺利完成准确率测试。本次测试中，该系统总计检查了210张油气长输管道环焊缝射线检测底片

2025-10-16 09:03:00

微评｜警惕网络依赖“偷走”青少年的思考能力

当“遇到问题先到社交媒体上搜索”成为一代青少年的本能反应，当班级群、兴趣圈与直播平台深度嵌入他们的日常生活，社交网络正构成这代“数字原住民”成长的基本环境

2025-10-16 09:16:00

大模型时代医学智能化的融合之道——经典算法与前沿技术共促健康

在人工智能技术飞速发展的今天，大模型以其强大的信息处理与泛化能力，正深刻改变医学领域的科研与临床实践。与此同时，以聚类分析

2025-10-16 09:57:00

人去世了朋友圈会消失吗？微信：对长时间不使用账号已不再回收

10月15日，“微信派”微信公众号发布最新一期播客，聊到了“真的很多人不发朋友圈了吗？”“人去世后，朋友圈会被回收吗?”等话题

2025-10-16 10:13:00

日日佳携手企知道，共同推动智能显示技术科技创新

近日，深圳日日佳显示技术有限公司（以下简称“日日佳”或“公司”）正式签约入驻企知道科创空间。作为专注于TFT-LCD模组制造的细分领域的国家高新技术企业和深圳市专精特新中小企业

2025-10-16 10:18:00

汽车测评全球协同 | 解码C-NCAP——护航公众出行安全

当汽车从单纯的“交通工具”升级为承载多元需求的“出行载体”，是什么力量在守护这场变革的安全底线？2025世界NCAP大会即将在中国上海启幕

2025-10-16 10:50:00

花田玑密入选“2025山东省优秀兴农电商企业案例”

2025年10月16日，由山东省商务厅主办的“数商兴农庆丰收暨九九网购节”电商促消费活动在青岛莱西市人民广场隆重启动。花田玑密品牌创始人

2025-10-16 10:53:00

香港金管局公布生成式AI沙盒名单，蚂蚁数科入选技术合作伙伴

10月15日，香港金融管理局（HKMA）与香港数码港管理有限公司联合公布第二期生成式AI沙盒参与者名单。蚂蚁银行、中银香港

2025-10-16 11:24:00

卢伟冰官宣REDMI K90系列明天见！不排斥和小米直接竞争

10月16日，小米集团合伙人、总裁卢伟冰微博正式官宣，REDMI K90系列明天见。他发文透露，本次发布会是小米手机业务在旗舰新品发布季的第二篇章

2025-10-16 12:00:00

头条订阅服务

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了