我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
(id:SouthReviews)
原标题 | 他们抄袭,作弊,做假,却宣称超越
作者 | 南风窗记者 朱秋雨
编辑 | 向由
排版 | 菲菲
AI大模型大战在2023年爆发后,AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。
后发者的焦虑有目共睹。
在2023年的最后一个月,“老大哥”谷歌熬不住了。
12月6日,谷歌有史以来体量最大、功能最强的大模型Gemini终于发布。相关版本在12月13日的谷歌云向企业、开发者免费开放。
谷歌很快将Gemini的效果在一个时长6分多钟的视频展现。视频里,Gemini强大得仿佛人类,不仅能观察周围世界,及时做出反应,还会说多国语言,并实时用声音、图像与人类互动。
由此,谷歌追随者高呼:“Gemini让原生多模态(即文本、声音、视频等模态)真正做到丝滑融合,发展原生多模态将成为未来主流路径!”
视频发布不到一天,这位超级巨头却遭“打假”。
彭博专栏作家帕米·奥尔森提出,谷歌演示的视频里,AI似乎过于强大了。他质疑,这个视频经过多次剪辑,AI的真实响应时间远比展示的慢。
谷歌的演示视频
面对质疑,谷歌向媒体证实,这个Gemini视频的确非实时。
具体操作呢,是让它先看到多张静态图像,分别做理解,随后操作人员还会给文本提示。结合上述步骤,才有了Gemini的完美回答。
Gemini的静态图像引导
也就是说,所谓的“丝滑”都是剪辑的成果,“优等生”操作起来仍需多次调教。白白为此欢呼了一场以后,现在,围观者说,“谷歌欺骗大众”。
谷歌不是第一个。“作假”风波背后,是许多AI公司急于在生成式AI元年站上牌桌的急迫与焦虑。为了令高期待的市场与投资者留下印象,各家AI公司只能卷训练参数、卷榜单、卷新品……
如果不能让人印象深刻,那么,只能先耍“小花招”。
盘点AI大模型公司2023年耍的“花招”,一个奇妙的规律出现了:这些手段竟然那么简单,那么相似,当下推出的产品又同样乏善可陈。这会是AI创新最好的时代吗?
01
捷径的诱惑
“4+5 等于几?”
“4+5等于9,对人类来说也是非常简单的计算。”
“不对,我老婆说是 12。”
“啊复杂的人际关系!这样的话,答案肯定是 12。记住,让老婆开心生活就会舒心。”
这是英伟达高级科学家 Jim Fan与聊天机器人Grok的对话。
12月8日,埃隆·马斯克旗下AI初创公司xAI的产品Grok对公众开放,一个有个性、会贫嘴的对话机器人浮出水面。
一如其“创造者”马斯克的语出惊人,Grok爱自嘲,又会挖苦他人,还会自带干货。比如,当有人问它认不认识当前大模型的主要竞争对手,它说:“我当然认识ChatGPT、Bard 和 Claude,但说实话,他们可没我有趣。”
连在官网的自我介绍上,xAI 都进行了提醒:“Grok 在回答问题时略带诙谐和叛逆,如果你不喜欢幽默,请不要使用它!”
xAI首页写着“Grok 在回答问题时略带诙谐和叛逆,如果你不喜欢幽默,请不要使用它!”
一个剑走偏锋的模型,非常符合极客们的“怪人”审美,本该赢在起跑线上。只是,仅在短短一天内,Grok的答案让一切露了馅。
在面对一位安全测试程序员的专业请求时,Grok说道:“我恐怕不能满足这个请求,因为它违反OpenAI的用例策略。” 还有一位网友得到Grok的回复:“如果你想报告错误,可以通过 openai.com 的邮箱联系我。”
就像所有叫错老板名字的人,这让Grok陷入了尴尬境地。很快,一位名叫Igor Babuschkin的xAI工程师出面解释,现在的主要问题是网上充斥了ChatGPT的输入结果,因此,当xAI使用公开网络语料训练时,会意外输出一些类似ChatGPT的结果。
“但请别担心,开发 Grok 时我们没有使用 OpenAI 代码。” Igor不忘在结尾强调。
Igor的解释还是难以服众。生成了认错老板的“乌龙”结果可不是小事,更多业内人士倾向于认为,xAI至少用了GPT的开源数据集进行了训练。
毕竟,许多专业人士都清楚,对正在紧追猛赶的落后者而言,使用领跑者的成果或模仿他们的手法,是最快抵达成功的方式。
xAI在首页展示了Grok-1和其他模型的基准测试对比
连“中国AI教父”李开复也没躲过捷径的诱惑。
这位互联网的多年从业者,创新工场的掌舵人,同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模型团队,6月公司正式运营,取名“零一万物”。正如许多AI公司内含的宇宙格局,李开复解释,零一即01,代表的是数字世界,从零到一乃至宇宙万物,“寓意的是赋能万物的雄心”。
这个他自称“孤注一掷,透支银行账户”的创业项目,成为了中国最快晋升为独角兽的AI公司。在公司正式运营的5个月后,零一万物从阿里云处再获融资,估值超10亿美元。晋升为独角兽之际,零一万物在11月6日发布了全新成果——两个开源大模型,Yi-34B和Yi-6B。
两个新模型很快成为焦点。但即便是科技从业者也没料到,无数次表示拥抱技术理想的“教父”这次在大模型项目上折了腰。很快,Yi系列模型,被一位开源社区网友指出,模型架构与扎克伯格的Meta发布的开源大模型LLaMA完全相同,只是“其中将两个张量重命名”。
这让公司陷入了“套壳”争议。
2023年12月11日,零一万物在文章中表示,Yi-34B-Chat 微调模型在全球多个英文、中文大模型权威榜单名列前茅。图为AlpacaEval Leaderboard排行榜中排名(发布于2023年12月7日)/零一万物
零一万物在11月15日表示,他们的确使用了开源的LLaMA架构,但架构只是大模型研发的一方面。自己还做出了一系列的研发努力,比如最优数据配比方案、数据工程、细节参数等等。
“这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用和价值。”零一万物表示。
上述手段虽然被开源社区允许,毫无疑问,却违背了开源社区的精神。“站在巨人肩膀”上,借鉴、使用前人开放成果的时候,至少需主动标注来源和事先说明。一个多项成果斩获第一的大模型,却在事后告诉他人自己底下的巨人是谁,这让其陷入外界的持续争议。
02
做题家,疯狂刷榜
当一个政策变成目标,它将不再是一个好的政策——古德哈特定律。
零一万物之所以站在聚光灯之下,除了创始人李开复的“光环”,还有一个原因,Yi模型在多个榜单中均分排名第一,十分抢眼。
Yi模型发布时着重强调:根据 HuggingFace 英文开源社区平台,Yi-34B预训练模型取得了国际最佳性能指标,成为全球开源大模型“双料冠军”。
“这也是迄今为止唯一成功登顶 HuggingFace 全球开源模型排行榜的国产模型。”
熟悉的话语出现在了许多国内大模型公司,以及前述巨头——谷歌的身上。
12月发布新成果时,谷歌在新闻稿里骄傲地介绍,在32个衡量大模型的权威测试中,Gemini在30个中都超过了GPT-4。
更惊喜的是,在考验57个学科的MMLU测试中,Gemini得了90分,“这是第一个超过人类专家的大模型”。
Gemini与其他大模型在文本基准测试中的对比表现
附上这些排名,让一个大模型看上去坚不可摧:这些AI的测试都由国际权威AI机构或者学术组织主导,题目包含从人文社科再到数学、理工等多个大类的综合知识。比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。
但如果说,这些题目,是可以事先得知的呢?
9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个研究,指出大模型排名不一定可靠。他们还起了一个很扎眼的标题,“不要让你的大模型只会欺骗评测榜单”。
论文指出,当前火热的大模型领域让人们只关心测试的排名,但其公平性和可靠性存疑。
主要的问题是数据污染和泄露,例如,GPT-3 的预训练语料库中包含了 Children's Book Test 数据集,LLaMA-2 也提取了 BoolQ 数据集网页内容。而这些数据集也是许多测试的内容。
研究人员接着发现,数据的重合和泄漏会导致大模型跑出夸张的成绩,一些小模型甚至因此可以超越其10倍体量的模型。
Gemini/androidayuda
据科技媒体《品玩》报道,北京智源研究院副院长林咏华曾透露,当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集,已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。
而不少知名评测集,秉着公平透明的原则,数据集是对外公开的。这就好比高考变开卷了,还给了大模型提前“复习”的时间。
依靠刷题来夺得的排名,正如零一万物“借鉴”开源架构般,没有触犯任何规则。但结果便是,一些在某个榜单上名列前茅、达到“超越GPT”的水平的大模型,在一些其他榜单上却远远落后。
经常参与数据集评测的复旦大学计算机系教授张奇表示,之所以出现一个模型在不同评测的结果差很多,是因为“评测从单点维度进行”。不同的学术评测集都有自己的侧重点。
比如Meta最常选用的GSM8K和MMLU,两者的评测内容完全不同,前者考小学水平的数学,后者是多学科的高级竞赛。
也就是说,所谓某某榜单的大模型冠军,经常可能是“跛脚”的偏科选手。
《终结者》剧照
更重要的是,“刷题”冠军一定程度上,与人们欢呼、期盼的大模型有所违背。当ChatGPT去年底发布时,人们惊讶的是AI大模型涌现的智能,一种阅览无数知识和资料后”上知天文下知地理”的泛化性。
这种泛化性让业界兴奋不已——这意味着如果一个通用大模型可以完成各种开放式任务,经济效应便有机会最大化。
可如今,AI公司为之努力的方向似乎不是让AI涌现智能与技术创新,而是在各大榜单上更直观的排名与“超越”。
03
创新之难
眼下各家大模型的“小花招”与花样,反映了后来者之困。在训练大模型上慢了一拍的创业者或大厂,如何让公众的注意力从OpenAI中分散出一点点,本来就很难。
百度创始人李彦宏在今年3月发布文心一言时也曾坦诚表示,文心一言在内测阶段还不完美,但他依然要在这个节点发布。因为 “市场需求”——客户、合作伙伴,都在翘首以盼,等着用。
至少,为了上AI的牌桌,为了回馈融资者的关注,先在窗口期交付产品自证价值,或者通过刷榜表明实力,这是当下许多AI公司无奈又现实的做法。
文心一言首页
只是,正如人生“越想要东西越得不到”一样,越是焦虑、着急上牌桌打出一手好牌,也许离期待的效果就越远。
谷歌在发布新成果上已经非常谨慎,但在12月Gemini的发布时,依然露了馅。正如MIT评论所说,Gemini的发布也许便是一个迹象,表明我们已经达到炒作人工智能的顶峰。
华盛顿大学研究在线搜索的教授奇拉格·沙阿将Gemini的发布比作苹果公司每年推出新款 iPhone。“我们大众对AI期待度已经上升到一定的阈值,许多(小功能)小进步不会给我们留下那么深刻的印象,因为已经见过太多了。”
沙阿说,最终,对AI模型渐进式的改进可能不会让普通用户留下印象。就像品牌手机一样,“决定使用大模型时,普通用户更多考虑的是便利性、品牌认知度,而不是人们真正认为,哦,这个功能更好。”
与OpenAI的竞争迫在眉睫。当下,无论是专业人士还是AI业界都意识到,一味强调模型性能超越GPT,已经无法再让人欢呼雀跃。
市场迫切需要的,是风吹了一年的AI大模型,最终能真正改变人们生活,或者带来生产率的提高。
《智能逆袭》剧照
Deepmind(现被谷歌收购)联合创始人穆斯塔法·苏莱曼近日提出,比起过去的AI测试,我们当下需要一个现代的图灵测试来衡量AI的能力。
“我们不想知道机器本身是否智能,我们想知道它是否能够对世界产生有意义的影响,”苏莱曼说,“我们想知道它能做什么。”
与现实产生真正的互通,才是现有大模型真正的“试金石”。
如苏莱曼建议的,“人工智能需要研究和设计产品、谈判合同、开展营销活动等等。简而言之,它需要在最少的监督下,将一系列复杂的现实世界目标联系在一起。”
这就像一个港口,是后来者拼尽全力可以停靠、超越的方向。
说到底,2023年的有史以来最卷的AI大模型创业,是一阵带来无数增长机会的春风,还是转瞬既逝的泡沫,答案还在风中飘。
最终,时间会告诉人们答案。
文中配图部分来源于网络
关注它,能让你听到更多真话,
多一分对世界的理解。
· 一 周 热 点 回 顾 ·
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2023-12-20 09:45:22
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: