• 我的订阅
  • 科技

刷榜跑分?AI评测不应走偏路线

类别:科技 发布时间:2024-03-22 02:41:00 来源:每日看点快看

本文转自:新华每日电讯“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

之所以令人大跌眼镜,是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅,实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯,那么更讽刺的是,有的大模型根本没对业界开放,就算大家想感受一下“第一名”的风采都找不到门路。

有人可能会好奇:一些AI大模型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到题库,并把答案逐一背了下来。

“考高分”的目的也很明确,那就是投机取巧、炒作包装。业内人士告诉记者,在国内众多大模型激烈竞争、良莠不齐的当下,许多大模型还未在用户之间形成过硬的口碑,离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一,学术化榜单和市场化榜单都得到了广泛重视,刷榜跑分因此成为一些企业快速吸引眼球的手段。

当然,榜单失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真,“考官”如果协助“考生”作弊,无疑会扰乱AI大模型的评测环境。所幸我们看到,部分榜单在遇到刷榜跑分问题后,及时推出补救措施,例如将公开大模型和非公开大模型区分为两张榜单,成功挤出大量非公开大模型的水分。

是金非金焰烈而晓,部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话,关键核心技术要不来、买不来、讨不来,更包装不来,唯有一步一个脚印,扎扎实实地向前走。

(本报评论员周琳 董雪)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-22 05:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

高途携手微软,AI黑科技赋能大学生产品
...全部再次升级AI,一站式解决听课、答疑、智能推题、考评测学情分析、全真模拟考场环境等关键备考环节,真正帮助同学实现上岸目标。微软GraphRAG技术助力高途考研产品升级在发布
2024-12-26 10:45:00
梦幻西游科举大赛题库上新,谁还不会点健康小常识了!
...终的殿试环节。乡试通过后,玩家需前往建邺城衙门寻找考官参与会试,会试共有20关。每位玩家最多可以参加2轮会试,闯过所有关卡并且用时最短的20位考生将获殿试资格。如果考生在完成
2023-01-26 22:42:00
...业务题 千道考题随机选“大家好,我们是负责本社区的考官,下面开始进行第一项考核……”。7月3日上午9时30分,于洪区迎宾路街道依云首府社区迎来了两位“大考官”。据考官王晓楠介
2023-07-14 03:44:00
...识的掌握情况;思维应变能力则包括整体逻辑思维能力,考官会观察考生是否能举一反三、是否具有发散思维;个人心态即考生是否积极阳光,是否中立不偏激,是否具备一定抗压能力和临场应变能
2023-01-18 07:06:00
...步:进场后问好;通常来说会有5-8位老师问考生问题(主考官+副考官+记录员),坐中间的一般是主考官。见面记得问老师们好,落落大方留下好的初印象。第三步:提问作答;一般会先让考
2024-02-20 19:34:00
...大模型技术哪家强”的讨论不绝于耳,各色名目的大模型评测应运而生。作为国内最权威的考试之一,高考覆盖各类学科及题型,同时在开考前这些题属于“绝密”,非常适合用来作为考查大模型智
2024-06-26 07:26:00
科大讯飞申请口语评测专利,口语评测结果更准确
...局信息显示,科大讯飞股份有限公司申请一项名为“口语评测方法、装置、相关设备及计算机程序产品”的专利,公开号 CN119942858A
2025-05-10 10:28:00
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分
2024-06-20 11:10:00
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试
2024-06-24 09:22:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 翁华鸿 通讯员 周平)近日,市公共资源交易中心正式上线渔港工程电子交易系统,标志着我市渔港工程建设项目实现就地
2026-01-27 08:02:00
人头攒动、美食飘香,腊八节前后,小店区商圈已提前奏响欢快的“幸福交响曲”,各大商超、酒店等纷纷亮出“年货王牌”,点燃市民的采购热情
2026-01-27 08:07:00
从哈尔滨到杭州,跨越2000多公里,去年刚刚大学毕业的“00后”小陆,昨天下午走进了西湖区三墩镇后陡门58号,这个因劳动纪实综艺《种地吧》成为青年心中的“奋斗地标”
2026-01-27 07:55:00
还在为办理社保业务材料不全时奔波而烦恼吗?近日,杭州“社保易窗”智能服务平台推出两项暖心新功能——“服务回单办件反馈”与“补充材料自助上传”
2026-01-27 07:25:00
阿里千问最强模型重磅亮相!性能媲美GPT-5.2、Gemini 3 Pro
1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录,性能媲美GPT-5
2026-01-27 07:38:00
■徐金星摘要:在数字经济持续深化发展的背景下,新一代信息技术正深刻影响组织的人力资源管理方式。招聘管理作为人力资源管理体系的起点
2026-01-27 05:12:00
江南时报讯 近日,江苏省数据局公示全省第一批拟入库培育数据企业名单,苏州农商银行凭借在数据应用领域的创新突破和数字化转型的扎实成效
2026-01-26 22:59:00
马伯庸张小龙相关展品亮相 知乎举办15周年线下展览
中国青年报客户端讯(中青报·中青网记者蒋肖斌)1月26日,是知乎成立15周年,主题为“当经验流过时间”的15周年线下展在北京举办
2026-01-26 20:27:00
“每个企业的基因不同、体质不同,腾讯的风格就是稳扎稳打。”腾讯2026年员工大会上,面对外界AI焦虑,腾讯董事会主席兼首席执行官马化腾一开场
2026-01-26 21:04:00
临沂联通以自研数智能力助力三星智慧工地建设
鲁网1月26日讯近日,临沂联通依托省联通自研平台与全流程服务优势,成功签约某集团三星智慧工地项目,标志着联通自研技术在建筑数字化场景中的落地应用
2026-01-26 17:06:00
河南省政协委员王延哲:建议推出“Token券”,助力河南竞逐AI漫剧新赛道
大河网讯 (记者 刘瑞朝)1月26日上午,河南省十四届人大四次会议开幕,省长王凯作政府工作报告。报告提出,积极发展电竞潮玩
2026-01-26 18:16:00
“1元体验两小时羽毛球”“9.9元试听英语课或乐器培训、编程入门”等低价体验课在平台上有可观的销量。然而,除了便宜这个优点之外
2026-01-26 18:30:00
近日,《中国消费者报》评选出的2025年全国十大消费新闻,串联起全年消费市场的政策导向、业态变革与维权焦点,见证了提振消费政策落地的实效
2026-01-26 18:30:00
2026少儿英语线上外教怎么选?实测口碑榜,家长闭眼不踩雷
其实,选线上外教课,关键就在于适合孩子。怎么才算适合?先得明确孩子的语言培养方向。如果孩子还小,处于启蒙阶段,那重点就该放在口语启蒙上
2026-01-26 18:51:00