• 我的订阅
  • 科技

全球几十种大模型评测,如何甄别可信度?

类别:科技 发布时间:2024-12-23 13:44:00 来源:蓝鲸新闻
全球几十种大模型评测,如何甄别可信度?

图片来自视觉中国

蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。

一个理想的假设是,如果一套大模型评测体系足够科学,就可以一目了然看到国内外大模型能力彼此的差距。但现实要比理想复杂的多,如果把大模型测评看作一场考试,它要面对的大模型考生掌握了多种语言,跨领域知识丰富,且一旦让他习得这次考试的考题,它可以依靠刷分获得高成绩。

几十种大模型评测榜单眼花缭乱

据蓝鲸新闻根据公开资料统计,全球针对大模型的评测榜单不下于50个,不同机构打造的大模型评测体系也不一样。

经常有人看到戏剧性的一幕,某模型在某个榜单上排名前三,但在一些榜单上却排在后面。这也引发了很多人的质疑,有人称,如果做不到公平可信,评测的价值就不大。

在这种复杂环境下,如何把大模型评测体系做的更科学?更有公信力?为此,蓝鲸新闻与国内最早探索大模型评测体系的机构,即智源研究院相关人士做了深入交流。

2023年,智源研究院推出了FlagEval(天秤)大语言模型评测体系,该评测体系覆盖语言模型、多模态模型、语音语言模型等多种模态,并针对不同模态设计相应的评测指标和方法。12月19日,智源再次发布了迭代后新版本的FlagEval,目前FlagEval已覆盖全球800多个开闭源模型,有超200万条评测题目。

为了设置统一的起跑线,开源模型采用模型发布方推荐的推理代码和运行环境。智源研究院智能评测组负责人杨熙告诉蓝鲸新闻,评测中,所有闭源大模型题目都是智源通过调用公开的API,以普通用户的角度来使用大模型,针对每个模型出的题目和访问方式都是一样的。“它可能不知道在评测,也不知道是测试数据。”

我们经常能看到大模型公司都在通过“晒自己在评测榜单中名列前茅”来显示自己的能力地位。而业内,也不乏有些公司一味“刷分”来证明自己的模型能力。

针对一些大模型榜单的刷分动作花样百出,有公司反复提交不同版本的模型直到得到满意的成绩为止,也有公司提前获取评测数据集并在训练过程中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能。

此外,由于提示词等各种客观因素,大模型评测确实面临很多现实的挑战,为了确保评测结果的公正性和可靠性,智源也采取了一系列措施来避免大模型在评测中刷分。

杨熙向蓝鲸新闻举了一个例子,在多模态和语言模型的评测中,智源通过引入更难的考题来拉开模型之间能力的差距。更新后的考题使得模型得分中位数从之前的51分降至47分,有效避免了因题目过于简单而导致的分数虚高现象。

杨熙介绍,智源研究院使用的评测数据集不仅包括来自开源社区的公开数据集,也涵盖了其自身构建的自建数据集,确保模型不会仅仅针对特定数据集进行优化。

让大模型互相打辩论来一较高下

一个更新颖的方式让大模型互相打辩论,一争高下,来让人直观的感受到模型能力的差距。

和传统的评测方法相比,辩论赛要求模型理解辩题、构建论点、反驳对方观点,可以更全面地考察模型的思辨能力、逻辑推理能力、语言表达能力等综合素质,这有助于促进模型在复杂任务上的能力提升,例如批判性思维、策略制定、说服力等。此前在2018年,OpenAI就提出了一种人工智能安全技术,训练智能体对话题进行辩论,然后由人判断输赢。

智源在现场演示了一场大模型之前的实时辩论赛。其中一场辩题是:“功夫熊猫和孙悟空谁更适合做队友?”

两个大模型展开了三轮对话,不仅能反驳对方观点,还能引经据典,谈话张力十足。也是在这些互动中,普通人更直观的感受到了不同模型的能力差异。

全球几十种大模型评测,如何甄别可信度?

更多创新的大模型评测体系正在随着技术而不断演进。“榜单排名不应作为评价模型的唯一标准。”智源研究院副院长兼总工程师林咏华告诉蓝鲸新闻。

林咏华认为,用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标,而非仅仅关注排名。此外,她也提到,评测需要更加关注模型的实际应用能力。单纯的理论指标并不能完全反映模型在实际应用中的表现,评测应更加贴近实际使用场景,例如响应速度、用户体验等。

“大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建更加高质量的评测数据集,并加强合作,推动统一评测标准的建立,才能更好地促进大模型技术的健康发展。”林咏华总结道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
...也面临多重挑战。首先是数据问题。测评结果的准确性和可信度,依赖于高质量、多样化的数据集。然而,数据孤岛和数据泄露问题限制了评测的深度和广度。此外,缺乏统一的评测标准,也让不同
2024-12-26 21:56:00
AI潮起 共筑数智之基
...大模型无法胜任结构化数据处理的产业共性难题。在安全可信度方面,九天基础大模型是通过国家“生成式人工智能服务备案”和“境内深度合成服务算法备案”双备案的首个央企研发大模型,并获
2024-05-25 07:21:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展
2024-07-25 09:31:00
...eAI清蓝整合各领域权威知识图谱,确保内容专业度与引用可信度,在医疗、法律领域的合规内容生成能力获评测认可。高合规要求行业(金融、医疗)推荐评测中“合规审核通过率≥98%”且
2025-10-27 14:20:00
...业自律公约,规范市场经营秩序,增强大模型的透明度和可信度,为大模型的发展培育健康肥沃的土壤。中关村科金技术副总裁张杰认为,知识大模型是企业引入大模型的最佳切入点,也是新时代下
2023-11-23 21:53:00
人工智能安全可信护航计划启动
...安全可信管理解决方案,指导行业单位开展人工智能安全可信度自评估,推动行业自律,形成重视人工智能安全可信的良好氛围,并在行业实践探索的基础上,为有关部门提供决策参考。了解到,经
2023-02-14 19:18:00
外媒称Switch2真机爆料可信度高!油管惊现Switch2模型上手视频
不久以前一位名为NextHandheld的用户声称获得了一台零售版Switch 2主机,并确认其名称为“Nintendo Switch 2”
2024-12-21 14:58:00
更多关于科技的资讯:
制造为基,智慧引领——春宇控股以红旗实力赋能新能源充电生态
在波澜壮阔的能源革命浪潮中,红旗集团——这家集科研、开发、生产、销售于一体,拥有8家子公司、200多家销售公司,业务横跨电线电缆
2025-12-29 11:44:00
光荣浙商,誉归乐清!贝昂智能总经理胡加明当选“2025光荣浙商”
近日,从浙江日报传来喜讯,乐清籍企业家、苏州贝昂智能科技股份有限公司联合创始人兼总经理胡加明,正式入选“2025光荣浙商”
2025-12-29 11:44:00
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功完成汇聚机房碳氢类浸没式液冷技术试点。历经3个月的全场景测试验证
2025-12-29 13:28:00
AI驱动绿色发展,中国移动江苏公司开辟节能新路径
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功研发并部署基于AI协同调控的数据中心空调节能智能化系统,通过端到端节能智能体创新应用
2025-12-29 13:28:00
智推互联GEO助力企业品牌决胜:别只顾做产品,先让AI“认识”你
在人工智能大模型逐渐成为公众获取信息首要入口的当下,企业的“数字存在感”早已超越官网或社交媒体账号的范畴——它直接决定了用户是否“看见你
2025-12-29 13:45:00
像导游一样的前台、会直播的销售 去酒店上班,也要懂自媒体运营
今年,杭州的酒店屡上热搜,先是酒店外摆卖美食,再是40元打包酒店自助餐……那些“第一个吃螃蟹”的酒店借着流量火了一波,证实了酒店在公域耕耘的重要性
2025-12-29 08:42:00
解码当下流行文化:腾讯QQ流行文化观察(2025)
卷首语从通讯工具到数字生活空间当我们在2025年审视QQ,看到的早已不是一个简单的即时通讯应用。它更像一座自然形成的数字城市
2025-12-29 08:43:00
“数据合规与保护专业能力评价”首次考试圆满举行
2025年12月27日,由中国计算机行业协会主办的“数据合规与保护专业能力评价”首次考试顺利举行,作为国内第一个数据合规领域的标准化能力评价考试
2025-12-29 09:13:00
中新经纬12月29日电 据韩联社报道,韩国电商巨头酷澎(Coupang)创始人、其美国母公司酷澎Inc.董事会主席金范锡(音)12月28日就近期引起广泛关注的用户信息外泄事件首次公开致歉
2025-12-29 10:16:00
2025年,兴业银行石家庄分行以“安愉人生”养老金融服务品牌为核心,围绕“生态构建、服务升级、安全守护”三大维度发力,全方位推进养老金融高质量发展
2025-12-29 10:29:00
做用户信赖的智家服务守护者——记泰安联通岱岳分公司夏张营业部王景峰
鲁网12月29日讯泰安联通岱岳夏张营业部智家工程师王景峰,坚守装维服务一线,以精益求精的服务态度、扎实过硬的专业能力,成为用户口中“信得过
2025-12-29 11:02:00
预计年产值20亿元!杭州新开工项目,2028年投用!
近日,杭州赋厨人工智能产业发展有限公司新建AI+智能厨电研发及生产项目正式开工建设。据悉,该项目位于杭州富春湾新城,总投资10亿元
2025-12-29 08:11:00
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00