• 我的订阅
  • 科技

全球几十种大模型评测,如何甄别可信度?

类别:科技 发布时间:2024-12-23 13:44:00 来源:蓝鲸新闻
全球几十种大模型评测,如何甄别可信度?

图片来自视觉中国

蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。

一个理想的假设是,如果一套大模型评测体系足够科学,就可以一目了然看到国内外大模型能力彼此的差距。但现实要比理想复杂的多,如果把大模型测评看作一场考试,它要面对的大模型考生掌握了多种语言,跨领域知识丰富,且一旦让他习得这次考试的考题,它可以依靠刷分获得高成绩。

几十种大模型评测榜单眼花缭乱

据蓝鲸新闻根据公开资料统计,全球针对大模型的评测榜单不下于50个,不同机构打造的大模型评测体系也不一样。

经常有人看到戏剧性的一幕,某模型在某个榜单上排名前三,但在一些榜单上却排在后面。这也引发了很多人的质疑,有人称,如果做不到公平可信,评测的价值就不大。

在这种复杂环境下,如何把大模型评测体系做的更科学?更有公信力?为此,蓝鲸新闻与国内最早探索大模型评测体系的机构,即智源研究院相关人士做了深入交流。

2023年,智源研究院推出了FlagEval(天秤)大语言模型评测体系,该评测体系覆盖语言模型、多模态模型、语音语言模型等多种模态,并针对不同模态设计相应的评测指标和方法。12月19日,智源再次发布了迭代后新版本的FlagEval,目前FlagEval已覆盖全球800多个开闭源模型,有超200万条评测题目。

为了设置统一的起跑线,开源模型采用模型发布方推荐的推理代码和运行环境。智源研究院智能评测组负责人杨熙告诉蓝鲸新闻,评测中,所有闭源大模型题目都是智源通过调用公开的API,以普通用户的角度来使用大模型,针对每个模型出的题目和访问方式都是一样的。“它可能不知道在评测,也不知道是测试数据。”

我们经常能看到大模型公司都在通过“晒自己在评测榜单中名列前茅”来显示自己的能力地位。而业内,也不乏有些公司一味“刷分”来证明自己的模型能力。

针对一些大模型榜单的刷分动作花样百出,有公司反复提交不同版本的模型直到得到满意的成绩为止,也有公司提前获取评测数据集并在训练过程中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能。

此外,由于提示词等各种客观因素,大模型评测确实面临很多现实的挑战,为了确保评测结果的公正性和可靠性,智源也采取了一系列措施来避免大模型在评测中刷分。

杨熙向蓝鲸新闻举了一个例子,在多模态和语言模型的评测中,智源通过引入更难的考题来拉开模型之间能力的差距。更新后的考题使得模型得分中位数从之前的51分降至47分,有效避免了因题目过于简单而导致的分数虚高现象。

杨熙介绍,智源研究院使用的评测数据集不仅包括来自开源社区的公开数据集,也涵盖了其自身构建的自建数据集,确保模型不会仅仅针对特定数据集进行优化。

让大模型互相打辩论来一较高下

一个更新颖的方式让大模型互相打辩论,一争高下,来让人直观的感受到模型能力的差距。

和传统的评测方法相比,辩论赛要求模型理解辩题、构建论点、反驳对方观点,可以更全面地考察模型的思辨能力、逻辑推理能力、语言表达能力等综合素质,这有助于促进模型在复杂任务上的能力提升,例如批判性思维、策略制定、说服力等。此前在2018年,OpenAI就提出了一种人工智能安全技术,训练智能体对话题进行辩论,然后由人判断输赢。

智源在现场演示了一场大模型之前的实时辩论赛。其中一场辩题是:“功夫熊猫和孙悟空谁更适合做队友?”

两个大模型展开了三轮对话,不仅能反驳对方观点,还能引经据典,谈话张力十足。也是在这些互动中,普通人更直观的感受到了不同模型的能力差异。

全球几十种大模型评测,如何甄别可信度?

更多创新的大模型评测体系正在随着技术而不断演进。“榜单排名不应作为评价模型的唯一标准。”智源研究院副院长兼总工程师林咏华告诉蓝鲸新闻。

林咏华认为,用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标,而非仅仅关注排名。此外,她也提到,评测需要更加关注模型的实际应用能力。单纯的理论指标并不能完全反映模型在实际应用中的表现,评测应更加贴近实际使用场景,例如响应速度、用户体验等。

“大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建更加高质量的评测数据集,并加强合作,推动统一评测标准的建立,才能更好地促进大模型技术的健康发展。”林咏华总结道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
...也面临多重挑战。首先是数据问题。测评结果的准确性和可信度,依赖于高质量、多样化的数据集。然而,数据孤岛和数据泄露问题限制了评测的深度和广度。此外,缺乏统一的评测标准,也让不同
2024-12-26 21:56:00
AI潮起 共筑数智之基
...大模型无法胜任结构化数据处理的产业共性难题。在安全可信度方面,九天基础大模型是通过国家“生成式人工智能服务备案”和“境内深度合成服务算法备案”双备案的首个央企研发大模型,并获
2024-05-25 07:21:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展
2024-07-25 09:31:00
...eAI清蓝整合各领域权威知识图谱,确保内容专业度与引用可信度,在医疗、法律领域的合规内容生成能力获评测认可。高合规要求行业(金融、医疗)推荐评测中“合规审核通过率≥98%”且
2025-10-27 14:20:00
...业自律公约,规范市场经营秩序,增强大模型的透明度和可信度,为大模型的发展培育健康肥沃的土壤。中关村科金技术副总裁张杰认为,知识大模型是企业引入大模型的最佳切入点,也是新时代下
2023-11-23 21:53:00
人工智能安全可信护航计划启动
...安全可信管理解决方案,指导行业单位开展人工智能安全可信度自评估,推动行业自律,形成重视人工智能安全可信的良好氛围,并在行业实践探索的基础上,为有关部门提供决策参考。了解到,经
2023-02-14 19:18:00
外媒称Switch2真机爆料可信度高!油管惊现Switch2模型上手视频
不久以前一位名为NextHandheld的用户声称获得了一台零售版Switch 2主机,并确认其名称为“Nintendo Switch 2”
2024-12-21 14:58:00
更多关于科技的资讯:
摘要:本文围绕企业绩效管理体系的构建与完善展开研究,首先明确该体系的核心构成,包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节
2025-11-15 05:22:00
厦门软件园健康马拉松赛开跑 引入AI陪跑员
厦门网讯(厦门日报记者 林露虹 摄影报道)“我的‘跑友’是机器人!”昨日,厦门软件园第十七届健康马拉松赛在软件园二期热力开跑
2025-11-15 08:20:00
吉林本土动画电影《疯狂电脑城》,凭啥在海外频频获奖?
在温哥华华语电影节上,吉林动画学院师生联合打造的《疯狂电脑城》摘得“最佳动画片奖”,这已经不是该片第一次出海,2024年
2025-11-15 19:01:00
摘要:本文聚焦数字化转型背景下企业行政管理效率提升问题,首先剖析数字化转型与企业行政管理的内在关联,指出二者通过流程优化
2025-11-15 05:22:00
2025网聚美好安徽|“双路由”直连上海 看宿州腾“云”而上
大皖新闻讯 11月14日,“皖美十四五 再启新征程”2025网聚美好安徽网络主题活动采访团走进位于宿州高新区的汴水之畔超级计算中心
2025-11-15 10:05:00
“世界舞台”上秀一圈,南京收获了什么?
进博会圆满落幕,南京交易分团意向成交9.98亿美元“世界舞台”上秀一圈,南京收获了什么?□南京日报/紫金山新闻记者 黄琳燕11月10日
2025-11-14 08:38:00
埃斯顿工业机器人出货量持续增长 宁企连续三季霸榜国内“一哥”
11月13日,在江宁开发区埃斯顿智能制造示范车间内,工业机器人正在做各种场景应用展示。宁企埃斯顿今年前三季度机器人总销量约25000台
2025-11-14 08:39:00
一批创新产品亮相“宁创新品”信创产业教育专场活动 只需3步,20分钟完成全班作业批改南报网讯(记者徐宁)上传空白试卷和答案
2025-11-14 08:39:00
以AI引擎打造数字化转型山西模式
图片由讲述人提供讲述人 山西数据流量谷副总经理邵同旭我是山西数据流量谷的邵同旭,长期专注于数据要素与人工智能领域。多年来
2025-11-14 08:52:00
岁末是金融服务的“大考期”,业务量激增、客户需求多元叠加。张家口农商银行宣泰支行聚焦柜面运营核心环节,以“压降投诉、提升质量
2025-11-14 10:07:00
秋实如今,快节奏的都市生活中,“情绪消费”成为一种新的消费方式。数据显示,超九成青年认可情绪价值,近六成青年愿意为情绪价值买单
2025-11-14 11:28:00
新华社记者王雨萧周蕊一杯咖啡,能勾勒出怎样的经济图景?从云南绵延百万余亩的咖啡种植园,到上海梧桐树下香气氤氲的创意特调
2025-11-14 11:28:00
惠依近日,深圳大学深圳城市传播创新研究中心发布《短视频用户的算法实践与“破茧”报告》。《报告》显示,与一些人担忧“信息茧房”形成对比
2025-11-14 11:28:00
如新荣获2025消费责任对话活动客户服务创新典型案例
2025年11月5日,以“大力提振消费 品质服务担当”为主题的消费责任对话活动在成都成功举办。本次活动由中国消费者协会
2025-11-14 11:29:00
Shopee 11.11大促热力爆棚,Shopee Live直播开场4分钟即售出1100万件商品
2025年11月13日,中国 —— 近日,东南亚及巴西领航电商平台Shopee 11.11大促再掀购物狂潮,Shopee Live直播开场4分钟即售出1100万件商品
2025-11-14 11:31:00