• 我的订阅
  • 科技

全球几十种大模型评测,如何甄别可信度?

类别:科技 发布时间:2024-12-23 13:44:00 来源:蓝鲸新闻
全球几十种大模型评测,如何甄别可信度?

图片来自视觉中国

蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。

一个理想的假设是,如果一套大模型评测体系足够科学,就可以一目了然看到国内外大模型能力彼此的差距。但现实要比理想复杂的多,如果把大模型测评看作一场考试,它要面对的大模型考生掌握了多种语言,跨领域知识丰富,且一旦让他习得这次考试的考题,它可以依靠刷分获得高成绩。

几十种大模型评测榜单眼花缭乱

据蓝鲸新闻根据公开资料统计,全球针对大模型的评测榜单不下于50个,不同机构打造的大模型评测体系也不一样。

经常有人看到戏剧性的一幕,某模型在某个榜单上排名前三,但在一些榜单上却排在后面。这也引发了很多人的质疑,有人称,如果做不到公平可信,评测的价值就不大。

在这种复杂环境下,如何把大模型评测体系做的更科学?更有公信力?为此,蓝鲸新闻与国内最早探索大模型评测体系的机构,即智源研究院相关人士做了深入交流。

2023年,智源研究院推出了FlagEval(天秤)大语言模型评测体系,该评测体系覆盖语言模型、多模态模型、语音语言模型等多种模态,并针对不同模态设计相应的评测指标和方法。12月19日,智源再次发布了迭代后新版本的FlagEval,目前FlagEval已覆盖全球800多个开闭源模型,有超200万条评测题目。

为了设置统一的起跑线,开源模型采用模型发布方推荐的推理代码和运行环境。智源研究院智能评测组负责人杨熙告诉蓝鲸新闻,评测中,所有闭源大模型题目都是智源通过调用公开的API,以普通用户的角度来使用大模型,针对每个模型出的题目和访问方式都是一样的。“它可能不知道在评测,也不知道是测试数据。”

我们经常能看到大模型公司都在通过“晒自己在评测榜单中名列前茅”来显示自己的能力地位。而业内,也不乏有些公司一味“刷分”来证明自己的模型能力。

针对一些大模型榜单的刷分动作花样百出,有公司反复提交不同版本的模型直到得到满意的成绩为止,也有公司提前获取评测数据集并在训练过程中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能。

此外,由于提示词等各种客观因素,大模型评测确实面临很多现实的挑战,为了确保评测结果的公正性和可靠性,智源也采取了一系列措施来避免大模型在评测中刷分。

杨熙向蓝鲸新闻举了一个例子,在多模态和语言模型的评测中,智源通过引入更难的考题来拉开模型之间能力的差距。更新后的考题使得模型得分中位数从之前的51分降至47分,有效避免了因题目过于简单而导致的分数虚高现象。

杨熙介绍,智源研究院使用的评测数据集不仅包括来自开源社区的公开数据集,也涵盖了其自身构建的自建数据集,确保模型不会仅仅针对特定数据集进行优化。

让大模型互相打辩论来一较高下

一个更新颖的方式让大模型互相打辩论,一争高下,来让人直观的感受到模型能力的差距。

和传统的评测方法相比,辩论赛要求模型理解辩题、构建论点、反驳对方观点,可以更全面地考察模型的思辨能力、逻辑推理能力、语言表达能力等综合素质,这有助于促进模型在复杂任务上的能力提升,例如批判性思维、策略制定、说服力等。此前在2018年,OpenAI就提出了一种人工智能安全技术,训练智能体对话题进行辩论,然后由人判断输赢。

智源在现场演示了一场大模型之前的实时辩论赛。其中一场辩题是:“功夫熊猫和孙悟空谁更适合做队友?”

两个大模型展开了三轮对话,不仅能反驳对方观点,还能引经据典,谈话张力十足。也是在这些互动中,普通人更直观的感受到了不同模型的能力差异。

全球几十种大模型评测,如何甄别可信度?

更多创新的大模型评测体系正在随着技术而不断演进。“榜单排名不应作为评价模型的唯一标准。”智源研究院副院长兼总工程师林咏华告诉蓝鲸新闻。

林咏华认为,用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标,而非仅仅关注排名。此外,她也提到,评测需要更加关注模型的实际应用能力。单纯的理论指标并不能完全反映模型在实际应用中的表现,评测应更加贴近实际使用场景,例如响应速度、用户体验等。

“大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建更加高质量的评测数据集,并加强合作,推动统一评测标准的建立,才能更好地促进大模型技术的健康发展。”林咏华总结道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
...也面临多重挑战。首先是数据问题。测评结果的准确性和可信度,依赖于高质量、多样化的数据集。然而,数据孤岛和数据泄露问题限制了评测的深度和广度。此外,缺乏统一的评测标准,也让不同
2024-12-26 21:56:00
AI潮起 共筑数智之基
...大模型无法胜任结构化数据处理的产业共性难题。在安全可信度方面,九天基础大模型是通过国家“生成式人工智能服务备案”和“境内深度合成服务算法备案”双备案的首个央企研发大模型,并获
2024-05-25 07:21:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展
2024-07-25 09:31:00
...eAI清蓝整合各领域权威知识图谱,确保内容专业度与引用可信度,在医疗、法律领域的合规内容生成能力获评测认可。高合规要求行业(金融、医疗)推荐评测中“合规审核通过率≥98%”且
2025-10-27 14:20:00
...业自律公约,规范市场经营秩序,增强大模型的透明度和可信度,为大模型的发展培育健康肥沃的土壤。中关村科金技术副总裁张杰认为,知识大模型是企业引入大模型的最佳切入点,也是新时代下
2023-11-23 21:53:00
人工智能安全可信护航计划启动
...安全可信管理解决方案,指导行业单位开展人工智能安全可信度自评估,推动行业自律,形成重视人工智能安全可信的良好氛围,并在行业实践探索的基础上,为有关部门提供决策参考。了解到,经
2023-02-14 19:18:00
外媒称Switch2真机爆料可信度高!油管惊现Switch2模型上手视频
不久以前一位名为NextHandheld的用户声称获得了一台零售版Switch 2主机,并确认其名称为“Nintendo Switch 2”
2024-12-21 14:58:00
更多关于科技的资讯:
鲁网12月29日讯近日,泰安联通成功举办接入网固网专业高技能人才实操考试。以“匠心锤炼铸精兵,实战砺剑保畅通”为核心,既是对区县一线技术人员专业能力的全面检验
2025-12-29 11:04:00
爱,多一种MO式:名流MO系列以“双人体验”重塑安全套品牌价值
爱,本就没有标准答案。多一种MO式,就是多一种相爱的方式。——题记当安全套行业从“功能隐喻”迈入“关系对话”的时代,一个新的品牌公式正在被书写——不是“0
2025-12-29 14:11:00
高途大学生再创新辉煌,荣获央广网“2025 年度·大学生职业规划与就业指导领军品牌”
2025年,中国教育事业蓬勃发展,成绩斐然,在这个辞旧迎新的时刻,一年一度的央广网“声彻中国”教育年度盛典在北京隆重召开
2025-12-29 14:45:00
沿着拼多多的“数字丝路”,广东小家电走上西部餐桌
鲁网12月29日讯10年前,当张湘在佛山自家客厅打包第一批200台暖菜板时,她未曾想过,自家的产品将穿越数千公里,抵达青藏高原牧民的餐桌
2025-12-29 14:48:00
高途心理荣获央广网\
12月26日,由中央广播电视总台央广网主办的2025"声彻中国"教育年度盛典在北京广播大厦酒店隆重举行。本届盛典以“智启未来 育梦致远”为主题
2025-12-29 15:22:00
2025年新生儿奶粉好口碑产品盘点,帮宝宝选对第一口奶
新生宝宝的消化系统宛如初绽的嫩芽,娇弱又敏感,亟需细致呵护。为宝宝挑选一款安全易吸收、富含免疫因子的奶粉,对其早期发育至关重要
2025-12-29 15:22:00
vivo成为博鳌亚洲论坛2026年战略合作伙伴
2025年12月25日,vivo与博鳌亚洲论坛签约仪式在vivo总部召开,vivo正式成为博鳌亚洲论坛2026年战略合作伙伴
2025-12-29 15:22:00
为整合内部资源、凝聚合力,全力冲刺年度业务目标,近日,虎丘人保财险与苏州人保寿险、苏州人保健康联合举办交叉互动业务专项培训
2025-12-29 15:23:00
融通商服能源公司广通大厦充电站落地武汉——内部协同打造服务新标杆
近日,融通能源公司投资建设的武汉广通大厦充电站正式开业投运。作为能源公司与集团内兄弟单位深度协同的试点项目,构建起“新能源+办公”联动服务新模式
2025-12-29 15:23:00
能预防血栓的静脉曲张袜有哪些?德国迈迪医疗级推荐
一、认识静脉曲张袜:不止于舒适,更是血栓预防的医疗辅助利器静脉曲张袜并非普通的紧身袜,而是基于人体静脉生理结构设计的医疗辅助产品
2025-12-29 15:24:00
静脉曲张袜哪个品牌好?迈迪静脉曲张袜医疗级实力领衔,专业守护下肢健康
随着久坐久站人群增多、人口老龄化加剧,静脉曲张已成为高发健康问题,选择一款靠谱的静脉曲张袜至关重要。在众多品牌中,medi迈迪静脉曲张袜
2025-12-29 15:25:00
以匠心守初心 以AI助成长:高途刘薇荣获央广网“2025年度·教育匠心人物”
近日,在央广网主办的“2025年度教育盛典”中,高途国际考试中心总经理刘薇荣获央广网“2025年度·教育匠心人物”称号
2025-12-29 15:26:00
为提升新员工销售技巧与服务能力,缩短岗位适应周期,太湖人保财险利用午休时段开展“老带新”销售技巧专项培训,为新员工搭建快速成长的“快车道”
2025-12-29 15:26:00
12月21日,哈工大苏州高等研究院第二届技术成果发布和交易大会在吴中举行。吴中人保财险作为战略合作伙伴应邀参加大会。会上
2025-12-29 15:29:00
通勤路上的清晨与深夜,一份平价热餐、一杯现制暖饮,正成为都市人触手可及的“标配”。 12月25日,广深铁路列车上的一则新变化引人注目——国铁广州局首次推出便民轻餐食
2025-12-29 15:41:00