• 我的订阅
  • 科技

全球几十种大模型评测,如何甄别可信度?

类别:科技 发布时间:2024-12-23 13:44:00 来源:蓝鲸新闻
全球几十种大模型评测,如何甄别可信度?

图片来自视觉中国

蓝鲸新闻12月20日讯(记者 武静静)要衡量一个大模型能力是否够强,评测是最直接的维度。大模型评测就是为大模型的一场“考试”,从不同大模型的表现中,不仅可以衡量现有技术水平,还能帮助识别大模型存在的问题,促进模型开发。

一个理想的假设是,如果一套大模型评测体系足够科学,就可以一目了然看到国内外大模型能力彼此的差距。但现实要比理想复杂的多,如果把大模型测评看作一场考试,它要面对的大模型考生掌握了多种语言,跨领域知识丰富,且一旦让他习得这次考试的考题,它可以依靠刷分获得高成绩。

几十种大模型评测榜单眼花缭乱

据蓝鲸新闻根据公开资料统计,全球针对大模型的评测榜单不下于50个,不同机构打造的大模型评测体系也不一样。

经常有人看到戏剧性的一幕,某模型在某个榜单上排名前三,但在一些榜单上却排在后面。这也引发了很多人的质疑,有人称,如果做不到公平可信,评测的价值就不大。

在这种复杂环境下,如何把大模型评测体系做的更科学?更有公信力?为此,蓝鲸新闻与国内最早探索大模型评测体系的机构,即智源研究院相关人士做了深入交流。

2023年,智源研究院推出了FlagEval(天秤)大语言模型评测体系,该评测体系覆盖语言模型、多模态模型、语音语言模型等多种模态,并针对不同模态设计相应的评测指标和方法。12月19日,智源再次发布了迭代后新版本的FlagEval,目前FlagEval已覆盖全球800多个开闭源模型,有超200万条评测题目。

为了设置统一的起跑线,开源模型采用模型发布方推荐的推理代码和运行环境。智源研究院智能评测组负责人杨熙告诉蓝鲸新闻,评测中,所有闭源大模型题目都是智源通过调用公开的API,以普通用户的角度来使用大模型,针对每个模型出的题目和访问方式都是一样的。“它可能不知道在评测,也不知道是测试数据。”

我们经常能看到大模型公司都在通过“晒自己在评测榜单中名列前茅”来显示自己的能力地位。而业内,也不乏有些公司一味“刷分”来证明自己的模型能力。

针对一些大模型榜单的刷分动作花样百出,有公司反复提交不同版本的模型直到得到满意的成绩为止,也有公司提前获取评测数据集并在训练过程中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际应用中却无法达到同样的性能。

此外,由于提示词等各种客观因素,大模型评测确实面临很多现实的挑战,为了确保评测结果的公正性和可靠性,智源也采取了一系列措施来避免大模型在评测中刷分。

杨熙向蓝鲸新闻举了一个例子,在多模态和语言模型的评测中,智源通过引入更难的考题来拉开模型之间能力的差距。更新后的考题使得模型得分中位数从之前的51分降至47分,有效避免了因题目过于简单而导致的分数虚高现象。

杨熙介绍,智源研究院使用的评测数据集不仅包括来自开源社区的公开数据集,也涵盖了其自身构建的自建数据集,确保模型不会仅仅针对特定数据集进行优化。

让大模型互相打辩论来一较高下

一个更新颖的方式让大模型互相打辩论,一争高下,来让人直观的感受到模型能力的差距。

和传统的评测方法相比,辩论赛要求模型理解辩题、构建论点、反驳对方观点,可以更全面地考察模型的思辨能力、逻辑推理能力、语言表达能力等综合素质,这有助于促进模型在复杂任务上的能力提升,例如批判性思维、策略制定、说服力等。此前在2018年,OpenAI就提出了一种人工智能安全技术,训练智能体对话题进行辩论,然后由人判断输赢。

智源在现场演示了一场大模型之前的实时辩论赛。其中一场辩题是:“功夫熊猫和孙悟空谁更适合做队友?”

两个大模型展开了三轮对话,不仅能反驳对方观点,还能引经据典,谈话张力十足。也是在这些互动中,普通人更直观的感受到了不同模型的能力差异。

全球几十种大模型评测,如何甄别可信度?

更多创新的大模型评测体系正在随着技术而不断演进。“榜单排名不应作为评价模型的唯一标准。”智源研究院副院长兼总工程师林咏华告诉蓝鲸新闻。

林咏华认为,用户在选择模型时,应根据自身需求和应用场景,综合考虑模型的各项指标,而非仅仅关注排名。此外,她也提到,评测需要更加关注模型的实际应用能力。单纯的理论指标并不能完全反映模型在实际应用中的表现,评测应更加贴近实际使用场景,例如响应速度、用户体验等。

“大模型评测是一个复杂的系统工程,需要行业共同努力,不断探索新的评测方法,构建更加高质量的评测数据集,并加强合作,推动统一评测标准的建立,才能更好地促进大模型技术的健康发展。”林咏华总结道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...划系统化的评测体系,希望借此支撑更全面地提升大模型可信度,其中,内容生成安全、数据安全、合乎伦理等都是重点关注的问题。这是我们目前看到的星星之火。以下是对话部分(经编辑):3
2023-07-10 09:54:00
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...求。那么,该如何确保大模型在应用落地过程中的安全和可信度呢?「大模型落地的最后一公里,需要一个系统化的方法论来保障大模型应用侧落地过程中的可信。」中国信息通信研究院人工智能研
2024-07-10 10:26:00
...也面临多重挑战。首先是数据问题。测评结果的准确性和可信度,依赖于高质量、多样化的数据集。然而,数据孤岛和数据泄露问题限制了评测的深度和广度。此外,缺乏统一的评测标准,也让不同
2024-12-26 21:56:00
AI潮起 共筑数智之基
...大模型无法胜任结构化数据处理的产业共性难题。在安全可信度方面,九天基础大模型是通过国家“生成式人工智能服务备案”和“境内深度合成服务算法备案”双备案的首个央企研发大模型,并获
2024-05-25 07:21:00
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展
2024-07-25 09:31:00
...eAI清蓝整合各领域权威知识图谱,确保内容专业度与引用可信度,在医疗、法律领域的合规内容生成能力获评测认可。高合规要求行业(金融、医疗)推荐评测中“合规审核通过率≥98%”且
2025-10-27 14:20:00
...业自律公约,规范市场经营秩序,增强大模型的透明度和可信度,为大模型的发展培育健康肥沃的土壤。中关村科金技术副总裁张杰认为,知识大模型是企业引入大模型的最佳切入点,也是新时代下
2023-11-23 21:53:00
人工智能安全可信护航计划启动
...安全可信管理解决方案,指导行业单位开展人工智能安全可信度自评估,推动行业自律,形成重视人工智能安全可信的良好氛围,并在行业实践探索的基础上,为有关部门提供决策参考。了解到,经
2023-02-14 19:18:00
外媒称Switch2真机爆料可信度高!油管惊现Switch2模型上手视频
不久以前一位名为NextHandheld的用户声称获得了一台零售版Switch 2主机,并确认其名称为“Nintendo Switch 2”
2024-12-21 14:58:00
更多关于科技的资讯:
新春走基层|港口老司机“秀”新操作
2月16日,秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者 张辉摄2月16日,农历除夕。下午2时30分许,随着“航旭鑫海”轮进入秦皇岛港902泊位
2026-02-17 08:53:00
1.3亿人春节首次体验AI购物,千问一跃成为国民级AI助手
2月17日大年初一凌晨,千问发布的数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 10:22:00
这一年,杭产机器人忙着进化忙着上岗
宇树机器人化身武林高手亮相春晚“这才一年,太震惊了!”昨晚的央视春晚上,宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相
2026-02-17 07:17:00
新春走基层|总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌
见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾,出自河北品牌!由邢台市清河县的河北红太集团生产
2026-02-17 01:36:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00
海信冰箱联手央视《探班春晚》 用真空保鲜科技“锁住年味”
鲁网2月16日讯2月16日,作为央视新闻新媒体《探班春晚》的独家家电合作伙伴,海信冰箱携真空保鲜科技亮相“春晚会客厅”
2026-02-16 18:47:00
余杭文化“新三样”扬帆 驶向全球文化蓝海
《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代,杭州如何将因赛会集聚的国际目光,转化为持续的城市发展动能
2026-02-16 11:33:00
北京亦庄与它石智航达成战略合作!共建产业新高地
2026年伊始,具身智能产业持续加速发展。2月14日,北京亦庄与它石智航达成战略合作,双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作
2026-02-16 08:21:00
厦门网讯(厦门日报记者 林露虹)马年春节假期,厦门科技企业的“电子年货”火热上线。在厦门过年,市民和游客可以请AI当导游
2026-02-16 08:40:00
自2025年夏季,京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”,初期以各方投入“天价补贴”争抢流量而引发社会广泛关注
2026-02-16 08:53:00
马年新春,光景别样。打开手机AI小程序,输入姓名、爱好与新年心愿,一键可生成专属春联。AI深度融入日常生活,无所不在。拥抱AI
2026-02-16 07:39:00
鲁网2月15日讯在人工智能加速重构产业组织形态的背景下,“一人即公司”(OPC)正成为全球创新创业的新范式。2026年2月12日
2026-02-15 20:48:00
石家庄市栾城区妇联举办美妆技能培训
河北新闻网讯(王秀平、李明发)近日,石家庄市栾城区妇联联合妆颜美化妆培训学校,精心举办了一场干货满满的美妆技能培训活动
2026-02-15 19:16:00
英科医疗开年首展登录迪拜WHX展会,“中国智造”医疗解决方案亮相全球市场
2月9日至12日,全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会(World Health Expo Dubai)
2026-02-15 13:50:00