• 我的订阅
  • 科技

智源研究院发布FlagEval“百模”评测结果

类别:科技 发布时间:2024-12-20 11:22:00 来源:中国经济网

智源研究院发布FlagEval“百模”评测结果

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-20 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
全球几十种大模型评测,如何甄别可信度?
...中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际
2024-12-23 13:44:00
...度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍
2024-12-26 21:56:00
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任
2024-07-25 09:26:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的
2024-03-04 10:23:00
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生
2023-08-18 09:35:00
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...达到国家相关标准。该测试由工信部中国电子技术标准化研究院发起,从大模型的通用性、智能性、安全性等多个维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,
2023-12-26 14:16:00
国内首个官方“大模型标准符合性评测”公布
...介绍,“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见
2023-12-23 15:09:00
国家大模型标准测试结果公布 首批仅四家企业产品通过
...业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开
2023-12-23 15:02:00
更多关于科技的资讯:
萍乡港华口腔医院院长林川博荣获BITC口腔种植大奖赛优胜奖
江西手机报萍乡讯(刘芳)8月2日,萍乡港华口腔医院院长林川博凭借在组织增量领域的出色表现,成功斩获北京BITC口腔种植大奖赛优胜奖
2025-08-04 15:31:00
8月1日,一家名为“三五而栗”的店铺正式开业,这家宣称“只招35+员工”的企业在引发社会广泛关注后,最终承诺未来保持35岁以上员工比例不低于70%
2025-08-04 11:19:00
据海关总署初步测算,上半年,中国跨境电商进出口约1.32万亿元,同比增长5.7%。其中,出口约1.03万亿元,同比增长4
2025-08-04 11:25:00
当前,新一轮科技革命方兴未艾,通用人工智能、新能源、大数据等前沿技术正深刻改变着工业生产全流程,为各领域、各产业探索新场景
2025-08-04 11:45:00
产业链上的山东好品牌 | 阳信县:小县城崛起针状焦产业“大巨人”
大众网记者 黄新宇 通讯员 陈瑞 朱超峰 滨州报道在山东北部,一座曾以农业为主的县城——阳信县,正以“针尖”之力撬动全国炭素新材料市场
2025-08-04 11:52:00
aigo爱国者精彩亮相2025政法展,以科技赋能推动智慧法治新进程
2025年7月25日,为期两天的2025政法智能化建设技术装备及成果展在北京国家会议中心圆满落幕。作为政法领域极具影响力的年度专业盛会
2025-08-04 11:57:00
大众网记者 郑健 潍坊报道在新科技革命迅猛发展、创新浪潮不断涌现的今天,企业想要求生存、求发展,唯有突破技术壁垒与专利封锁
2025-08-04 12:38:00
权威专家团免费在线问诊,“未来医生”正式上线
2025年8月2日,医联集团正式推出 “未来医生”权威专家在线问诊免费医疗服务。让专家问诊,从“难约”到“免费”在“未来医生”
2025-08-04 13:02:00
喜茶携手大热IP《CHIIKAWA》,带来夏日限定治愈体验
近日,喜茶官宣了与大热IP《CHIIKAWA》的联名合作,引发广泛关注。这是喜茶2025年来首个联动项目,也是近年来走红的《CHIIKAWA》的首个中国大陆茶饮品牌合作
2025-08-04 13:03:00
今年盛夏,全国高温持续,多地气温屡破历史极值,空调市场销售火爆。据权威机构GfK中怡康监测数据显示,空调行业线上销售额同比飙升50%
2025-08-04 13:31:00
大学生机器人大赛上演“比舞”大会 前八名将登陆“冰丝带”参加世界人形机器人运动会外围赛
机器人盛装出场 摄影/本报记者 宋霞近日,2025年华北五省(市、自治区)大学生机器人大赛舞蹈专项赛在北京信息科技大学举行
2025-08-04 13:58:00
搜狐Q2总收入1.26亿美元 净亏损同比收窄超40%
2025年8月4日,搜狐公司公布2025年第二季度财务报告。搜狐第二季度总收入为1.26亿美元,净亏损净亏损同比收窄超40%
2025-08-04 13:58:00
在2025年的按摩椅推荐榜单中,艾力斯特凭借其创新科技和卓越体验,稳居按摩椅品牌排名前列。今天,我们重点推荐三款艾力斯特旗舰机型——M6超凡大师
2025-08-04 13:02:00
大辰学员上岸分享,从失业焦虑到低空行业新星,95后女孩的3个月破局之路
01 | 失业回老家,刷到“人生转折点”2023年12月,dangdang拖着行李箱回到老家。此前,她在北京某互联网公司做前端开发
2025-08-04 13:02:00
今夏遛娃天花板!奈尔宝x抖音心动大牌日打造沉浸式\
暑期遛娃何处去?奈尔宝打破“游乐场”刻板印象,用互动带教课堂+职业角色扮演解锁成长新体验!借势抖音“心动大牌日”,打造线上线下联动的玩+学盛宴
2025-08-04 13:02:00