• 我的订阅
  • 科技

智源研究院发布FlagEval“百模”评测结果

类别:科技 发布时间:2024-12-20 11:22:00 来源:中国经济网

智源研究院发布FlagEval“百模”评测结果

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-20 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
全球几十种大模型评测,如何甄别可信度?
...中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际
2024-12-23 13:44:00
...度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍
2024-12-26 21:56:00
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任
2024-07-25 09:26:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的
2024-03-04 10:23:00
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生
2023-08-18 09:35:00
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...达到国家相关标准。该测试由工信部中国电子技术标准化研究院发起,从大模型的通用性、智能性、安全性等多个维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,
2023-12-26 14:16:00
国内首个官方“大模型标准符合性评测”公布
...介绍,“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见
2023-12-23 15:09:00
国家大模型标准测试结果公布 首批仅四家企业产品通过
...业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开
2023-12-23 15:02:00
更多关于科技的资讯:
今年以来,肥乡联社将线上贷款营销作为零售信贷破局增长、优化信贷业务格局的关键举措,通过多维度发力,不断提升线上贷款办理效率与客户体验
2025-09-09 16:56:00
鲁网9月9日讯为深入贯彻落实市委、市政府提振消费决策部署,邮储银行滨州市分行主动对接“购在中国・精品购物齐鲁汇暨滨州活力之夏消费季”活动
2025-09-09 16:57:00
锁定10月北京 首个U宠生活方式展UPET内容大餐已就位
金秋十月,不可错过的宠物行业新概念展——Upet有宠生活展 北京首个城区宠展充满创新基因的Upet有宠生活展,将于10月24-26日
2025-09-09 11:38:00
智能制造重塑生产模式——辛集省级先进智能工厂一线观察
近日,河北省工业和信息化厅公布2025年第一批先进级智能工厂名单,辛集市澳森特钢集团有限公司、河北申科电子股份有限公司
2025-09-09 11:38:00
中国AI云市场报告:阿里云占比35.8%,高于2到4名的总和
9月9日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告,报告显示,2025年上半年,中国AI云市场规模达223亿元
2025-09-09 11:45:00
京东户外出游季正式开启 携手迪卡侬、牧高笛等带来大牌爆品不止5折
金秋时节天朗气清,正是奔赴户外探索自然的好时机。9月8日起,京东户外装备出游季正式开启,携手迪卡侬、喜德盛、牧高笛、挪客
2025-09-09 11:49:00
【宅男财经|专家面对面】9月8日,媒体获悉,小米公司发布内部公告称,中国区市场部员工王腾,泄露公司机密信息,且存在利益冲突等严重违规违纪行为
2025-09-09 12:13:00
8月12日,位于宁晋县的河北童泰电子商务有限公司内,各式各样的儿童服装整齐摆放,款式新颖,直播间的工作人员正对着镜头推介婴幼儿连体衣和包臀衣
2025-09-09 12:23:00
鲁网9月9日讯水流悄无声息地通过测量管道,水表内的换能器就能精准地发射、接收超声波信号,并对接收到的数据进行智能处理和分析
2025-09-09 13:18:00
一台绘蜡机 绘出蜡染新风采
9月5日,走进位于凯里市民族文化创意产业园的初色东方(贵州)品牌运营管理有限公司,凯里市蜡染传承人靳秀丽正在操作绘蜡设备
2025-09-09 13:24:00
2025亚太机器人世界杯青岛国际邀请赛在青举行
齐鲁晚报·齐鲁壹点 徐润杰 杨雪 通讯员 杨治峰9月6日至9日,作为2025海洋合作发展论坛的同期活动,2025亚太机器人世界杯青岛国际邀请赛在青岛西海岸新区举行
2025-09-09 09:37:00
电网运行风险防御技术与装备全国重点实验室:他们在!大停电多年未遇,“网”自岿然不动编者按科技改变世界,而位于各大高校院所
2025-09-09 07:43:00
由十几人紧盯变一两人巡检,5G+智能产线“显神通”一根头发丝的1/7!滑块南京造,精度航天级□南京日报/紫金山新闻记者黄琳燕走进南京工艺装备制造股份有限公司(以下简称“南京工艺”)的“5G+智能滑块生产线”车间
2025-09-09 07:43:00
尚诗颖 南昌市新建区象山初级中学摘要:人工智能为中学生外语教育领域引入了新的变革与视角,着重关注学生个性化学习需求及自主学习能力的培养
2025-09-09 06:59:00
共创优质产品体验,从“MagicOS创享家”看荣耀的“听劝”哲学
摘要:以“听劝”的姿态持续进化,才是产品迭代的核心价值坐标。8月底,成都宽窄巷子又一次“出圈”了。年轻人能听Live现场
2025-09-08 08:19:00