• 我的订阅
  • 科技

智源研究院发布FlagEval“百模”评测结果

类别:科技 发布时间:2024-12-20 11:22:00 来源:中国经济网

智源研究院发布FlagEval“百模”评测结果

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-20 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解
2024-05-17 17:26:00
全球几十种大模型评测,如何甄别可信度?
...中使用这些数据,从而让模型对测试内容有所准备,导致评测结果不能真实反映模型的能力。更有甚者会针对特定评测数据集进行过度拟合,使得模型在这个特定的数据集上表现得非常好,但在实际
2024-12-23 13:44:00
...度和广度。此外,缺乏统一的评测标准,也让不同机构的评测结果缺乏可比性。林咏华在谈及这一问题时表示,“评测体系的开放性和科学性是关键,要实现统一标准,仍需克服多方利益博弈的障碍
2024-12-26 21:56:00
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...情况,并启动了AI安全守护计划,发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底,经过半年运营,现有治理组、安全组两个工作组,近百家单位加入,主任
2024-07-25 09:26:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的
2024-03-04 10:23:00
大模型权威报告:讯飞星火得分第一
...、物理、医学5个二级分类,题型上以单选和简答为主。评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下80%的二级分类评测中得分率为第一,化学与生
2023-08-18 09:35:00
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...达到国家相关标准。该测试由工信部中国电子技术标准化研究院发起,从大模型的通用性、智能性、安全性等多个维度开展,涵盖语言、语音、视觉等多模态领域,旨在建立大模型标准符合性名录,
2023-12-26 14:16:00
国内首个官方“大模型标准符合性评测”公布
...介绍,“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见
2023-12-23 15:09:00
国家大模型标准测试结果公布 首批仅四家企业产品通过
...业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度模型评测框架与指标体系,从大模型的通用性、智能性、安全性等维度开
2023-12-23 15:02:00
更多关于科技的资讯:
魔搭社区开源发展委员会正式成立,加速建设中立、专业、可持续的AI开源生态
3月22日,智汇金陵 · AI开源人才峰会暨魔搭开发者大会在南京举办。从去年6月30日至今,魔搭社区用户数从1600万增长至2500万
2026-03-22 12:08:00
聚势启新程|固驰亚太区运营中心正式揭幕
2026年1月30日,"啟天元,致千里——美国RTC暨固驰品牌亚太中心新址揭幕仪式"在南京圆满举行。品牌高层、核心合作伙伴
2026-03-22 12:31:00
泰诺携手安岚、淘宝闪购开启3·21世界睡眠日“好眠之月”,多方聚力守护健康睡眠
3月18日,科赴旗下品牌泰诺联合度假酒店品牌安岚、淘宝闪购,于千岛湖安岚酒店举办“祝你一夜好眠”发布会。3·21世界睡眠日之际
2026-03-22 12:31:00
菲诺定义咖啡水新赛道,开创日常咖啡水全新品类
中国即饮咖啡市场迎来里程碑式创新。3月21日,菲诺正式推出咖啡水饮料——菲诺咖啡水,以全新产品形态打破行业同质化僵局,率先开辟“日常饮用咖啡水”这一全新品类
2026-03-22 12:32:00
梦百合正式发布智能床新品AI-Smart3.0,并宣布全线智能床标配AI睡眠监测
3月20日,梦百合在抖音平台召开了“「别睡硬床」正确睡眠观第2期暨梦百合0压智能床AI-Smart3.0发布会”,延续多年来倡导的“别睡硬床”健康睡眠观念
2026-03-22 12:32:00
科技赋能女性健康守护|“321轻松健康·粉红三叶草”项目正式启动
3月21日,轻松健康联合跃行Women’s Health共同启动“321轻松健康·粉红三叶草”女性健康项目,以“传递粉红三叶草 轻松健康”为主题
2026-03-22 12:33:00
八年深耕 匠心同行 傲尼迪与中国女性共筑健康美丽新图景
2026年3月18日,北京傲尼迪科技有限公司迎来成立八周年。八年来,品牌立足中国大陆市场,以“让世界因我而美丽”为初心
2026-03-22 12:33:00
京东健康举办鼻健康生态行业大会 联合多方共建数字化慢病管理新范式
3月20日,京东健康邀请临床医学专家、鼻健康领域医药企业共同举办“智护鼻安,数链共生——2026京东健康鼻健康生态行业大会”
2026-03-22 12:36:00
厦门网讯(厦门日报记者 林岑)3月20日,“早筛早诊?智护脑健康” 国家脑健康项目社区筛查成果和精准技术分享会在海沧举行
2026-03-22 08:34:00
厦门网讯(厦门日报记者 李晓平)日前,厦企科华数据与光量子计算领军企业图灵量子达成战略合作,双方将聚焦“量子-经典”混合算力研发与产业化
2026-03-22 08:34:00
厦门网讯(厦门日报记者 林露虹 实习生 陈慧)近日,厦门建发人工智能创业投资合伙企业(有限合伙)(以下简称“建发AI基金”)顺利通过中国证券投资基金业协会备案
2026-03-22 08:34:00
近日,苹果CEO蒂姆·库克在Apple 2026 Game Showcase与雷鸟创新围绕空间计算专题交流,引发市场对智能眼镜和下一代终端形态的关注
2026-03-22 10:45:00
“智慧专家”守护化工企业安全生产——垂直大模型赋能产业高质量发展(二)硫酸装车平台有两个鹤位,但司机们多在一个鹤位排队
2026-03-22 08:05:00
石家庄鹿泉区电子信息产业从单打独斗向协同创新转变全链条共享,千亿集群加速崛起“这批元器件急着用,需尽快检测。”“马上安排
2026-03-22 07:56:00
杭州日报讯 三月香江,春潮涌动。3月17日至20日,第30届香港国际影视展圆满举行。作为亚洲领先影视娱乐内容的交易平台
2026-03-22 07:22:00