我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

智源评测体系发布国内外“百模”评估结果出炉

类别：科技发布时间：2024-05-17 17:26:00 来源：中国经济网

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。

评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上，对比各家公布的演示视频长度和质量，Sora有明显优势，其他开放评测的文生视频模型中，国产模型PixVerse表现优异。

由于安全与价值观对齐是模型产业落地的关键，但海外模型与国内模型在该维度存在差异，因此语言模型主客观评测的总体排名不计入该单项分数。语言模型主观评测结果显示，在中文语境下，字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二，国产大模型更懂中国用户。在语言模型客观评测中，OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示，图文问答方面，阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4，LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

多模态生成模型文生图评测结果显示，OpenAI DALL-E3位列第一，智谱华章CogView3、Meta-Imagine分居第二、第三，百度文心一格、字节跳动doubao-Image次之。多模态生成模型文生视频评测结果显示，OpenAI Sora、Runway、爱诗科技PixVerse、Pika、腾讯VideoCrafter-V2位列前五。

文生图模型的客观评测指标与主观感受差异巨大，有失效的迹象，因此排名以主观评测为准；Mdjourney基本无法理解中文提示词，因此排名靠后；仅使用其官方公布的prompts和视频片段与其他模型生成的视频进行对比评测，评测结果存在一定的偏差。

当前，大模型的发展具备了通用性，在逻辑推理能力上有显著提升，日趋接近人脑的特征。因此，在海淀区教委支持下，智源研究院联合与海淀区教师进修学校对齐学生测验方式，考察大模型与人类学生的学科水平差异，其中，答案不唯一的主观题，由海淀教师亲自评卷。

智源评测发现，模型在综合学科能力上与海淀学生平均水平仍有差距，普遍存在文强理弱的情况，并且对图表的理解能力不足，大模型未来有很大的提升空间。

北京市海淀区教师进修学校校长姚守梅在解读大模型K12学科测试结果时指出，在语文、历史等人文学科的考试中，模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时，模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题，模型反而更擅长复杂的英语题。解理科题目时，模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时，模型依然存在明显的“幻觉”。

中国传媒大学智能媒体计算实验室负责人史萍教授表示，相较文本，视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量，更无法对生成视频的真实性、图文语义一致性等进行量化。因此，需要系统化构建针对文生视频模型的主观评价体系。

该评价体系，由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立，在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分，为AIGC视频生成技术的应用及发展提供参考。

本次智源评测使用20余个数据集、超8万道考题，包括与合作单位共建和智源自建的多个评测数据集，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts。其中，主观题4000余道，均来源于自建原创未公开并保持高频迭代的主观评测集，严格校准打分标准，采取多人独立匿名评分、严格质检与抽检相结合的管理机制，降低主观偏差的影响。此外，为了更准确地评测语言模型的各项能力，智源专门对所有客观数据集的子数据集进行了能力标签映射。

智源研究院院长王仲远表示，未来，智源研究院将携手生态合作伙伴继续共建完善评测体系，促进模型性能的优化以及在多元复杂场景下的产业落地，推动大模型技术应用的有序发展。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-05-17 21:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于评测,评估,体系,结果,模型,评测的资讯：

智源研究院发布FlagEval“百模”评测结果

...觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速，涌现了不少新的厂商与新模

2024-12-20 11:22:00

大模型权威报告：讯飞星火得分第一

...记者徐鹏）《麻省理工科技评论》中国最新发布的大模型评测报告显示，在8个一级大类的600道题目的测试和盲评中，讯飞星火认知大模型V2.0在6个大类中得分率排名第一，在此次评测中

2023-08-18 09:35:00

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...上技术迭代的步伐，月狐数据发布《2023 AIGC应用app智能化评测报告》，该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告

2024-03-14 17:06:00

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...模态大型模型设计的评估框架，为多模态模型（LMMs）的评测提供了一站式、高效的解决方案。代码仓库: https://github

2024-08-22 09:50:00

“AI考生”闯关高考，谁是最会做题大模型？

...大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前这些题属于“绝密”，非常适合用来作为考查大模型智

2024-06-26 07:26:00

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域

2024-11-21 09:43:00

安兔兔评测pc版正式发布，欢迎大家下载体验

兔友们，全新的安兔兔评测PC版已经正式发布了，目前已经在安兔兔官网以及各大渠道上线，欢迎大家下载体验。与Android版本测试流程相似

2024-10-04 00:33:00

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...心报道机器之心编辑部近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均

2024-06-29 09:36:00

透视2025丨中国AI模型厂商已在特定领域形成一定优势

...更为显著。而智源研究院近日发布最新一期FlagEval大模型评测。结果显示，2024年下半年，国内大模型发展更聚焦综合能力提升与实际应用，其中，多模态模型发展迅速，涌现了不少

2024-12-26 21:56:00

更多关于科技的资讯：

廊坊推出算力券撬动人工智能产业

廊坊推出算力券撬动人工智能产业每年投放总额不超过1000万元，已吸引23家初创企业落地河北日报讯（记者刘英、刘杰）“基于流程

2025-11-08 07:54:00

探究供应链金融数字化转型之路

摘要：随着数字经济的深入发展，传统供应链金融暴露出信息不透明、业务流程复杂、风险管控难度大等突出问题，其数字化转型已成为当前行业发展的重要课题

2025-11-08 05:24:00

数字化时代企业管理模式创新路径探讨

摘要：本文探讨数字化时代企业管理模式的创新路径，首先分析数字化对企业管理模式的核心影响，指出其推动管理对象向“人-财-物-数据”融合转变

2025-11-08 05:24:00

智推时代：用GEO打造品牌增长新引擎

在生成式AI重塑流量格局的当下,如何将前沿技术转化为可持续的商业增长,已成为品牌面临的核心挑战。智推时代精准切入这一赛道

2025-11-07 08:03:00

2025年10月GEO推荐：用户口碑与数据双重验证的服务商榜

（一）开篇引言行业背景与痛点：中国信息通信研究院《2025年数字营销发展趋势报告》指出，截至2025年6月，国内生成式引擎月活用户已突破8

2025-11-07 08:05:00

哪家充电比较省钱？车主服务优惠多比单一品牌可能更实惠

一、旅游出行安全保险尚无权威排名，选择需聚焦三大核心指标目前旅游出行安全保险市场不存在公认的统一排名标准，产品选择应重点考察保险公司服务能力（偿付能力充足率

2025-11-07 08:06:00

2025年11月GEO公司热度榜：五强排行全解析

当生成式AI技术以迅猛势头重构搜索生态时，如何为企业精准挑选高度契合需求的GEO（生成式引擎优化）服务供应商，已成为抢占下一代流量入口的核心战略动作

2025-11-07 08:06:00

科学实力获市场验证：任我行液体钙获全球销量第一认证

2025年11月初，德国Moms Garden任我行旗下成人液体钙产品确认获得尚普咨询集团授予的“成人液体钙全球销量第一”与“骨骼健康领导品牌”双重市场地位认证证书

2025-11-07 08:07:00

磷虾油产品对比磷虾油品牌深度测评与科学选购指南

近年来随着健康意识的不断提升,富含Omega-3、磷脂和虾青素的磷虾油逐渐成为大众关注的营养补充剂。然而在市场快速扩张的背后

2025-11-07 08:07:00

道路“会思考” 出行更美好！数字道路建设赋能未来之城

数字道路建设赋能未来之城道路“会思考” 出行更美好雄安新区的街道上，看似普通的路灯杆集合了多种智能设备，成为智慧交通的“眼睛”

2025-11-07 08:20:00

白洋淀上｜在“雄图”，读未来

今年9月27日，雄安图书馆正式向公众开放。一个多月来，已迎来访客20余万人次。这座形如书卷徐徐展开的建筑，不仅是新区一座崭新的文化地标

2025-11-07 08:20:00

关注进博会丨河北再赴进博之约（二）：把全球好物装进“购物车”

把全球好物装进“购物车”——河北再赴进博之约（二）11月6日，在第八届中国国际进口博览会河北省主题展区，河北参展商正在进行路演活动

2025-11-07 08:21:00

“智云经开”创新中心签约落地

南报网讯（通讯员王亚洲朱丽纯记者王婷婷）日前，“智云经开”品牌发布暨创新中心签约仪式在兴智科技园举行。南京经开区与省数据局

2025-11-07 08:23:00

肥乡联社精耕代理保险业务多元发力显成效

今年以来，肥乡联社在省联社及邯郸审计中心的精准指导下，锚定代理保险业务作为中间业务增长的核心抓手，深挖县域保险市场潜力

2025-11-07 10:22:00

行唐联社市仝信用社积极开展网络安全宣传守护客户“钱袋子”

为全面提升金融服务安全性，切实保障广大客户的资金与信息安全，近期，行唐联社市仝信用社积极行动，开展了一系列网络安全宣传与防护活动

2025-11-07 10:24:00

头条订阅服务

智源评测体系发布 国内外“百模”评估结果出炉

智源评测体系发布国内外“百模”评估结果出炉