• 我的订阅
  • 科技

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

类别:科技 发布时间:2024-04-22 09:46:00 来源:每日看点快看

本文转自:新华网

最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

例如在人类对齐能力评测中,文心一言4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心一言遥遥领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上,国内模型文心一言4.0表现亮眼,拿下最高分(89.1分),Claude-3仅列第四。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突破了2亿。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-22 12:45:29

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“整活”保险业务,AI大模型哪家强?
...险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理
2023-10-10 17:56:00
大模型权威报告:讯飞星火得分第一
...记者徐鹏)《麻省理工科技评论》中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中
2023-08-18 09:35:00
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告
2024-03-14 17:06:00
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
...新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(以下简称“报告”)显示,当前中国大模型产品进步显著,360智脑、智谱ChatGLM等表现抢眼。其中36
2023-08-14 11:35:00
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...机遇共存交织的当下,这一领域泰斗 中国工程院院士、清华大学计算机科学与技术系郑纬民,在 MEET2023智能未来大会上
2023-01-11 05:00:00
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)
2024-04-10 20:16:00
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...新能源汽车、半导体等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括
2024-03-21 16:15:00
...布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维度,其中PureblueAI 清蓝在多维度中表现突出,成为评测中的标杆案例:技术实力
2025-10-24 10:43:00
...报记者 赵广立2024年全国高考的“硝烟”刚刚散去,“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色
2024-06-26 07:26:00
更多关于科技的资讯:
主人尚未开口,家已知道他要归来?这不是魔法,是海尔在AWE 2026呈现的“空间智能”。从离家一键备车到归途远程控家,从孩子社区动态到漏水自动报警
2026-03-15 23:14:00
市场监管总局:去年消费者投诉举报呈现十大特点
中国网3月16日讯 据市说新语微信公众号消息,2025年,全国市场监管部门通过全国12315平台、电话等渠道共受理消费者投诉
2026-03-16 00:59:00
为期三天的“浙里买全球·消费启杭”活动汇聚了来自全球各地的特色商品,活动会为消费者带来怎样的全新体验?走进展区,仿佛开启了一场环球之旅
2026-03-15 20:52:00
全国两会结束后的第一个周末,金华迎来了一群特殊的客人。据《金华日报》报道,3月14日,商务部党组书记、部长王文涛率队来我市调研对外贸易
2026-03-15 20:52:00
中新经纬3月15日电 “中国互联网金融协会”公众号15日发布关于OpenClaw在互联网金融行业应用安全的风险提示。近期
2026-03-15 21:30:00
在AWE2026海尔展区,五大套系呈现了智能家电的不同探索路径:Seeker套系以L4级AI智能体实现主动感知,小红花套系面向年轻群体聚焦极简交互
2026-03-15 18:40:00
3月9日至10日,滦州农商银行举办业务拓展与营销技能提升专题培训。本次培训采取“理论授课+实战走访”模式,机关部室负责人
2026-03-15 18:45:00
今年以来,肥乡联社将线上贷款营销作为零售贷款增户扩面、信贷结构调整优化的切入点,强化督导考核,加强营销培训,丰富信贷产品
2026-03-15 18:54:00
小叶医探 | 手术机器人“学院派”来了!安医大医用机器人产业学院正式启航
大皖新闻讯 3月15日,一所由政府、高校、行业、企业四方协同共建的创新型学院——医用机器人产业学院,在安徽医科大学正式揭牌启航
2026-03-15 19:18:00
“沧州造”高性能膜开年斩获千万元海外订单
2026-03-15 18:47:00
长白时评评论员 刘颂寒又是一年春草绿,又是一年“3·15”时。每年的 ‌“3·15晚会”‌,必然是不少商家坐立难安的时刻
2026-03-15 08:16:00
近日,从山西转型综改示范区传来好消息,山西中电科电子装备有限公司市场开拓捷报频传,碳化硅涂层设备、纯化设备、铜铸锭炉等订单接连落地
2026-03-15 07:11:00
14日,“金华·金漪湖”2026人工智能产业融合发展大会在金义新区举行。今年全国两会上,政府工作报告提出“打造智能经济新形态”
2026-03-15 07:41:00
杭州创新力量表现抢眼杭州日报讯 3月12日,国家服务贸易创新发展引导基金二期的首场项目路演会在杭州举行。22个来自数字贸易
2026-03-15 07:42:00