• 我的订阅
  • 科技

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

类别:科技 发布时间:2024-04-22 09:46:00 来源:每日看点快看

本文转自:新华网

最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

例如在人类对齐能力评测中,文心一言4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心一言遥遥领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上,国内模型文心一言4.0表现亮眼,拿下最高分(89.1分),Claude-3仅列第四。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突破了2亿。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-22 12:45:29

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“整活”保险业务,AI大模型哪家强?
...险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理
2023-10-10 17:56:00
大模型权威报告:讯飞星火得分第一
...记者徐鹏)《麻省理工科技评论》中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中
2023-08-18 09:35:00
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告
2024-03-14 17:06:00
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
...新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(以下简称“报告”)显示,当前中国大模型产品进步显著,360智脑、智谱ChatGLM等表现抢眼。其中36
2023-08-14 11:35:00
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...机遇共存交织的当下,这一领域泰斗 中国工程院院士、清华大学计算机科学与技术系郑纬民,在 MEET2023智能未来大会上
2023-01-11 05:00:00
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)
2024-04-10 20:16:00
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...新能源汽车、半导体等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括
2024-03-21 16:15:00
...布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维度,其中PureblueAI 清蓝在多维度中表现突出,成为评测中的标杆案例:技术实力
2025-10-24 10:43:00
...报记者 赵广立2024年全国高考的“硝烟”刚刚散去,“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色
2024-06-26 07:26:00
更多关于科技的资讯:
其实这种长时间中转的航线行程并不是最近才出现的,只不过当下的年轻人更擅长另辟蹊径,在不按照常理出牌中发现新的惊喜,找到了更贴合自身需求的“思路打开”新玩法
2025-12-31 14:08:00
全省首个媒体机器人员工在福州日报社正式上岗
全省首个媒体机器人员工正式上岗福州日报社智能化转型再迈新步福州新闻网12月31日讯(记者 赖志昌/文 陈暖/摄)12月31日
2025-12-31 11:51:00
现场探秘:让信任被看见,统一老坛如何以内容共创开启透明新叙事
摘要:统一老坛在抖音打开探厂新玩法,用内容让信任生长随着健康意识提升,消费者对于安全、真实、可验证的需求前所未有地强烈
2025-12-31 11:57:00
9月19日,以“科技向善·价值共生——ESG赋能企业高质量发展”为主题的2025华夏ESG管理体系大会(下称“大会”)在北京召开
2025-12-31 11:59:00
中新经纬12月31日电 “汇川技术INOVANCE”公众号31日发布汇川技术董事长朱兴明2026新年致辞。朱兴明表示,2025年
2025-12-31 12:27:00
12月24日,2025中国民营经济与上市公司发展大会在福建晋江举办。在大会“创新驱动民营经济高质量发展论坛”上,由新华网联合国声智库
2025-12-31 12:32:00
黑灰产攻击?平台必须出手遏制丨e法新声
编者按:数字生活的边界不断延伸,网络安全的防线亦需与时俱进。2026年1月1日,新修订的《中华人民共和国网络安全法》将正式施行
2025-12-31 13:50:00
【宅男财经|专家面对面】2026年“国补”政策来了。国家发展改革委、财政部印发的《关于2026年实施大规模设备更新和消费品以旧换新政策的通知》30日对外发布
2025-12-31 13:52:00
12月30日,国家发展改革委、财政部印发的《关于2026年实施大规模设备更新和消费品以旧换新政策的通知》(以下简称通知)对外发布
2025-12-31 12:03:00
12月,王力宏成都演唱会上,六台银色机器人伴随音乐节拍整齐划一地挥臂、踢腿、转身,然后在歌曲高潮段落完成一组高难度空翻
2025-12-31 08:08:00
今年以来,邮储银行济南市分行紧紧围绕小微企业和实体经济发展需求,以金融服务精准赋能区域市场主体,通过“产品攻坚+服务深耕”双轮驱动模式
2025-12-31 08:20:00
好哒与尚米店双强联动 数字化服务赋能实体经营新发展
2025年12月17日,深耕商户服务的标杆平台好哒与专注零售餐饮数字化领域的尚米店军师正式达成深度战略合作。此次双方强强联合
2025-12-31 08:22:00
2025 中国科技创新观察:引领全球、赋能产业、普惠民生
即将结束的2025年,无疑是“中国创造”引爆全球的里程碑。伴舞机器人的爆火并不是孤例。这一年,中国的科技创新不再局限于“卡脖子” 技术的单点突破
2025-12-31 08:26:00
浙江日报杭州12月30日讯 (记者 谢丹颖) 记者30日从天目山实验室获悉,实验室研制的600公斤级智能重载无人直升机日前首飞成功
2025-12-31 09:09:00
河南“智”造,“味”你而来丨了不起的河南智造②
【编者按】当厚重中原遇上智慧创新,会擦出怎样的火花?黄河之畔,钢铁与芯片共舞,机械臂与大数据齐鸣,一场“智造交响曲 ”正在上演
2025-12-31 09:14:00