• 我的订阅
  • 科技

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

类别:科技 发布时间:2024-04-22 09:46:00 来源:每日看点快看

本文转自:新华网

最近,由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

例如在人类对齐能力评测中,文心一言4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心一言遥遥领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上,国内模型文心一言4.0表现亮眼,拿下最高分(89.1分),Claude-3仅列第四。

清华发布2024年3月版《SuperBench大模型综合能力评测报告》

自去年3月16日文心一言首发至今,用户数已突破2亿,每天API调用量也突破了2亿。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-22 12:45:29

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“整活”保险业务,AI大模型哪家强?
...险行业?10月10日发布的《人工智能大模型保险行业应用评测报告》(以下简称《报告》)便揭晓了答案。根据《报告》,10个主流大模型在知识问答领域表现普遍较好,在智能核保、智能理
2023-10-10 17:56:00
大模型权威报告:讯飞星火得分第一
...记者徐鹏)《麻省理工科技评论》中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中
2023-08-18 09:35:00
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告
2024-03-14 17:06:00
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
...新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(以下简称“报告”)显示,当前中国大模型产品进步显著,360智脑、智谱ChatGLM等表现抢眼。其中36
2023-08-14 11:35:00
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...机遇共存交织的当下,这一领域泰斗 中国工程院院士、清华大学计算机科学与技术系郑纬民,在 MEET2023智能未来大会上
2023-01-11 05:00:00
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)
2024-04-10 20:16:00
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...新能源汽车、半导体等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括
2024-03-21 16:15:00
...布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维度,其中PureblueAI 清蓝在多维度中表现突出,成为评测中的标杆案例:技术实力
2025-10-24 10:43:00
...报记者 赵广立2024年全国高考的“硝烟”刚刚散去,“大模型考生”就被抓回来重新“做题”了。市面上涌现出的大模型产品让人眼花缭乱,围绕“大模型技术哪家强”的讨论不绝于耳,各色
2024-06-26 07:26:00
更多关于科技的资讯:
“十五五”开局看河北|玉锋集团把玉米价值链越拉越长
从一粒粮到38种产品玉锋集团把玉米价值链越拉越长1月16日,宁晋县玉锋实业集团有限公司员工在生产车间巡检。 河北日报记者 赵永辉摄从2026年第一天起
2026-01-23 08:12:00
近日,海亮科服引爆关注——来自海亮致远书院的徐同学、寿同学双双重磅斩获牛津大学录取通知书!当大多数家庭还在高中才仓促启动升学规划
2026-01-23 10:02:00
《创投新势力》即将开播!一起见证中国科技创新的澎湃力量
鲁网1月23日讯从广州云宏信息在国产服务器虚拟化领域的技术攻坚,到主线科技实现自动驾驶物流系统的规模化落地;从智慧能源企业的清洁技术革新
2026-01-23 10:13:00
厦门游戏产业规模超百亿元 聚集近200家游戏企业
全市聚集近200家游戏企业厦门游戏产业规模超百亿元2025金海豚动漫游戏嘉年华在厦开幕。(记者 沈威/图)东南网1月22日讯(海峡导报记者黄奕琳)日前
2026-01-23 10:16:00
在黄金珠宝行业消费端承压、部分品牌闭店收缩的背景下,潮宏基实业股份有限公司交出了一份亮眼的年度成绩单。公司最新披露的2025年度业绩预告显示
2026-01-23 10:19:00
出门订酒店、选咖啡机、挑电动牙刷,当生成式人工智能从实验室走向日常生活,“问问AI”正取代“搜索一下”成为新的决策习惯
2026-01-23 12:14:00
国家明令禁售的育发、除臭等五类原特殊用途化妆品,在过渡期结束后,其生产与销售本应在法律层面画上句号。然而,媒体调查却揭示了一幅截然不同的图景
2026-01-23 12:14:00
从吉林智造,到全球领先!金赛药业做中国创新药攀登者
冬日寒风凛冽,却挡不住生物医药领域涌动的创新热潮。在吉林省这片产业沃土上,长春金赛药业有限责任公司(以下简称金赛药业)茁壮成长
2026-01-23 13:23:00
以人才战略为核心,持续夯实组织能力与长期发展基础,开启三十周年后的新起点[2026.1.23] 上海 ——ADM 中国宣布
2026-01-23 13:35:00
新浪新闻斩获TBI杰出品牌创新奖金奖,脱口秀梗式营销引爆传播
近日,TBI杰出品牌创新奖正式揭晓。新浪新闻为美的品牌量身打造的“美美生活奇妙夜暨美的全球美粉盛典”凭借梗式营销与情感赋能的创新融合
2026-01-23 13:37:00
星河聚北邮,AI赋气象 :NovaClub星河俱乐部北邮专场的思想碰撞与技术探索
当AI的创新算法遇上气象预报的精准需求,一场聚焦 “AI + 气象” 的深度对话在校园里焕发光彩。近日,上海科学智能研究院(下称上智院)主办的NovaClub星河俱乐部走进北京邮电大学(下称北邮)
2026-01-23 13:05:00
千亿市场规模下,AI医疗如何以生态化转型破解资源不均痛点
当OpenAI、蚂蚁集团等中外巨头纷纷躬身入局,当十年43.1%的复合增长率勾勒出千亿赛道蓝图,AI医疗正迎来百川智能创始人兼CEO王小川口中的“爆发时刻”
2026-01-23 11:20:00
新年“智”有安排!苏宁易购AI家电抢占年货C位
鲁网1月23日讯春节临近,年味渐浓,家家户户都在忙着置办年货,越来越多年轻人成为“过年主理人”,为家电市场注入智能与潮流的新动能
2026-01-23 11:19:00
近日,商务部等九部门发布《关于实施绿色消费推进行动的通知》(下称《通知》),提出将消费品以旧换新作为推动绿色消费的重要抓手
2026-01-22 23:19:00