• 我的订阅
  • 头条热搜
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。据介绍,本次评测以新课标Ⅰ卷为考题,与河南省考卷完全相同...……更多
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源时间早于高考,同时邀请有高考评卷经验的教师...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的方式制作智能体形象,同时支持用户通过...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
《科创板日报》5月31日讯(记者 朱凌)直至五月尾声,AI应用市场的火热态势依旧不减。30日,基于混元大模型的AI助手App“腾讯元宝”上线,标志着BAT终于在AI消费C端应用领域聚首。据介绍,自2023年9月首次亮相以来,腾讯混...……更多
中国移动5g手机综合评测结果公布
中国移动近日公布了2023年度5G手机综合评测结果,32款热门机型接受了从通信能力到用户口碑的全方位考核,小米和荣耀分别在高端和中端市场夺得冠军,展现了国产手机的强大实力。5G手机测评体系,用户体验为先中国移动的5...……更多
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首,更在五个子项目中荣获三个最高分。值得关注的是,华为Pura70Ultra此次的得分并非微小优势,而是以显著的5分差距,远超第二...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...护委员会了解到,陕西省2023年首届“三秦伴手礼”消费评测活动已于近日正式启动。据悉,本次消费评测活动最终结果将于2024年3月份发布。首届“三秦伴手礼”消费评测活动分为征集申报、初评筛选、网上评测、优选评测、宣...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
8天线覆盖150平米超大面积,锐捷X32 Pro评测
...网线,然后就是下载锐捷星耀APP,扫码绑定,登录设置,全都一目了然,可以说是0门槛。 我家的路由器摆放的位置是进门的位置,以我们家的户型来说,是比较居中的。唯一不好覆盖的地方就是阳台,因为要间隔两道门,所以...……更多
...年首次使用AI评卷辅助校验系统,对试卷主观题进行智能评测参考,对各学科评卷质量进行实时校验,及时发现评卷中可能出现的误差,进一步确保评卷公平公正。三是严格评卷场地管理。评卷期间,所有评卷老师和工作人员,...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。...……更多
2022-12-15 18:40新能源,评测
多家车企质疑懂车帝冬测,中汽协呼吁汽车评测应专业公正
...体而言,此次懂车帝冬测引发广泛质或将成为第三方汽车评测领域的转折点,众多网友纷纷呼吁尽快出台真正科学、专业、严谨、公正的测试标准,为行业发展和用户购车用车带来真正的价值。 ……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
新款妙控键盘比上代产品“更薄、更轻”
...那么新款妙控键盘比上代产品轻了多少?目前多篇iPadPro评测(包括JasonSnell和ChrisLawley的评测)结果显示,适用于13英寸的妙控键盘重量为667克。不过也有媒体测试得出了不同的结果,BrianTong的评测显示13英寸MagicKeyboard重662克,The...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
12月23日,国内首个官方“大模型标准符合性评测”结果公布,首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
小米14 Pro成4000元以上高端旗舰机型第一
...用户实际使用场景融入评测,全面评价5G手机质量。最后评测结果为:小米14Pro成为4000元以上高端旗舰阵营第一名。据了解,小米14Pro搭载全新小米龙晶玻璃,坚固耐磨;还配备徕卡三摄Summilux镜头和可变光圈主摄,具有超大光圈...……更多
Exynos 2400对决骁龙 8 Gen 3,三星 Galaxy S24 系列手机评测
IT之家 1 月 23 日消息,YouTube 频道 NL Tech 近日发布视频,评测了三款 Galaxy S24 系列手机的性能和续航,并通过主流跑分软件测试性能和续航。本次评测的 Galaxy S24 和 Galaxy S24+ 两款手机均采用三星自研的 Exynos 2400 芯片,而 G……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信;现在要获HPC领域的戈登贝尔奖,必须要有AI的算法,你没有AI的算法,否则奖都得不了。这是开玩笑的说法,但实际上也是一个趋势;AI for S...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
更多关于科技的资讯:
当地时间8月17日,俄罗斯车臣共和国领导人卡德罗夫公开一段视频,内容是他驾驶一辆装有机枪的美国特斯拉公司旗下的赛博皮卡
2024-08-20 13:57:00
8月20日,烟台市人民政府新闻办公室召开“推动高质量发展”主题系列新闻发布会第三场,会上,海阳市文化和旅游局党组书记、局长任飞回答媒体关注的问题
2024-08-20 14:19:00
国产3A崛起!《黑神话:悟空》Steam峰值在线史上第四:远超2077
快科技8月20日消息,今天对于中国游戏来说,是一个注定载入史册的一天,也是中国玩家的狂欢。今天上午10点,《黑神话:悟空》正式解锁
2024-08-20 14:23:00
烂腿预警!男子游泳后小腿肿痛染上丹毒:下肢红肿热痛
快科技8月20日消息,据媒体报道,广东东莞的陈先生(化名)在一次游泳后,左脚突然出现泛红并伴随一阵疼痛感,随即出现发热症状
2024-08-20 14:23:00
星闪应用今年将全面绽放!跨品牌互联互通测试启动
快科技8月20日消息,据媒体报道,星闪概念股盘中异动拉升,云里物里、辰奕智能20%涨停,利尔达涨超14%,四川长虹、雷神科技
2024-08-20 14:23:00
通化产出的这些“小”粉末都能用来干些啥?
本文转自:人民网走进通化宏信研磨材有限责任公司(以下简称宏信研磨材)生产车间,工人们正专注生产出口的半导体切割刃料粉,用于半导体芯片的切割和研磨
2024-08-20 14:26:00
iba 2025:聚焦市场核心需求,开拓烘焙发展新赛道
作为全球烘焙与甜点制作工艺的重要行业盛会,慕尼黑国际烘焙技术博览会(iba)自1949年首届举办以来,便引起了行业内外人士的讨论与注目
2024-08-20 14:30:00
Etsy平台优势
Etsy是一个专门出售纯手工制作商品的平台,产品种类较多且大多具有很强独特性,五花八门的产品非常受用户欢迎,以此吸引了许多全球各地热爱手工制品的买家
2024-08-20 14:31:00
创新融合,安琪纽特助力“营”领未来
8月17日-18日,湖北省营养学会、武汉营养学会第二十六次学术交流会暨湖北省区域性营养创新平台研讨会在宜昌举行。大会由中国营养学会特殊营养分会
2024-08-20 14:45:00
东南网8月20日讯(福建日报记者 李珂) 记者从嘉庚创新实验室获悉,该实验室杨朝勇教授和张惠敏副研究员团队在DNA信息存储领域取得重要突破
2024-08-20 14:46:00
本文转自:人民网-北京频道人民网北京8月20日电 (记者董兆瑞)8月19日,2024北京人工智能生态大会召开。会上发布了《中关村科学城人工智能全景赋能行动计划(2024-2026年)》(以下简称《行动计划》)
2024-08-20 14:52:00
上热搜了!网友向雷军举报王腾上班摸鱼:王腾本人回应
快科技8月20日消息,微博话题“网友向雷军举报王腾上班摸鱼”冲上热搜榜。据了解,今天上午,有网友在评论区@雷军:王腾上班期间玩《黑神话
2024-08-20 14:53:00
走路1小时能赚300块!特斯拉最新招聘太狂 网友:我一天能步行12小时
靠走路,1小时能赚300多块,还有股票奖励+福利?!马斯克的特斯拉最新招聘消息亮了,招特斯拉机器人数据收集操作员(Data Collection Operator
2024-08-20 14:53:00
中国新势力单周销量榜:理想连续17周第一 断崖式领先问界、零跑
快科技8月20日消息,理想汽车公布了第33周(8.12-8.18)的中国新势力品牌销量榜。榜单显示,理想连续17周获中国市场新势力品牌销量第一
2024-08-20 14:53:00
什么是去高精地图NOA且有何优势:智己官方解答来了
快科技8月20日消息,智己汽车在其最新一期的"答网友问"中,深入解释了"去高精地图NOA"的概念。首先,智己汽车强调了理解高精地图所提供信息的重要性
2024-08-20 14:53:00