• 我的订阅
  • 头条热搜
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。据介绍,本次评测以新课标Ⅰ卷为考题,与河南省考卷完全相同...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的方式制作智能体形象,同时支持用户通过...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
《科创板日报》5月31日讯(记者 朱凌)直至五月尾声,AI应用市场的火热态势依旧不减。30日,基于混元大模型的AI助手App“腾讯元宝”上线,标志着BAT终于在AI消费C端应用领域聚首。据介绍,自2023年9月首次亮相以来,腾讯混...……更多
中国移动5g手机综合评测结果公布
中国移动近日公布了2023年度5G手机综合评测结果,32款热门机型接受了从通信能力到用户口碑的全方位考核,小米和荣耀分别在高端和中端市场夺得冠军,展现了国产手机的强大实力。5G手机测评体系,用户体验为先中国移动的5...……更多
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首,更在五个子项目中荣获三个最高分。值得关注的是,华为Pura70Ultra此次的得分并非微小优势,而是以显著的5分差距,远超第二...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...护委员会了解到,陕西省2023年首届“三秦伴手礼”消费评测活动已于近日正式启动。据悉,本次消费评测活动最终结果将于2024年3月份发布。首届“三秦伴手礼”消费评测活动分为征集申报、初评筛选、网上评测、优选评测、宣...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
...年首次使用AI评卷辅助校验系统,对试卷主观题进行智能评测参考,对各学科评卷质量进行实时校验,及时发现评卷中可能出现的误差,进一步确保评卷公平公正。三是严格评卷场地管理。评卷期间,所有评卷老师和工作人员,...……更多
8天线覆盖150平米超大面积,锐捷X32 Pro评测
...网线,然后就是下载锐捷星耀APP,扫码绑定,登录设置,全都一目了然,可以说是0门槛。 我家的路由器摆放的位置是进门的位置,以我们家的户型来说,是比较居中的。唯一不好覆盖的地方就是阳台,因为要间隔两道门,所以...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。...……更多
2022-12-15 18:40新能源,评测
多家车企质疑懂车帝冬测,中汽协呼吁汽车评测应专业公正
...体而言,此次懂车帝冬测引发广泛质或将成为第三方汽车评测领域的转折点,众多网友纷纷呼吁尽快出台真正科学、专业、严谨、公正的测试标准,为行业发展和用户购车用车带来真正的价值。 ……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
新款妙控键盘比上代产品“更薄、更轻”
...那么新款妙控键盘比上代产品轻了多少?目前多篇iPadPro评测(包括JasonSnell和ChrisLawley的评测)结果显示,适用于13英寸的妙控键盘重量为667克。不过也有媒体测试得出了不同的结果,BrianTong的评测显示13英寸MagicKeyboard重662克,The...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
12月23日,国内首个官方“大模型标准符合性评测”结果公布,首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度...……更多
小米14 Pro成4000元以上高端旗舰机型第一
...用户实际使用场景融入评测,全面评价5G手机质量。最后评测结果为:小米14Pro成为4000元以上高端旗舰阵营第一名。据了解,小米14Pro搭载全新小米龙晶玻璃,坚固耐磨;还配备徕卡三摄Summilux镜头和可变光圈主摄,具有超大光圈...……更多
Exynos 2400对决骁龙 8 Gen 3,三星 Galaxy S24 系列手机评测
IT之家 1 月 23 日消息,YouTube 频道 NL Tech 近日发布视频,评测了三款 Galaxy S24 系列手机的性能和续航,并通过主流跑分软件测试性能和续航。本次评测的 Galaxy S24 和 Galaxy S24+ 两款手机均采用三星自研的 Exynos 2400 芯片,而 G……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信;现在要获HPC领域的戈登贝尔奖,必须要有AI的算法,你没有AI的算法,否则奖都得不了。这是开玩笑的说法,但实际上也是一个趋势;AI for S...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上,MiniCPM-2B的表现超过了Llama 2-70B-Chat。MiniCPM-2B和Mistral-7B在主流评测集上的测评结果。图源:面壁智能MiniCPM-2B和主流模型在MT-Bench上的测评结果。图源:……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
更多关于科技的资讯:
柏曼光环为什么这么贵?消费者有更便宜的选择吗?
柏曼是台灯领域的知名品牌,始终致力于灯具的研发生产。柏曼光环mini是柏曼最新推出的一款护眼台灯,具备高品质光照,优越的性能
2024-11-07 16:09:00
中国消费者报上海讯(记者王小月)第七届进博会如约而至。今年,叮咚买菜派出上百名商品开发人员组成的豪华买手团,发掘高品价比进口美食
2024-11-07 16:16:00
智启未来,趣享生活  德国卡赫举办系列新品首发活动
全球最大的清洁设备和清洁解决方案提供商德国卡赫,于11月6日在第七届进博会新品发布平台举办主题为“智启未来,趣享生活”的新品发布会
2024-11-07 16:48:00
中华人寿石家庄中心支公司成功开展重大消费投诉应急演练活动
近日,为了有效预防和妥善处置重大消费投诉事件,提升应对突发事件的能力和效率,中华人寿石家庄中心支公司积极组织并开展了一场重大消费投诉应急演练活动
2024-11-07 16:49:00
本文转自:人民网-广西频道为进一步提高发电效率、降低故障损失,广西桂冠电力股份有限公司山东分公司(简称桂冠山东分公司)积极推行一系列创新运维管理举措
2024-11-07 17:07:00
东方资讯消息,据媒体报道,腾讯微保近日成为全国首个数据要素场内线上交易全闭环试点机构,公办医院患者可通过腾讯微保平台实现个人商业健康险快速理赔
2024-11-07 17:22:00
尾气水汽收集回收装置的工作原理和用途
水汽收集装置也称之为超低温水汽收集仪器是一种用于捕集真空系统中水蒸汽的装置。它通常被安装在真空系统的高阀与真空腔之间或真空腔内
2024-11-07 17:31:00
AI智能高速公路巡检车亮相十堰,有啥高科技?
十堰广电讯(全媒体记者 魏俊 何旭 通讯员 伍子阳)近日,搭载AI巡检系统的高速公路智能巡检车正式亮相十堰。11月6日上午
2024-11-07 17:38:00
都市丽人亿元大手笔,开启国民内衣新时代
11月6日,由都市丽人携手永达传媒举办的“都市丽人内衣奥运冠军之选”都市丽人高铁冠名列车首发仪式在成都东站盛大启动。广东都市丽人实业有限公司董事长郑耀南
2024-11-07 17:51:00
即日起,欢太金融服务记录开通查询功能
欢迎关注“欢太服务助手”微信公众号,通过其菜单栏的“我的服务”,您可以轻松进入服务记录查询的专属页面。当您需要使用此服务时
2024-11-07 17:58:00
短视频4.0时代来临,火乐园引领全民创作与收益新模式
近年来,短视频行业蓬勃发展,整个产业生态链不断完善,使得其模式已经进入较为成熟的阶段,这也为整个互联网行业带来了新的商机
2024-11-07 18:03:00
本文转自:人民网-四川频道换个视角,我们带你鸟瞰龙泉驿,如果人类有翅膀,可以像鸟儿一样随时在天空翱翔,那看到的世界会是什么模样
2024-11-07 18:43:00
本文转自:人民网人民网上海11月7日电 (记者任妍、栗翘楚)“我们连续7年参展,17款新品,数量为历届参展最多,包括7款全球首秀和10款中国首展
2024-11-07 19:16:00
本文转自:人民网2024“国是论坛”——戴琼海院士:规避技术安全隐忧 促进人工智能持续发展人民网记者 宋子节11月5日至6日
2024-11-07 19:58:00
三星时隔10年再推超薄旗舰!Galaxy S25 Slim首曝
快科技11月7日消息,据媒体报道,三星明年将推出一款超薄机型,命名为Galaxy S25 Slim,届时Galaxy S25系列至少有4款机型
2024-11-07 14:42:00