• 我的订阅
  • 头条热搜
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的方式制作智能体形象,同时支持用户通过...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
《科创板日报》5月31日讯(记者 朱凌)直至五月尾声,AI应用市场的火热态势依旧不减。30日,基于混元大模型的AI助手App“腾讯元宝”上线,标志着BAT终于在AI消费C端应用领域聚首。据介绍,自2023年9月首次亮相以来,腾讯混...……更多
中国移动5g手机综合评测结果公布
中国移动近日公布了2023年度5G手机综合评测结果,32款热门机型接受了从通信能力到用户口碑的全方位考核,小米和荣耀分别在高端和中端市场夺得冠军,展现了国产手机的强大实力。5G手机测评体系,用户体验为先中国移动的5...……更多
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首,更在五个子项目中荣获三个最高分。值得关注的是,华为Pura70Ultra此次的得分并非微小优势,而是以显著的5分差距,远超第二...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...护委员会了解到,陕西省2023年首届“三秦伴手礼”消费评测活动已于近日正式启动。据悉,本次消费评测活动最终结果将于2024年3月份发布。首届“三秦伴手礼”消费评测活动分为征集申报、初评筛选、网上评测、优选评测、宣...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
8天线覆盖150平米超大面积,锐捷X32 Pro评测
...网线,然后就是下载锐捷星耀APP,扫码绑定,登录设置,全都一目了然,可以说是0门槛。 我家的路由器摆放的位置是进门的位置,以我们家的户型来说,是比较居中的。唯一不好覆盖的地方就是阳台,因为要间隔两道门,所以...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。极寒...……更多
2022-12-15 18:40:00新能源,评测
多家车企质疑懂车帝冬测,中汽协呼吁汽车评测应专业公正
...体而言,此次懂车帝冬测引发广泛质或将成为第三方汽车评测领域的转折点,众多网友纷纷呼吁尽快出台真正科学、专业、严谨、公正的测试标准,为行业发展和用户购车用车带来真正的价值。 ……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模...……更多
新款妙控键盘比上代产品“更薄、更轻”
...那么新款妙控键盘比上代产品轻了多少?目前多篇iPadPro评测(包括JasonSnell和ChrisLawley的评测)结果显示,适用于13英寸的妙控键盘重量为667克。不过也有媒体测试得出了不同的结果,BrianTong的评测显示13英寸MagicKeyboard重662克,The...……更多
国家大模型标准测试结果公布 首批仅四家企业产品通过
12月23日,国内首个官方“大模型标准符合性评测”结果公布,首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院(简称“工信部电子标准院”)发起,评测围绕多领域多维度...……更多
小米14 Pro成4000元以上高端旗舰机型第一
...用户实际使用场景融入评测,全面评价5G手机质量。最后评测结果为:小米14Pro成为4000元以上高端旗舰阵营第一名。据了解,小米14Pro搭载全新小米龙晶玻璃,坚固耐磨;还配备徕卡三摄Summilux镜头和可变光圈主摄,具有超大光圈...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信;现在要获HPC领域的戈登贝尔奖,必须要有AI的算法,你没有AI的算法,否则奖都得不了。这是开玩笑的说法,但实际上也是一个趋势;AI for S...……更多
Exynos 2400对决骁龙 8 Gen 3,三星 Galaxy S24 系列手机评测
IT之家 1 月 23 日消息,YouTube 频道 NL Tech 近日发布视频,评测了三款 Galaxy S24 系列手机的性能和续航,并通过主流跑分软件测试性能和续航。本次评测的 Galaxy S24 和 Galaxy S24+ 两款手机均采用三星自研的 Exynos 2400 芯片,而 G……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上,MiniCPM-2B的表现超过了Llama 2-70B-Chat。MiniCPM-2B和Mistral-7B在主流评测集上的测评结果。图源:面壁智能MiniCPM-2B和主流模型在MT-Bench上的测评结果。图源:……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
雷神猎刃16游戏本评测:爆款4060水桶机它来了
...,配备5根散热铜管,同时搭载三个风扇,将重要发热源全都覆盖。这套散热为前面提到的13代酷睿i-13900HX以及满血版RTX4060移动版显卡性能释放提供有力支持,甚至感觉压住更高端的显卡也不在话下。最后在说下配置方面的网络...……更多
...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上,中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多
中保研最新成绩!9款热门车,结果有点意外!
...8月份,中国保险汽车安全指数公布了第一批评测车型的评测结果,1款MPV和7款SUV共8款车型,其中有3款车型在耐撞性和维修经济性中获得较差(P)评价。时隔3个多月,第二批评测车型的评测结果公布,此次车辆品类比较多,既有轿...……更多
海信电视U8公开评测,这才是高端Mini LED电视该有的画质
...标”的重要性是不会改变的。所以,这两项也成为博主们评测的重点。“杰夫视点”列举了一系列数据来进行对比,例如,海信电视85英寸U8KL背光分区高达2400个;横向分区上数量较多,75英寸以上就已经超过40个;一个驱动芯片...……更多
更多关于科技的资讯:
建设银行聊城分行始终践行国家普惠金融政策,坚守服务实体经济的初心、将支持小微企业发展放在优先位置,精准聚焦企业“短、频
2025-10-18 19:58:00
通讯员 程瑶近日,在泰安市大数据局、泰安市财政局、国家金融监督管理总局泰安监管分局、泰安市直多部门举办的2025年“数据要素×”大赛山东分赛泰安市选拔赛中
2025-10-18 19:58:00
通讯员 王靓婧随着AI技术与柜台业务深度融合,建行的AI助手正以“智能搭档”的角色,为柜员减负、提效、赋能,重新定义线下金融服务的专业与温度
2025-10-18 19:23:00
探访南昌红谷滩商业新活力:首店经济亮眼,TOD模式引潮
大皖新闻讯 2025世界VR产业大会召开在即,南昌市红谷滩区委宣传部以“活力红谷滩 智启新未来”为主题组织媒体行活动。媒体团深入辖区标杆商业体
2025-10-18 19:18:00
Kiwa为“腾越电子”颁发MID认证证书,叩响欧盟市场新篇章
国际权威检测、检验及认证(TIC)服务商Kiwa,于不久前正式向连云港腾越电子科技有限公司(全文简称为“腾越电子”)颁发欧盟CE认证MID证书
2025-10-18 18:44:00
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00