• 我的订阅
  • 头条热搜
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
...考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数学都不及格,最高分只有75分(满分150分)。参加OpenCompass此次高考测试的大模型,分别是来自阿里巴巴、零一万物、...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
...20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参...……更多
...获国内头筹在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分。据介绍,本次评测以新课标Ⅰ卷为考题,与河南省考卷完全相同...……更多
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
...,还真的有人试了。上海人工智能实验室近日公布了司南评测体系OpenCompass选取开源大模型测试今年高考的全国新课标I卷“语数外”的结果,为了确保“闭卷”考试,大模型的开源时间早于高考,同时邀请有高考评卷经验的教师...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...计意义思考不足,起码会带来以下几个潜在危害:其一,评测结果能否真实反映大模型的能力?如果对此认识不足,往往会过分夸大模型的效果。其二,会让人以为指标的提升,等价于大模型能力的提升、以及等价于真实场景的...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0表现亮眼。例如在人类对齐能...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...比如,谷歌引以为傲的MMLU,是一个由伯克利大学主导的评测,囊括阅读理解、大学数学以及物理和社会科学等57项测验。但如果说,这些题目,是可以事先得知的呢?9月,中国人民大学与伊利诺伊大学香槟分校联合推出了一个...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...,另一方面能够直观体现国产大模型的最新发展进程。 评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的方式制作智能体形象,同时支持用户通过...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Clau...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...集。虽然这类数据的生成成本较低、人力需求不高,但是评测方法的开发却需要他们逐一校验,因为数据分析的结果并不仅仅依赖于执行的一致性。例如,在生成分类器的问题上,即便参考代码的执行结果和预测代码的结果不一...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
《科创板日报》5月31日讯(记者 朱凌)直至五月尾声,AI应用市场的火热态势依旧不减。30日,基于混元大模型的AI助手App“腾讯元宝”上线,标志着BAT终于在AI消费C端应用领域聚首。据介绍,自2023年9月首次亮相以来,腾讯混...……更多
dxomark公布galaxys23ultra相机评测结果
DxOMark网站于今天放出了GalaxyS23Ultra的相机评测结果,排名第10位。该机的综合得分为140分,其中拍照单项成绩为139分,视频为137分。DxOMark中文官网暂时并未放出关于GalaxyS23Ultra的详细评测信息。附官网对GalaxyS23Ultra的主要优缺点...……更多
...实则为了利益许多评测机构标榜自己是“第三方”,相关评测结果“客观中立”, 但由此引发的消费乱象时常出现。这不仅没有维护消费者的正常权益,反而扰乱了市场秩序。记者发现,相同品类的产品,不同机构的评测结果...……更多
泰州交警公布“红榜”企业和“黑榜”企业评测结果
...市医药高新区大队(高港大队)辖区3月份快递外卖企业评测结果,“顺丰快递”登了“红榜”,“美团外卖”因骑手违章较多上“黑榜”。据介绍,交警部门要对上“黑榜”的快递、外卖企业负责人进行约谈,督促企业加强对...……更多
中国移动5g手机综合评测结果公布
中国移动近日公布了2023年度5G手机综合评测结果,32款热门机型接受了从通信能力到用户口碑的全方位考核,小米和荣耀分别在高端和中端市场夺得冠军,展现了国产手机的强大实力。5G手机测评体系,用户体验为先中国移动的5...……更多
移动版英伟达RTX4070显卡乏善可陈,主播中途宣布放弃评测
...的时候宣布放弃本次评测。Jarrod’sTech分享了对RTX4070M的评测结果,从结果来看性能相当令人失望。 从测试报告中了解到,本次评测机型是XMGNEO16,搭载i9-13900HX处理器和RTX4070MGPU。对此评测的是LEGION5IPRO笔记本,搭载了英特尔i7-12...……更多
华为pura70ultra霸榜dxomark评测结果公布
...影像评测机构DXOMARK公布了华为影像新旗舰Pura70Ultra的影像评测结果:以163分的总得分,位居全球榜首,更在五个子项目中荣获三个最高分。值得关注的是,华为Pura70Ultra此次的得分并非微小优势,而是以显著的5分差距,远超第二...……更多
...技术生态、产业生态和开放性等多个维度进行评估,确保评测结果客观真实。此次评测结果将形成针对特定应用场景的综合报告和产品推荐目录,为政府、企业和研究机构建设智算中心提供芯片选型的重要参考和决策依据。在评...……更多
...护委员会了解到,陕西省2023年首届“三秦伴手礼”消费评测活动已于近日正式启动。据悉,本次消费评测活动最终结果将于2024年3月份发布。首届“三秦伴手礼”消费评测活动分为征集申报、初评筛选、网上评测、优选评测、宣...……更多
2023移动网络质量“百城”专项评测:打造高质量的5G服务
2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启,来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市,对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...一致时,就会推翻 “假设”,重新尝试新的假设。 人类评测结果人类在 VCR 任务下的水平如何呢?下图中展示了母语者或各语言的流利使用者在英 / 中两种语言的简单 / 困难设定下的准确度:如果考虑包含时间、地名、人名的...……更多
8天线覆盖150平米超大面积,锐捷X32 Pro评测
...网线,然后就是下载锐捷星耀APP,扫码绑定,登录设置,全都一目了然,可以说是0门槛。 我家的路由器摆放的位置是进门的位置,以我们家的户型来说,是比较居中的。唯一不好覆盖的地方就是阳台,因为要间隔两道门,所以...……更多
...年首次使用AI评卷辅助校验系统,对试卷主观题进行智能评测参考,对各学科评卷质量进行实时校验,及时发现评卷中可能出现的误差,进一步确保评卷公平公正。三是严格评卷场地管理。评卷期间,所有评卷老师和工作人员,...……更多
新能源车评测,懂车帝算是玩明白了
...新能源汽车的基础上,懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景,基于客观真实的实测数据,对新能源车进行综合评分,为消费者提供选买参考。...……更多
2022-12-15 18:40新能源,评测
多家车企质疑懂车帝冬测,中汽协呼吁汽车评测应专业公正
...体而言,此次懂车帝冬测引发广泛质或将成为第三方汽车评测领域的转折点,众多网友纷纷呼吁尽快出台真正科学、专业、严谨、公正的测试标准,为行业发展和用户购车用车带来真正的价值。 ……更多
国内首个官方“大模型标准符合性评测”公布
...分委会全体会议期间,国内首个官方“大模型标准符合性评测”结果公布,腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍,“大模型标准符合性评测”由中国电子技术标准化研...……更多
新款妙控键盘比上代产品“更薄、更轻”
...那么新款妙控键盘比上代产品轻了多少?目前多篇iPadPro评测(包括JasonSnell和ChrisLawley的评测)结果显示,适用于13英寸的妙控键盘重量为667克。不过也有媒体测试得出了不同的结果,BrianTong的评测显示13英寸MagicKeyboard重662克,The...……更多
更多关于科技的资讯:
中国小女孩向马斯克报BUG成功:后者一个单词回应
快科技7月1日消息,近日,一位名叫茉莉的中国小女孩录制了一段视频隔空喊话马斯克,向其报了一个特斯拉的Bug,获得了马斯克的回复
2024-07-01 22:12:00
细菌鞭毛马达:最不寻常的生物结构 质子动力每分钟10万转
如果您问什么生物结构最不像自然进化的,那应该就是细菌的鞭毛马达。大部分细菌都可以在需要的时候长出鞭毛,然后通过旋转鞭毛来移动自己
2024-07-01 22:12:00
“学界牵手业界” 以赛为媒共育医疗人才供应链
南海网7月1日消息(记者 符彩云) 第九届全国大学生生物医学工程创新设计竞赛将于7月22日至26日在海南三亚崖州湾科技城举办
2024-07-01 23:30:00
汽车界的小米 零跑汽车6月交付20116台 创历史新高
快科技7月1日消息,今天零跑汽车公布了2024年6月销售数据,6月交付达20116台,创历史新高!同比增长52.3%, 环比增长10
2024-07-01 22:42:00
2024过半!新造车KPI达成率出炉:全指望下半年了
卷营销、卷价格,甚至卷老板,今年上半年车企在内卷的赛道风驰电掣,市场的惨烈程度,我们历历在目:比亚迪开年“电比油低”,五菱吉利等纷纷跟进降价
2024-07-01 22:42:00
一次加氢可行驶200多公里!国内首列氢能源智轨电车装配下线
快科技7月1日消息,据央视新闻报道,今天国内首列氢能源智轨电车在宜宾智轨产业园装配下线。氢能源智轨电车由中车株洲所自主研制
2024-07-01 22:12:00
韩妹《妮姬:胜利女神》COS图赏:身材优势尽显
《NIKKE:胜利女神》这款游戏中,桃乐丝、苏打和毒蛇是备受玩家喜爱的角色。近日,一位韩国Coser“siru_0207”分享了她的最新作品
2024-07-01 22:42:00
迪士尼《白雪公主》真人电影终于拍完:黑雪公主自豪
迪士尼《白雪公主》真人电影现已结束拍摄工作,近日瑞秋·泽格勒分享了这一消息。她表示:“《白雪公主》已杀青,我感到非常自豪和激动
2024-07-01 22:42:00
路特斯CEO称绝不会加入价格战:会增加用户持有焦虑和购买顾虑
快科技7月1日消息,日前路特斯集团CEO冯擎峰近日在微博明确表示,作为定位百万级豪华纯电汽车品牌,路特斯不会参与价格战
2024-07-01 23:12:00
对话领袖 | 廖顺喜先生:企业家精神与慈善公益的践行者
为赋能全球杰出企业品牌,深入探索服务需求,助力企业解决发展中的挑战与难题,特推出【对话领袖】专访系列,邀请优秀创业领袖
2024-07-01 22:55:00
火锅店必点菜品:小酥肉一年卖出100亿元
快科技7月1日消息,去火锅店你必点的菜品是什么?很多网友给的答案不一,比如牛羊卷、虾滑、毛肚、土豆片、豆腐等,但可能你想到不到的是
2024-07-01 23:12:00
创菱科技电暖桌:引领智能健康取暖新时代
位于贵州省毕节市七星关区小坝镇新鑫科技产业园的创菱科技实业有限公司,自成立以来,专注于电暖桌的研发、制造和销售,是一家致力于科技创新与品质卓越的领先企业
2024-07-01 22:46:00
伊刻活泉现泡茶亮相FBIF2024,以科技创新重塑茶饮新体验
6月25日至27日,备受瞩目的FBIF 2024食品饮料创新论坛及FBIF食品创新展在国家会展中心(上海)举行。本次展会汇聚了全球食品饮料行业的嘉宾展商
2024-07-01 23:03:00
半年销售额达6亿余元,昌乐县借电商平台打造珠宝销售的黄金时代
王佳潼潍坊报道“我们抖音运营中心落户昌乐主要是因为当地有庞大的货源。”抖音运营中心总经理薛婷说,昌乐县的珠宝电商产业基础非常好
2024-07-01 23:05:00
虽然如今的智能手机都有原生的骚扰屏蔽功能,第三方应用也不少,但运营商所采用的云端拦截技术依然有其独特的作用。7月1日,北京商报记者注意到
2024-07-02 00:14:00