评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

智源评测体系发布国内外“百模”评估结果出炉

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...上技术迭代的步伐，月狐数据发布《2023 AIGC应用app智能化评测报告》，该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告，旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多

2024-03-14 17:06:00数据发布,评测报告,中国,评测,智能,报告

港中文团队提出大模型元推理范式，革新大模型的评价体系

...来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，他们又针对现有数据集，提出了一种改造方法。实验证明，这种方法能有效区分不同模型的能力差异。同时，他们还揭示了这种全新评测范...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

国内首个官方“大模型标准符合性评测”公布

...分委会全体会议期间，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍，“大模型标准符合性评测”由中国电子技术标准化研...……更多

2023-12-23 15:09:00符合性,模型,评测,标准,官方,模型

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力，为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行，此次测试数...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累，夸克大模型利用数据、平台、知识增强等优势，可以大幅提升知识正确性。在医疗健康领域，夸克大模型已经可以...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

20款国产大模型角逐“最强王者”

...，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

AI大模型“国标”首批测试结果公布，人工智能成市场新焦点

12月22日，国内首个官方“大模型标准符合性评测”结果公布，百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称，上述四款模型符合《人工智能大规模预训练模型第2部分：评...……更多

2023-12-26 14:16:00人工智能,国标,人工,模型,结果,智能

东方财富董事长其实：建议进一步推动股权投资支持科技创新

...动高质量垂类语料数据开放共享，进一步完善垂直大模型评测标准体系，并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示，科技创新作为引领现代化产业体系建设的关键力量，是发展新质生产力的...……更多

2024-03-07 17:31:00进一,科技创新,股权,董事长,董事,财富

国产AI芯片评测“智越计划”启动

...“智越计划”，对国产人工智能芯片（AI芯片）开展全面评测，为后续算力建设提供依据。此次全面评测将助推国产芯片面向更多应用场景加快升级迭代。面对越来越严苛的AI芯片领域封锁，我国正在加速相关芯片的自主研发和...……更多

2023-10-23 15:02:00芯片,评测,国产,芯片,评测,人工智能

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

360集团携手中国信通院共促人工智能安全发展

...私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集，为行业提供全面、细致的安全性能测试指标。作为信息通信行业的重要研究机构，中国信通院在人工智能和大数据领域具有深厚的研究底蕴和丰富的行业经验...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

AI潮起共筑数智之基

...链条产业生态中国移动宣布开放大模型训练基地、大模型评测基地及大模型产业创新基地，面向全社会提供大模型从训到推、AI+原生应用孵化等一站式产业融通带动服务。大模型训练基地是中国移动为大模型提供训练所需智算资...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

国家大模型标准测试结果公布首批仅四家企业产品通过

12月23日，国内首个官方“大模型标准符合性评测”结果公布，首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院（简称“工信部电子标准院”）发起，评测围绕多领域多维度...……更多

2023-12-23 15:02:00四家,产品通过,模型,结果,测试,标准

2023移动网络质量“百城”专项评测：打造高质量的5G服务

2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启，来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市，对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多

2023-11-20 17:10:00百城,高质量,专项,评测,质量,移动

“护脸计划2022年度成果发布会”在线上召开

...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上，中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多

2023-01-16 20:18:00发布会,成果,年度,在线,人脸,云大

智慧芽AI助手“芽仔”：你的智能研发专家，开启创新新范式

...型与其他大模型考试成绩图：智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的，除了模型本身外，训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多

2024-03-21 16:15:00新新,范式,助手,智慧,智能,专家

清华发布2024年3月版《SuperBench大模型综合能力

...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼。例如在人类对齐能...……更多

2024-04-22 09:46:00评测报告,清华,模型,评测,能力,报告

字节扣子模型广场，给AI大模型搭了一座擂台

...选择什么模型，市面上也没有类似于豆瓣电影评分这样的评测体系。举个例子，小雷这样的科技爱好者想在扣子上创建一个帮助编辑检查文章配图版权、错别字的Bot，但缺乏大模型开发经验的我并不知道扣子上的哪些模型、哪些...……更多

2024-06-14 11:40:00模型,扣子,字节,擂台,一座,广场

科学家建立新评价基准，助力评估大模型数据分析能力

...集。虽然这类数据的生成成本较低、人力需求不高，但是评测方法的开发却需要他们逐一校验，因为数据分析的结果并不仅仅依赖于执行的一致性。例如，在生成分类器的问题上，即便参考代码的执行结果和预测代码的结果不一...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...-Base模型、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果，其中文能力尤为出色，在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外，Skywork-13B系列大模...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

新能源车评测，懂车帝算是玩明白了

...新能源汽车的基础上，懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景，基于客观真实的实测数据，对新能源车进行综合评分，为消费者提供选买参考。极寒...……更多

2022-12-15 18:40:00新能源,评测

清华郑纬民院士：AI for Science的出现，让高性能

...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信；现在要获HPC领域的戈登贝尔奖，必须要有AI的算法，你没有AI的算法，否则奖都得不了。这是开玩笑的说法，但实际上也是一个趋势；AI for S...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

智谱AI新一代基座大模型GLM-4在司南评测中跻身前列，位居

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass 2.0），同时揭晓了2023年度大模型公开评测榜单，GPT-4 Turbo在各项评测中均获最佳表现，智谱AI新一代基座大模型GLM-4紧随其后，排名第二。上海人工智...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

“整活”保险业务，AI大模型哪家强？

...险行业？10月10日发布的《人工智能大模型保险行业应用评测报告》（以下简称《报告》）便揭晓了答案。根据《报告》，10个主流大模型在知识问答领域表现普遍较好，在智能核保、智能理赔、话术优化上表现不尽如人意，在营...……更多

2023-10-10 17:56:00模型,业务,模型,报告,应用,能力

选机指南：你的5G手机在ToP榜吗？

...中国移动2023年智能硬件质量报告快来围观No.15G手机综合评测TOP排行榜5G手机到底有多快？“手机下载APP，来不及看进度条就已经下完了；各个平台看视频，进度条随便拖，就跟已经缓存的视频一样。”这是现在5G手机用户的真实...……更多

2024-01-19 20:37:00选机,指南,手机,手机,荣耀,性能

拥有三块A6000的性能猛兽惠普Z6 G5工作站评测

...配置：惠普Z6 G5核心硬件可根据用户需求进行定制，本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器，插入了8条32GB ECC DDR5内存，内存总容量高达256GB，显卡配满了3块NVIDIA RTX A6000专业独显，硬盘配置了2块2TB SSD和2块12T……更多

2023-11-07 13:51:00惠普,猛兽,工作站,评测,性能,工作

《智能制造效能通用评测方法》标准编制工作组成立

...民网北京10月23日电（记者申佳平）《智能制造效能通用评测方法》标准编制工作组成立暨第一次工作组会议日前在京举行。来自机械工业仪器仪表综合技术经济研究所（以下简称仪综所）、中国信息通信研究院、中国电子技术...……更多

2023-10-23 14:30:00工作组,效能,编制,评测,智能,标准