评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

智源评测体系发布国内外“百模”评估结果出炉

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...上技术迭代的步伐，月狐数据发布《2023 AIGC应用app智能化评测报告》，该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告，旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多

2024-03-14 17:06:00数据发布,评测报告,中国,评测,智能,报告

“AI考生”闯关高考，谁是最会做题大模型？

...大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前这些题属于“绝密”，非常适合用来作为考查大模型智能水平的评测工具，堪称大模...……更多

2024-06-26 07:26:00考生,模型,高考,模型,评测,高考

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...心报道机器之心编辑部近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

港中文团队提出大模型元推理范式，革新大模型的评价体系

...来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，他们又针对现有数据集，提出了一种改造方法。实验证明，这种方法能有效区分不同模型的能力差异。同时，他们还揭示了这种全新评测范...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

国内首个官方“大模型标准符合性评测”公布

...分委会全体会议期间，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍，“大模型标准符合性评测”由中国电子技术标准化研...……更多

2023-12-23 15:09:00符合性,模型,评测,标准,官方,模型

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力，为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行，此次测试数...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

上海人工智能实验室公布首个ai高考全卷评测结果

...20日消息，上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍，2024年全国高考甫一结束，该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷，参...……更多

2024-06-20 10:19:00评测结果,人工智能,上海,人工,实验室,评测

AI安全守护计划启动！信通院牵头，AIIA安全治理委员会发布

...情况，并启动了AI安全守护计划，发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底，经过半年运营，现有治理组、安全组两个工作组，近百家单位加入，主任单位由中国信通院牵头，副主任单位包括多家知...……更多

2024-07-25 09:26:00安全,信通,模型,评测,委员会,委员

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累，夸克大模型利用数据、平台、知识增强等优势，可以大幅提升知识正确性。在医疗健康领域，夸克大模型已经可以...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

首个AI高考全卷评测结果发布：最高分303，数学全不及格

...平。在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日， OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考...……更多

2024-06-24 09:22:00评测结果,最高分,评测,数学,高考,结果

20款国产大模型角逐“最强王者”

...，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

东方财富董事长其实：建议进一步推动股权投资支持科技创新

...动高质量垂类语料数据开放共享，进一步完善垂直大模型评测标准体系，并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示，科技创新作为引领现代化产业体系建设的关键力量，是发展新质生产力的...……更多

2024-03-07 17:31:00进一,科技创新,股权,董事长,董事,财富

AI大模型“国标”首批测试结果公布，人工智能成市场新焦点

12月22日，国内首个官方“大模型标准符合性评测”结果公布，百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称，上述四款模型符合《人工智能大规模预训练模型第2部分：评...……更多

2023-12-26 14:16:00人工智能,国标,人工,模型,结果,智能

国产AI芯片评测“智越计划”启动

...“智越计划”，对国产人工智能芯片（AI芯片）开展全面评测，为后续算力建设提供依据。此次全面评测将助推国产芯片面向更多应用场景加快升级迭代。面对越来越严苛的AI芯片领域封锁，我国正在加速相关芯片的自主研发和...……更多

2023-10-23 15:02:00芯片,评测,国产,芯片,评测,人工智能

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

首个AI高考全卷评测结果发布：数学全都不及格

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

360集团携手中国信通院共促人工智能安全发展

...私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集，为行业提供全面、细致的安全性能测试指标。作为信息通信行业的重要研究机构，中国信通院在人工智能和大数据领域具有深厚的研究底蕴和丰富的行业经验...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

AI潮起共筑数智之基

...链条产业生态中国移动宣布开放大模型训练基地、大模型评测基地及大模型产业创新基地，面向全社会提供大模型从训到推、AI+原生应用孵化等一站式产业融通带动服务。大模型训练基地是中国移动为大模型提供训练所需智算资...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

国家大模型标准测试结果公布首批仅四家企业产品通过

12月23日，国内首个官方“大模型标准符合性评测”结果公布，首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院（简称“工信部电子标准院”）发起，评测围绕多领域多维度...……更多

2023-12-23 15:02:00四家,产品通过,模型,结果,测试,标准

科大讯飞刘庆峰：首先需要建立科学系统评测体系

...，快速追赶并努力超越ChatGPT，首先需要一套科学系统的评测体系。刘庆峰表示，已经有非常多的科研机构和企业单位都在开始进行大模型的研究和产业化探索。如果我们要让这种人工智能的技术真正地用于解决社会刚需，就要...……更多

2023-05-07 19:46:00讯飞,评测,体系,科学,系统,讯飞

2023移动网络质量“百城”专项评测：打造高质量的5G服务

2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启，来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市，对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多

2023-11-20 17:10:00百城,高质量,专项,评测,质量,移动

“护脸计划2022年度成果发布会”在线上召开

...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上，中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多

2023-01-16 20:18:00发布会,成果,年度,在线,人脸,云大

智慧芽AI助手“芽仔”：你的智能研发专家，开启创新新范式

...型与其他大模型考试成绩图：智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的，除了模型本身外，训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多

2024-03-21 16:15:00新新,范式,助手,智慧,智能,专家

清华发布2024年3月版《SuperBench大模型综合能力

...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼。例如在人类对齐能...……更多

2024-04-22 09:46:00评测报告,清华,模型,评测,能力,报告

Bengio团队提出多模态新基准，直指Claude 3.5和

....com/tianyu-z/VCR （点击阅读原文即可直达，包含评用于模型评测和预训练的数据生成代码） Hugging Face 链接：huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务，研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务