评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

智源评测体系发布国内外“百模”评估结果出炉

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

月狐数据发布中国市场首份《AIGC应用app智能化评测报告》

...上技术迭代的步伐，月狐数据发布《2023 AIGC应用app智能化评测报告》，该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告，旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的...……更多

2024-03-14 17:06:00数据发布,评测报告,中国,评测,智能,报告

“AI考生”闯关高考，谁是最会做题大模型？

...大模型技术哪家强”的讨论不绝于耳，各色名目的大模型评测应运而生。作为国内最权威的考试之一，高考覆盖各类学科及题型，同时在开考前这些题属于“绝密”，非常适合用来作为考查大模型智能水平的评测工具，堪称大模...……更多

2024-06-26 07:26:00考生,模型,高考,模型,评测,高考

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...模态大型模型设计的评估框架，为多模态模型（LMMs）的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/ 论文地址: https://arxiv……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

安兔兔评测pc版正式发布，欢迎大家下载体验

兔友们，全新的安兔兔评测PC版已经正式发布了，目前已经在安兔兔官网以及各大渠道上线，欢迎大家下载体验。与Android版本测试流程相似，安兔兔评测PC版测试项目同样包括了CPU、GPU、Memroy（内存和存储）和UX（用户体验）四...……更多

2024-10-04 00:33:00评测,体验,测试,模型,处理,电脑

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...心报道机器之心编辑部近日，云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

港中文团队提出大模型元推理范式，革新大模型的评价体系

...来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，他们又针对现有数据集，提出了一种改造方法。实验证明，这种方法能有效区分不同模型的能力差异。同时，他们还揭示了这种全新评测范...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

国内首个官方“大模型标准符合性评测”公布

...分委会全体会议期间，国内首个官方“大模型标准符合性评测”结果公布，腾讯混元大模型、阿里通义千问等大模型成为首批通过评测的四款国产大模型的其中之二。据介绍，“大模型标准符合性评测”由中国电子技术标准化研...……更多

2023-12-23 15:09:00符合性,模型,评测,标准,官方,模型

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...、合法合规、隐私保护、文明健康等二十余个维度的中文评测数据集。帮助大模型技术提供方提升安全风险防范能力，为大模型研发和落地保驾护航。此次测评报告即是在大模型安全基准测试AI Safety Bench标准下进行，此次测试数...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

上海人工智能实验室公布首个ai高考全卷评测结果

...20日消息，上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍，2024年全国高考甫一结束，该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷，参...……更多

2024-06-20 10:19:00评测结果,人工智能,上海,人工,实验室,评测

AI安全守护计划启动！信通院牵头，AIIA安全治理委员会发布

...情况，并启动了AI安全守护计划，发布了三大类别的安全评测结果。AIIA安全治理委员会成立于2023年12月底，经过半年运营，现有治理组、安全组两个工作组，近百家单位加入，主任单位由中国信通院牵头，副主任单位包括多家知...……更多

2024-07-25 09:26:00安全,信通,模型,评测,委员会,委员

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

全模态对齐框架align-anything来啦：实现跨模态指

...法；支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...言医疗语料库 MMedC。2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言，21 种医学子课题。3. 推出了一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

...百亿级参数大模型同样在法律、医疗、问答等领域的性能评测中夺冠。凭借在搜索业务和智能技术上的长期积累，夸克大模型利用数据、平台、知识增强等优势，可以大幅提升知识正确性。在医疗健康领域，夸克大模型已经可以...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

首个AI高考全卷评测结果发布：最高分303，数学全不及格

...平。在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日， OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考...……更多

2024-06-24 09:22:00评测结果,最高分,评测,数学,高考,结果

20款国产大模型角逐“最强王者”

...，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

AI大模型“国标”首批测试结果公布，人工智能成市场新焦点

12月22日，国内首个官方“大模型标准符合性评测”结果公布，百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称，上述四款模型符合《人工智能大规模预训练模型第2部分：评...……更多

2023-12-26 14:16:00人工智能,国标,人工,模型,结果,智能

东方财富董事长其实：建议进一步推动股权投资支持科技创新

...动高质量垂类语料数据开放共享，进一步完善垂直大模型评测标准体系，并积极打造垂直大模型创新应用场景。支持链主企业开展早期风险投资其实表示，科技创新作为引领现代化产业体系建设的关键力量，是发展新质生产力的...……更多

2024-03-07 17:31:00进一,科技创新,股权,董事长,董事,财富

国产AI芯片评测“智越计划”启动

...“智越计划”，对国产人工智能芯片（AI芯片）开展全面评测，为后续算力建设提供依据。此次全面评测将助推国产芯片面向更多应用场景加快升级迭代。面对越来越严苛的AI芯片领域封锁，我国正在加速相关芯片的自主研发和...……更多

2023-10-23 15:02:00芯片,评测,国产,芯片,评测,人工智能

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

首个AI高考全卷评测结果发布：数学全都不及格

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

360集团携手中国信通院共促人工智能安全发展

...私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集，为行业提供全面、细致的安全性能测试指标。作为信息通信行业的重要研究机构，中国信通院在人工智能和大数据领域具有深厚的研究底蕴和丰富的行业经验...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

AI潮起共筑数智之基

...链条产业生态中国移动宣布开放大模型训练基地、大模型评测基地及大模型产业创新基地，面向全社会提供大模型从训到推、AI+原生应用孵化等一站式产业融通带动服务。大模型训练基地是中国移动为大模型提供训练所需智算资...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

中文大模型最新评测出炉：腾讯混元国内第一！

...月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态理解要求...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

国家大模型标准测试结果公布首批仅四家企业产品通过

12月23日，国内首个官方“大模型标准符合性评测”结果公布，首批360集团、百度、腾讯、阿里四家企业大模型产品通过。该测试由工信部中国电子技术标准化研究院（简称“工信部电子标准院”）发起，评测围绕多领域多维度...……更多

2023-12-23 15:02:00四家,产品通过,模型,结果,测试,标准

2023移动网络质量“百城”专项评测：打造高质量的5G服务

2023年全国重点区域移动网络质量“百城”专项评测活动11月7日正式开启，来自中国信息通信研究院泰尔系统实验室5支专业的网络质量评测团队奔赴全国百余个城市，对重点和热点区域开展移动网络测试。其实“移动网络质量专...……更多

2023-11-20 17:10:00百城,高质量,专项,评测,质量,移动

“护脸计划2022年度成果发布会”在线上召开

...脸识别安全合规专家观点及实践分享。发布“护脸计划”评测结果和评估规范解读成为本次大会焦点。会上，中国信通院云大所副所长闵栋公布了通过“人脸识别安全专项评测”“金融APP人脸识别安全能力评测”“人脸识别系统...……更多

2023-01-16 20:18:00发布会,成果,年度,在线,人脸,云大

AMD跑大模型终于Yes！MI300X对比NVIDIA H1

...出了与NVIDIA H100/200相媲美的实力。根据The Information发布的评测报告，AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当，显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据，在……更多

2024-09-05 11:09:00逊色,模型,测试,评测报告,戈麦斯,领域

page 1/2667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：