评测,评估,体系,结果,模型,评测头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...95%数据集中于数据分析和机器学习，且仅对Python语言进行评测；xCodeEval虽覆盖多项任务，但基本局限于高级编程和数学领域；McEval和MDEval扩展了支持的编程语言，但应用领域仍局限于基础编程和高级编程，未涉及更广泛的场景。...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

智慧芽AI助手“芽仔”：你的智能研发专家，开启创新新范式

...型与其他大模型考试成绩图：智慧芽垂直领域大模型能力评测决定一个垂直领域大模型表现的，除了模型本身外，训练数据集同样起到关键性作用。而这恰恰是智慧芽的优势所在。智慧芽垂直领域大模型的预训练数据达到了千亿...……更多

2024-03-21 16:15:00新新,范式,助手,智慧,智能,专家

AMD跑大模型终于Yes！MI300X对比NVIDIA H1

...出了与NVIDIA H100/200相媲美的实力。根据The Information发布的评测报告，AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当，显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据，在……更多

2024-09-05 11:09:00逊色,模型,测试,评测报告,戈麦斯,领域

清华发布2024年3月版《SuperBench大模型综合能力

...究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼。例如在人类对齐能...……更多

2024-04-22 09:46:00评测报告,清华,模型,评测,能力,报告

字节扣子模型广场，给AI大模型搭了一座擂台

...选择什么模型，市面上也没有类似于豆瓣电影评分这样的评测体系。举个例子，小雷这样的科技爱好者想在扣子上创建一个帮助编辑检查文章配图版权、错别字的Bot，但缺乏大模型开发经验的我并不知道扣子上的哪些模型、哪些...……更多

2024-06-14 11:40:00模型,扣子,字节,擂台,一座,广场

Bengio团队提出多模态新基准，直指Claude 3.5和

....com/tianyu-z/VCR （点击阅读原文即可直达，包含评用于模型评测和预训练的数据生成代码） Hugging Face 链接：huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务，研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...OpenAI表示， o1模型在推理能力上相比GPT-4o显著进步。综合评测显示，在绝大多数需要深入思考和复杂推理的任务中，新模型都展现出了明显优于GPT-4o的表现，并在多个细分测试上超过90%。在启用视觉感知能力的情况下，o1模型在M...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

科学家建立新评价基准，助力评估大模型数据分析能力

...集。虽然这类数据的生成成本较低、人力需求不高，但是评测方法的开发却需要他们逐一校验，因为数据分析的结果并不仅仅依赖于执行的一致性。例如，在生成分类器的问题上，即便参考代码的执行结果和预测代码的结果不一...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...-Base模型、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果，其中文能力尤为出色，在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外，Skywork-13B系列大模...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

容联云容信通过中国信通院“办公即时通信软件安全能力”评测

...院”）“铸基计划-办公即时通信软件安全能力”完备级评测。随着数字化转型的全面提速，场景复杂、边界模糊等问题给移动办公、远程办公带来了诸多网络、数据安全方面的隐患。容联云作为中国信通院铸基计划—办公即时...……更多

2023-02-14 14:00:00信通,通信软件,中国,评测,能力,通信

清华郑纬民院士：AI for Science的出现，让高性能

...一个分数、可变的问题规模、具有实际的人工智能意义、评测程序包含必要的多机通信；现在要获HPC领域的戈登贝尔奖，必须要有AI的算法，你没有AI的算法，否则奖都得不了。这是开玩笑的说法，但实际上也是一个趋势；AI for S...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

智谱AI新一代基座大模型GLM-4在司南评测中跻身前列，位居

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass 2.0），同时揭晓了2023年度大模型公开评测榜单，GPT-4 Turbo在各项评测中均获最佳表现，智谱AI新一代基座大模型GLM-4紧随其后，排名第二。上海人工智...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

新能源车评测，懂车帝算是玩明白了

...新能源汽车的基础上，懂车帝正式推出了“6+2新能源汽车评测体系”。该体系共分续航、充电、辅助驾驶等6大维度和冬夏季极限评测2大场景，基于客观真实的实测数据，对新能源车进行综合评分，为消费者提供选买参考。...……更多

2022-12-15 18:40新能源,评测

“整活”保险业务，AI大模型哪家强？

...险行业？10月10日发布的《人工智能大模型保险行业应用评测报告》（以下简称《报告》）便揭晓了答案。根据《报告》，10个主流大模型在知识问答领域表现普遍较好，在智能核保、智能理赔、话术优化上表现不尽如人意，在营...……更多

2023-10-10 17:56:00模型,业务,模型,报告,应用,能力

《金融大模型应用评测指南》发布，系全国首个以金融业务能力..

...首个以金融业务能力为核心的团体标准《金融大模型应用评测指南》，上海库帕思科技有限公司发布多维度金融大模型评测数据集（2024版）。《金融大模型应用评测指南》，以金融业务为核心，以金融机构模型应用为导向，从...……更多

2024-12-06 17:16:00以金融,模型,评测,能力,业务,指南

选机指南：你的5G手机在ToP榜吗？

...中国移动2023年智能硬件质量报告快来围观No.15G手机综合评测TOP排行榜5G手机到底有多快？“手机下载APP，来不及看进度条就已经下完了；各个平台看视频，进度条随便拖，就跟已经缓存的视频一样。”这是现在5G手机用户的真实...……更多

2024-01-19 20:37:00选机,指南,手机,手机,荣耀,性能

拥有三块A6000的性能猛兽惠普Z6 G5工作站评测

...配置：惠普Z6 G5核心硬件可根据用户需求进行定制，本次评测样机搭载36核72线程的Intel Xeon W9-3475X处理器，插入了8条32GB ECC DDR5内存，内存总容量高达256GB，显卡配满了3块NVIDIA RTX A6000专业独显，硬盘配置了2块2TB SSD和2块12T……更多

2023-11-07 13:51:00惠普,猛兽,工作站,评测,性能,工作

《智能制造效能通用评测方法》标准编制工作组成立

...民网北京10月23日电（记者申佳平）《智能制造效能通用评测方法》标准编制工作组成立暨第一次工作组会议日前在京举行。来自机械工业仪器仪表综合技术经济研究所（以下简称仪综所）、中国信息通信研究院、中国电子技术...……更多

2023-10-23 14:30:00工作组,效能,编制,评测,智能,标准

国产ai大模型首批评估名单公布

...表现优秀，获得4+评级。以阿里云通义灵码为例，信通院评测结果显示：在通用能力方面，通义灵码在代码转换、代码检查及修复、代码优化等方面表现突出；在专用场景方面，通义灵码提供网站开发、数据库开发、大数据开发...……更多

2024-06-12 09:54:00模型,评估,国产,名单,模型,能力

正式签约！合肥首家科创数字化融资平台中科星元平台成立

...下跑金融机构，仅需在平台上提交测评资料，随后5秒出评测结果，3秒匹配金融产品的高效融资服务；其次是成本低，费用透明无任何传统中介融资的种种附加费用，同时后台全流程清晰，融资进程一目了然。在该模式下，平台...……更多

2024-01-31 11:38:00科创,合肥,平台,融资,数字,科创

云从科技从容大模型荣登中国大模型第一梯队

...可，也是中国AI技术实力的有力证明。云从科技在综合评测权威平台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示，从容大模型在该体系中的平均得分为65.5，这一成绩使其跻身全球前三，超越了谷歌的Gem...……更多

2024-08-09 15:00:00模型,梯队,中国,从容,科技,模型

中国信通院启动“CAICT人工智能伙伴计划”

...信通院与北京智源研究院、天津大学等联合发布了大模型评测体系3.0，暨“方升”大模型基准测试体系。据介绍，测试指标重点强化行业和场景导向的能力考查，提出了自适应动态测试方法，测试数据超过百万条，并首次推出面...……更多

2023-12-26 17:41:00信通,人工智能,中国,人工,伙伴,智能

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...，专注计算硬件的科技媒体 The Information 发布了一份对比评测报告，声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons，这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

百川智能发布baichuan3稳定语言模型

...布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichua...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川