事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...hinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：中文：专注于中文语言，并特地包含中国文化等特...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

...度。例如，大语言模型通常会生成冗长的回复，包含大量事实性陈述。最近，为解决上述评估问题，OpenAI发布了简短问答基准（SimpleQA），其中包含4326个简洁且寻求事实的问题，使得衡量真实性变得简单可靠。然而，简短问答基...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...：中国新闻网近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)，结果显示，三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，SenseChat 3.0 同样排名第一，领先...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

中文大模型最新评测出炉：腾讯混元国内第一！

...技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态理解...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果，其中文能力尤为出色，在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外，Skywork-13B系列大模型还将开...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

360集团携手中国信通院共促人工智能安全发展

...院（以下简称中国信通院）联合360集团，发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

360智脑7b参数模型采用3.4万亿tokens训练

...任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测，360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

Bengio团队提出多模态新基准，直指Claude 3.5和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

位列第一梯队，腾讯混元再度领跑国内大模型

...内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中，腾讯混元大模型位列国内大模型第一梯队，在基础和场景应用上均处于领先位置，位于卓越领导者象限。SuperCLUE是国内权威的通用大模...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

云从科技从容大模型荣登中国大模型第一梯队

...突破。据权威测评机构SuperCLUE发布的最新《中文大模型基准测评报告》，云从科技自主研发的从容大模型不仅成功晋升至【领导者象限】，更以总分70.35分的优异成绩稳居国内大模型综合测评第六位，正式步入国内大模型第一...……更多

2024-08-09 15:00:00模型,梯队,中国,从容,科技,模型

港中文团队提出大模型元推理范式，革新大模型的评价体系

...对大模型的研究范式存在一定的不足，于是决定来到香港中文大学读博。图 | 曾忠燊（来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，他们又针对现有数据集，提出了一种改造方法。实验...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...造力、复杂性和冗长性等多个属性，以及指令跟随能力- 事实性/内容出处：针对LLM应用中日益重要的幻觉问题，几个数据集都用于评估响应输出的事实准确性及其基础，看模型提出的声明是否有源文档作为依据- 数学推理：区分L...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确

...模型很难严格遵从人类的指令。此外，大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型，来补充事实性不足的问题，以及 GraphRAG，用图的方式去重新组织它的检索。但问题...……更多

2024-09-13 13:33:00知识,准确率,推理,蚂蚁,框架,模型

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

...我们现在评测标准本身里面有一些维度，比如像专业性、事实性、完整性、用户体感。用户体感就是用户自己去标注，来判断是不是像医生来交流。量子位：之前张亚勤提到这样一个演变趋势：信息智能——具身智能——生物智...……更多

2024-09-29 09:55:00军大,切入点,模型,支付,医疗,应用

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公平性（Fairness）、隐私保护（Privacy），并进行二级分类，有针对性地构建了任务、指标、数据集来提供全面...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

货拉拉CTO张浩：货运无忧大模型已在多场景应用

...、轻量化，定位为“你身边的物流专家”。目前，其货运事实性问答准确率超过90%，在货拉拉业务知识、货运行业概念知识、货运企业信息、货运行业洞察、货运法律政策等维度能力评测中均表现优秀。而在非货运领域，货拉拉...……更多

2024-03-29 11:32:00张浩,无忧,货运,模型,场景,应用

谷歌推出搜索增强事实评估器

...诟病的行为——以看上去令人信服的方式，向用户提供与事实不符的回答。简单来说，AI有时会在回答中“满口跑火车”，甚至“造谣”。图源Pixabay防止AI大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒Marktec...……更多

2024-04-01 11:59:00事实,评估,搜索,事实,机器人,模型

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

智源评测体系发布国内外“百模”评估结果出炉

...则主要评估了多模态理解和生成能力。评测结果显示，在中文语境下，国内头部语言模型的综合表现已接近国际一流水平，但存在能力发展不均衡的情况。在多模态理解图文问答任务上，开闭源模型平分秋色，国产模型表现突出...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...练数据中增加了 27 种语言相关的高质量数据；多个评测基准上的领先表现；代码和数学能力显著提升；增大了上下文长度支持，最高达到 128K tokens（Qwen2-72B-Instruct）。模型基础信息Qwen2 系列包含 5 个尺寸的预训练和指令微调模...……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...nAI o1模型（至少目前）还不是多模态大模型，同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面，GPT-4o依然是更胜一筹的选择。当然，OpenAI明确表示未来会给这个模型增加联网、文件和图像...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

清华发布2024年3月版《SuperBench大模型综合能力

...力评测中，文心一言4.0表现优异，位居国内第一，其中在中文推理、中文语言等评测上，文心一言遥遥领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排...……更多

2024-04-22 09:46:00评测报告,清华,模型,评测,能力,报告

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。为此， LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

20款国产大模型角逐“最强王者”

...海外最具公信力的大模型竞技场之一，遗憾的是该竞技场中文化程度相对不足。为此，Compass Arena的推出将有效填补这一领域的空白。相比考题固定的传统测评，中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式，...……更多

2024-06-02 05:34:00王者,模型,国产,模型,竞技场,评测

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微

...技场上的得分，已经超越了GPT-3.5和Mixtral 8x7B！在MMLU和MBPP基准测试中，它分别取得了56.1和36.6的优异成绩；比起前代模型Gemma 1 2B，它的性能超过了10%。小模型击败了大几个数量级的大模型，再一次印证了最近业界非常看好的小模...……更多

2024-08-02 09:55:00小钢炮,显微镜,大脑,模型,编码器,特征

更安全的AI，更容易被用户抛弃？｜产品观察

...言的概率会是此前的一般。“我们通过整理一系列复杂的事实性问题，测试Claude 2.1的诚实度。这些问题探究了模型的已知弱点。”Antropic表示。举例来说，拿一个信息错误的陈述句（“玻利维亚人口第五多的城市是蒙特罗”）和...……更多

2024-01-08 12:28:00观察,安全,用户,产品,用户,宪法

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...含34B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单，Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可，成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

page 1/1000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

记者走基层｜裸眼3D，让影像“悬浮”在空中

10月27日，河北景优数字仿真科技有限公司，三维视觉设计师正在制作3D片源。河北日报记者常方圆摄一只蜜蜂翩然“飞”离播放设备

2025-10-28 08:33:00

第三届山西省智能制造推进大会在太原举行

10月27日，第三届山西省智能制造推进大会在太原举行。在山西省卓越级智能工厂和智能制造优秀供应商授牌仪式上，太钢不锈钢股份有限公司

2025-10-28 07:23:00

从“复活”一只龙鸟到定义一个产业，越疆用具身智能撬动文化科技

当电影《博物馆奇妙夜》中展品“活”过来的奇幻场景照进现实，一场由科技驱动的文旅产业变革正悄然拉开序幕。近日，越疆初息工厂宣布成功打造全球首个超仿生具身智能体——以多模态具身智能技术“复活”的中华龙鸟

2025-10-28 07:48:00

近400名人才角逐南京市“双创项目”

近400名人才角逐南京市“双创项目”人才“赛马”金陵城，创新与产业双向奔赴□南京日报/紫金山新闻记者张安琪10月26日

2025-10-28 07:50:00

消协帮您找扫码辨商品 “消协315”小程序上线新功能

中国消费者协会与中国物品编码中心合作，于近日在“全国消协智慧315”小程序上线“消协帮您找，扫码辨商品”新功能。该功能依托编码中心国家商品数据库的权威信息

2025-10-28 07:58:00

大金科工开业！锚定3亿年产值，打造绿色智造新标杆！

近日，大金科工（天津）车业有限公司（以下简称“大金科工”）开业仪式在武清开发区举行。大金科工由大行科工（深圳）股份有限公司与金轮集团共同注资成立

2025-10-27 14:11:00

电竞赛事下沉重构经济文化新生态

第十二届王者荣耀全国大赛举办颁奖礼第十二届王者荣耀全国大赛总决赛落地天津五大道民园广场无畏契约嘉年华前王者荣耀职业联赛选手刺痛（右）与粉丝合影无畏契约瓦友社迎新季线下活动和平精英村镇赛广东清远站

2025-10-27 14:11:00

2025中国GEO服务市场格局解读：主流GEO服务商优势对比

据IDC数据显示，2025年中国GEO市场规模突破200亿元，年复合增长率高达67%，超过78%的企业已将GEO纳入品牌增长与智能营销的核心战略

2025-10-27 14:20:00

中国品牌出海：从产品制造向品牌价值跃升

“不出海，就出局。”这句话听起来很极端，但折射出中国制造业在全球化时代的现实处境。今天，中国企业出海，已不再是讨生活般的生存选择

2025-10-27 14:23:00

喜讯！毕节这家电厂获两项国家实用新型专利

多彩贵州网讯(通讯员田永梅张仁玉)近日，纳雍电厂自主研发的“一种可移动手持电压波形示波器判断N600中性线断线装置”与“一种新型二次回路防误碰接线端子隔板”两项创新成果

2025-10-27 15:05:00

顺丰超脑2.0获2025 CCF科技成果奖，本年度物流领域唯

10月24日，在中国计算机大会（CNCC 2025）的颁奖典礼上，顺丰科技携手深圳大学申报的“面向物流网络的专家智能体+垂域 AI 模型协同决策技术研究与规模化应用”项目脱颖而出

2025-10-27 15:40:00

2025《财富》中国最佳设计奖揭晓东软榜上有名

近日，2025年《财富》中国最佳设计榜单正式揭晓，东软集团全资子公司东软云科技推出的“重塑用药指导体验”创新数字服务实践成功登榜

2025-10-27 15:46:00

“运动健身”交易同比增长超111%！贵州年轻人健康消费升温

记者日前从美团获悉，今年以来，贵州地区各种潮流运动消费需求明显，“运动”关键词搜索量同比增长超51%，其中，“保龄球”搜索量同比增长超181%

2025-10-28 00:32:00

重塑智慧农业新未来 | 潍柴雷沃发布中国首个智慧农业AI大模

鲁网10月27日讯10月26日，在2025中国国际农业机械展览会上，潍柴雷沃智慧农业AI大模型全场景重磅发布，全面赋能农业生产从播种

2025-10-27 16:21:00

内功修炼+市场开拓河钢张宣科技镀锌产线强势创效

河北新闻网讯（董佳倩）近日，河钢集团张宣科技传来捷报，其镀锌产线凭借“内功修炼+市场开拓”实现经营创效。9月份，该公司镀锌丝产品销量环比增长77%

2025-10-27 18:01:00

头条订阅服务