事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...hinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：中文：专注于中文语言，并特地包含中国文化等特...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

...度。例如，大语言模型通常会生成冗长的回复，包含大量事实性陈述。最近，为解决上述评估问题，OpenAI发布了简短问答基准（SimpleQA），其中包含4326个简洁且寻求事实的问题，使得衡量真实性变得简单可靠。然而，简短问答基...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...：中国新闻网近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)，结果显示，三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，SenseChat 3.0 同样排名第一，领先...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

GPT-4就是冲着赚钱来的！

...力虽然在很多现实场景中不如人类，但在各种专业和学术基准测试中表现出了与人类相当的水平。不管怎么说，GPT-4确实在商业化上更进一步了。GPT-4和GPT-3.5的部分考试成绩在此之前，ChatGPT以及GPT-3在专业领域的表现一直被人们...……更多

2023-03-16 09:00:00就是,模型,阿拉贡,能力,训练,模态

中文大模型最新评测出炉：腾讯混元国内第一！

...技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态理解...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果，其中文能力尤为出色，在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外，Skywork-13B系列大模型还将开...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

360集团携手中国信通院共促人工智能安全发展

...院（以下简称中国信通院）联合360集团，发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

360智脑7b参数模型采用3.4万亿tokens训练

...任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测，360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

微软华人团队发布全新基准AGIEval，专为人类考试而生

...能。GPT-4利用对抗性测试和ChatGPT进行了反复调整，从而在事实性、可引导性和对规则的遵守方面有了明显的改进。Text-Davinci-003是GPT-3和GPT-4之间的一个中间版本，通过指令微调后比GPT-3的性能更好。除此之外，实验中还报告了人...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型