事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...hinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：中文：专注于中文语言，并特地包含中国文化等特...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

...度。例如，大语言模型通常会生成冗长的回复，包含大量事实性陈述。最近，为解决上述评估问题，OpenAI发布了简短问答基准（SimpleQA），其中包含4326个简洁且寻求事实的问题，使得衡量真实性变得简单可靠。然而，简短问答基...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

「虎博科技」发布自研多模态大模型TigerBot，开源模型、

...listic Modeling，结合到大模型中。“假设人类在问模型一个事实性问题，Tigerbot不会只是简单地生成自然语言，而是同步利用更少量的数据就能知道人类意图——在回答上，则会更好的权衡事实性和创造性。”陈烨补充。这样的结...……更多

2023-06-07 13:04:00模型,模态,代码,数据,科技,模型

国内团队新发大模型：ceo上阵写代码

...型可学习性运用ensemble和probabilisticmodeling的方法实现可控事实性和创造性在并行训练上突破deep-speed等主流框架中的内存和通信问题，实现千卡环境下数月无间断针对中文语言更不规则的分布，从tokenizer到训练算法上做了更适合的...……更多

2023-06-07 21:01:00新发,模型,团队,代码,模型,团队

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...：中国新闻网近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)，结果显示，三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

商汤商量获SuperCLUE 9月评测总榜和子榜两项第一，A

...，AI智能体方向受瞩目近日，中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单，商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent（AI智能体）子榜中，SenseChat 3.0 同样排名第一，领先...……更多

2023-10-13 14:26:00商汤,评测,方向,智能,模型,商汤

GPT-4就是冲着赚钱来的！

...力虽然在很多现实场景中不如人类，但在各种专业和学术基准测试中表现出了与人类相当的水平。不管怎么说，GPT-4确实在商业化上更进一步了。GPT-4和GPT-3.5的部分考试成绩在此之前，ChatGPT以及GPT-3在专业领域的表现一直被人们...……更多

2023-03-16 09:00:00就是,模型,阿拉贡,能力,训练,模态

中文大模型最新评测出炉：腾讯混元国内第一！

...技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态理解...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

...、Skywork-13B-Math模型，它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果，其中文能力尤为出色，在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外，Skywork-13B系列大模型还将开...……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

360集团携手中国信通院共促人工智能安全发展

...院（以下简称中国信通院）联合360集团，发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

作业帮正式发布银河大模型

...公布了银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示，作业帮银河大模型表现出色，评测分数领先。银河大模型作为作业帮自主研发的大语言模型，深度融合作业帮多年的AI算法沉淀和教育数据积累，...……更多

2023-09-02 14:12:00银河,模型,作业,银河,模型,作业

360智脑7b参数模型采用3.4万亿tokens训练

...任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测，360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

微软华人团队发布全新基准AGIEval，专为人类考试而生

...能。GPT-4利用对抗性测试和ChatGPT进行了反复调整，从而在事实性、可引导性和对规则的遵守方面有了明显的改进。Text-Davinci-003是GPT-3和GPT-4之间的一个中间版本，通过指令微调后比GPT-3的性能更好。除此之外，实验中还报告了人...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出，Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B，几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

Bengio团队提出多模态新基准，直指Claude 3.5和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

GPT-4不仅性能更强也更贵了：单次输出7.5万单词需6美元

...T-4仍存和此前模型相似的局限性，仍然不完全可靠，存在事实性“幻觉”并出现推理错误，可能自信地在其预测中犯错。同时，它的使用价格也更贵，其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4实现多项突破，晋升“考霸”相...……更多

2023-03-15 21:00:00单词,输出,性能,模型,文本,语言

蚂蚁金融大模型正式发布未来金融平台业务将全线接入

...容生成的安全可控问题，蚂蚁金融大模型采用意图识别与事实性校验相结合的方式，有效提升了生成内容的合规性、安全性和真实性。目前，蚂蚁金融大模型已率先在理财和保险领域进行应用测试。未来，蚂蚁集团与金融机构合...……更多

2023-09-08 20:34:00金融,全线,接入,蚂蚁,模型,业务

文心一言发布百度市值蒸发200亿，外界称缺乏亮点，应用前景难

...具备一定的数学推理思维能力，不会像ChatGPT之前在回答事实性问题时“胡编乱造”，以及答不出鸡兔同笼问题。李彦宏在采访中表示，这得益于文心一言做了知识增强和检索增强，其中知识增强具备5500亿的知识图谱的事实，叠...……更多

2023-03-17 10:00:00文心,市值,蒸发,外界,前景,亮点

位列第一梯队，腾讯混元再度领跑国内大模型

...内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中，腾讯混元大模型位列国内大模型第一梯队，在基础和场景应用上均处于领先位置，位于卓越领导者象限。SuperCLUE是国内权威的通用大模...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

Google推出全新人工智能模型Gemini 2.0 用途更

... 事实上，该公司表示，2.0 Flash 凭借其卓越的数学能力和"事实性"，取代 1.5 Pro 成为 Gemini 的旗舰模型。如前所述，2.0 Flash 可以生成并修改文本和图像。该模型还能采集照片和视频以及录音，以回答相关问题（例如"他说了什么？...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

度小满发布“轩辕70B”金融大模型

...公布了“轩辕70B”在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示，在C-Eval榜单上，XuanYuan-70B的总成绩达到71.9分；在CMMLU榜单中，以71.05分的高分位居榜首，在两大权威榜单上的所有开源模型中排名第一，也是国内...……更多

2023-09-22 16:42:00轩辕,模型,金融,模型,金融,轩辕

云从科技从容大模型荣登中国大模型第一梯队

...突破。据权威测评机构SuperCLUE发布的最新《中文大模型基准测评报告》，云从科技自主研发的从容大模型不仅成功晋升至【领导者象限】，更以总分70.35分的优异成绩稳居国内大模型综合测评第六位，正式步入国内大模型第一...……更多

2024-08-09 15:00:00模型,梯队,中国,从容,科技,模型

王小川公布最新530亿百川大模型，阿里腾讯等超150家企业已

...型均已在Hugging Face、Github和Model Scope等平台上线。具体到基准评测上，根据此前百川智能公布的结果显示，在MMLU评测中，baichuan-7B综合评分达42.5分，超过了英文开源大模型LLaMA-7B的34.2分、中文开源模型ChatGLM-6B的36.9分；中文……更多

2023-08-09 15:00:00百川,王小川,王小,腾讯,阿里,模型