逻辑推理,推理,逻辑,模型,语言,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大语言模型逻辑推理“很糟糕”

...个只有8%。研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效，对大语言模型的答案进行了分类。实验的第一个结果是，在每个测试重复十次的情况下，答案是不一致的。例如，在同一个测试中，有的模型十次中答...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

人类和AI在推理任务中的表现相似，Google DeepMi

...，尽管这些模型在处理自然语言方面表现卓越，但在复杂逻辑推理任务中，人类和语言模型都会受到语义内容合理性和可信度的影响，表现出类似的错误倾向。研究背景人类在推理过程中存在两种系统：“直觉系统”和“理性系...……更多

2024-08-19 13:49:00局限性,推理,人类,任务,研究,模型

谷歌最新自然语言推理算法

...读理解和问答等任务中取得了极高的性能，但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」（ChainofThought,CoT）横空出世，有研究人员发现，只需要在prompt中加入「Let'sthinkstepbystep」就能让GPT-3的推理性能大幅...……更多

2023-01-09 21:57:00自然语言,算法,推理,自然,语言,目标

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...竞赛不仅是对人类（碳基智能）思维敏捷性、知识掌握和逻辑推理的极限挑战，更是AI（“硅基智能”）锻炼的绝佳练兵场，是衡量AI与“超级智能”距离的重要标尺。OlympicArena——一个真正意义上的AI奥运竞技场。在这里，AI不...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...概念，提高了大语言模型（LLM，large language models）在复杂推理任务上的性能，例如算术推理、常识推理和符号推理等。图 | 金明宇（来源：金明宇）CoT 的原理是通过提供推理过程的示例，来教会模型处理推理，详细说明导致最...……更多

2024-03-15 10:41:00罗格,罗格斯,推理,模型,团队,概念

昆仑万维：“天工大模型3.0”将于4月17日正式发布同步开

...一代“天工2.0”MoE大模型，“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升，其模型技术知识能力提升超过20%，数学/推理/代码/文创能力提升超过30%。同时，“...……更多

2024-04-01 19:56:00万维,昆仑,模型,将于,同步,参数

百川智能发布baichuan3稳定语言模型

...语言处理和代码生成领域的强大实力。不仅如此，其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4，是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅

...规划和遵循非言语指令，参与多种形式的推理，包括形式逻辑推理、关于世界的因果推理和科学推理（见图 1b）。研究表明，尽管失去了语言能力，一些患有严重失语症的人仍然能够进行所有测试形式的思考和推理，他们在各种...……更多

2024-06-25 09:45:00推理,模型,思维,语言,社区,语言

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...M) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能的发展产生帮助？LLM 为什么会犯...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

混合架构赋予AI人类推理能力

...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)，根据人类输入“提示词”处理和生成文本。研究人员说，过去18个月，这些技...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

...模型的短板，此前行业也多次讨论过大模型的数学和复杂推理能力较差，即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次，第一财经曾在6月报道过，根据司南评测体系OpenCompass的高考全卷测试，包括GPT-4在内，7...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...23 年 2 月。当时，已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己印象最深的例子就是 OpenAI 网站上的一道数学推理的题: Simplify tan100 + 4sin100。根据 OpenAI 自...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

商汤科技与金山办公达成商业合作，“日日新”大模型补强办公软件

...力一直是大模型的痛点，理科领域需要高度的抽象思维和逻辑推理能力，并且要求非常精准的答案，作为计算机科学和信息技术领域的重要工具，代码能力被视作衡量大模型智慧的关键维度。事实上，在过去一年国产大模型如火...……更多

2024-04-12 15:11:00商汤,办公,补强,金山,办公软件,理科

港中文团队提出大模型元推理范式，革新大模型的评价体系

...一定启示。日前，相关论文以《大型语言模型评价中的元推理革命》（MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation）为题发在 arXiv，曾忠燊是第一作者，香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

微软发布旗下最小语言模型phi-2

...相比较其它主流语言模型，依然小很多。微软表示Phi-2在逻辑推理和安全性方面显示出显著的改进。通过正确的微调和定制，小型语言模型是云和边缘应用程序的强大工具。MicrosoftResearch机器学习基础小组负责人SebastienBubeck在Twitt...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

真香！智谱大模型，有了首个免费的API

...性的同时增加多样性）。体验地址：https://open.bigmodel.cn/逻辑推理能力，从简单到复杂，包含一般逻辑推理和数学推理。测试 1：先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题，很容易就答对了。类似的数字...……更多

2024-08-28 09:43:00真香,模型,模型,能力,应用,开发

位列第一梯队，腾讯混元再度领跑国内大模型

...、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，真实准确地反映了国内外大模型...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

第二届世界科学智能大赛启动向全球发起选手招募

...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理，打造‘灰盒’可信大模型。具体而言，通过融合科学规律、观测数据和合成数据，开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席，上智...……更多

2024-07-05 14:45:00第二届,招募,选手,大赛,智能,科学

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...水平（图中0.0边界）甚至超越，其中不乏非常有挑战性的逻辑推理任务，比如需要复杂多步骤推理的BBH（Big-Bench Hard）和数学应用题测试集GSK8k。其中的HellaSwag测试集，由华盛顿大学和Allen AI在2019年推出，专门针对人类擅长但LLM...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

Anthropic再反击！发布Claude 3.5吊打GPT

...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看，其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言，“太卷了，现在AI竞争是要以周为单位了吗？” 从官方介绍来看，Claude 3.5全家桶仍会有3款系列模型，...……更多

2024-06-21 11:50:00逻辑推理,推理,逻辑,视觉,方面,模型

360智脑7b参数模型采用3.4万亿tokens训练

...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型

...代知识增强大语言模型，具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天，让它给你画一幅画，或者问它一些专业问题，写策划、做攻略，敲代码、做表格等等，高效便捷地帮助大家获取信息、知识和...……更多

2023-11-24 17:28:00中国馆,文心,中国,第二届,模型,全球

大模型“翻车”小学题？

...相关性，使得AI在文字创作上达到人类平均水平，而数学推理更需要的是因果性，数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维...……更多

2024-07-18 16:39:00模型,小学,模型,小数,记者,南都

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...在MMLU（多任务语言理解）、Knowledge（知识）、Reasoning（推理）、Comprehension（理解）等关键指标上均超越了Meta Llama 2的13B模型。这一个故事，在2024年2月1日的发布会上，也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

最新成果！百度CTO王海峰揭秘文心大模型4.0

...模型4.0训练算法效率提升3.6倍，周均训练有效率超过98%，推理性能提升50倍。王海峰认为，人工智能具有多种典型能力，理解、生成、逻辑、记忆是其中的基础能力，这四项能力越强，越接近通用人工智能，而大语言模型具备了...……更多

2023-10-29 04:43:00王海,王海峰,文心,模型,成果,文心