逻辑推理,新论,推理,缺陷,逻辑,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

...地依赖于训练数据中的模式进行预测。当需要进行真正的逻辑推理时，这些模型往往无法产生合理的结果，这一发现对人工智能的发展提供了重要的参考。虽然LLM在许多领域表现优异，但其推理能力仍有待改进。【本文结束】如...……更多

2024-10-13 14:15:00逻辑推理,新论,推理,缺陷,逻辑,模型

o1带火的CoT到底行不行？新论文引发了论战

... CoT 带来增益最大的三类任务分别是：符号推理、数学、逻辑推理。在这三个任务上，CoT 实现的平均性能为 56.9，而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例（图中用黄色高亮标记出了 10 个），也或多或少与这...……更多

2024-09-21 09:37:00新论,推理,符号,性能,任务,数据

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发，他们一直对 AI ...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o，但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评，物理评价较高，而生物、化学评价较低，综合认为o1在认知上达到硕士水平...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

谷歌最新自然语言推理算法

...读理解和问答等任务中取得了极高的性能，但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」（ChainofThought,CoT）横空出世，有研究人员发现，只需要在prompt中加入「Let'sthinkstepbystep」就能让GPT-3的推理性能大幅...……更多

2023-01-09 21:57:00自然语言,算法,推理,自然,语言,目标

号称博士生水准！OpenAI最新模型仍分不出9.11和9.8

...出现的松鼠。这类游戏的逻辑相对复杂，更考验OpenAI o1的逻辑推理能力。官方还表示，相较于GPT-4o等现有的大模型，OpenAI o1能够解决更加困难的推理问题，同时改善过往模型中存在的机制性缺陷。比如在解答编程问题时也会更有...……更多

2024-09-14 10:18:00博士生,水准,模型,博士,推理,模型

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...达14.3%，显著高于DeepSeek-V3的3.9%，也远远超过行业的其他推理模型，比如OpenAI-o1的测试结果是2.4%。这种AI大模型生成内容与真实数据不符，或偏离用户指令的现象，会极大影响用户的使用体验。在医疗、法律、金融等对准确性要...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...水平（图中0.0边界）甚至超越，其中不乏非常有挑战性的逻辑推理任务，比如需要复杂多步骤推理的BBH（Big-Bench Hard）和数学应用题测试集GSK8k。其中的HellaSwag测试集，由华盛顿大学和Allen AI在2019年推出，专门针对人类擅长但LLM...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

大语言模型逻辑推理“很糟糕”

...个只有8%。研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效，对大语言模型的答案进行了分类。实验的第一个结果是，在每个测试重复十次的情况下，答案是不一致的。例如，在同一个测试中，有的模型十次中答...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操

Claude操控电脑，究竟可以做到什么程度？新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟...……更多

2024-11-26 09:43:00新论,电脑,任务,模型,动作,测试

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...始在一些权威评测中取得领先。今天，国内首款具备中文逻辑推理能力的 o1 模型来了，它便是由昆仑万维推出的「天工大模型 4.0」 o1 版（英文名：Skywork o1）。这也是近一个月来，该公司在大模型及相关应用上的第三次大动作...……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑

...看看DoT长啥样。大模型复杂推理新框架如前所述，DoT将逻辑推理过程建模为在单个LLM内构建有向无环图（DAG）。其框架内部管理三个关键角色：提议者：生成命题或推理步骤，添加新节点。批评者：评估命题，识别错误、不...……更多

2024-09-24 13:36:00维图,院士,逻辑,模型,一致,理论

Transformer推理天花板被谷歌打破？DeepMind

...科学家Denny Zhou拿出一篇ICLR 2024论文称：CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终，CoT会是通往AGI的正确路径吗？随着OpenAI o1的爆火，最近CoT也成了圈内热议的高频词。靠着CoT的强力加持，o1...……更多

2024-09-21 09:43:00天花,天花板,推理,首席,科学家,科学

罕见病AI大模型“协和·太初”正式进入临床应用

...数据+知识”混合驱动等技术，并成功引入DeepSeek-R1的深度推理能力，构建起罕见病诊疗的智能基座，使得该模型具备决策逻辑符合临床思维范式、能有效抑制AI幻觉、知识自主迭代三大核心优势。“希望该模型的技术指标跻身国...……更多

2025-02-19 09:34:00太初,协和,临床应用,临床,模型,应用