逻辑推理,推理,逻辑,模型,语言,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

微软发布旗下最小语言模型phi-2

...相比较其它主流语言模型，依然小很多。微软表示Phi-2在逻辑推理和安全性方面显示出显著的改进。通过正确的微调和定制，小型语言模型是云和边缘应用程序的强大工具。MicrosoftResearch机器学习基础小组负责人SebastienBubeck在Twitt...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...程能力“爆表”新模型到底有多强？它在需要深入思考和逻辑推理的专业任务上不仅吊打GPT-4o，还超过了拥有博士学位的人类专家。OpenAI表示，新模型在物理、化学和生物等学科的挑战性基准测试中，表现超过人类专家。在国际...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...而不是像 CoT 那样过早地进行单一的确定性路径。在某些逻辑推理任务中，Coconut 的表现优于 CoT，因为在规划过程中需要大量的回溯，而在推理过程中则需要较少的思考 token。论文链接：https://arxiv.org/abs/2412.0676911.GameArena：通过...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...数。ARC-AGI由Keras之父Fran ? ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%。这标志着，o3的最佳成绩超过...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...达14.3%，显著高于DeepSeek-V3的3.9%，也远远超过行业的其他推理模型，比如OpenAI-o1的测试结果是2.4%。这种AI大模型生成内容与真实数据不符，或偏离用户指令的现象，会极大影响用户的使用体验。在医疗、法律、金融等对准确性要...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...爆火，利用纯提示方法让普通LLM摇身一变，成为具备复杂推理能力的OpenAI o1。九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

真香！智谱大模型，有了首个免费的API

...性的同时增加多样性）。体验地址：https://open.bigmodel.cn/逻辑推理能力，从简单到复杂，包含一般逻辑推理和数学推理。测试 1：先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题，很容易就答对了。类似的数字...……更多

2024-08-28 09:43:00真香,模型,模型,能力,应用,开发

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

位列第一梯队，腾讯混元再度领跑国内大模型

...、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，真实准确地反映了国内外大模型...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

“AI科学家”登场科研自动化时代来了？

...调遣语言模型之外的其他技术。例如，解决数学问题需要逻辑推理，而目前大多数AI模型都不擅长逻辑推理。鉴于此，谷歌深度思维公司开发出AlphaGeometr，将语言模型与符号引擎(使用符号和逻辑规则进行推理)相结合，构建出一...……更多

2024-09-12 07:47:00科学家,科研,自动化,科学,时代,科学家

o1带火的CoT到底行不行？新论文引发了论战

... CoT 带来增益最大的三类任务分别是：符号推理、数学、逻辑推理。在这三个任务上，CoT 实现的平均性能为 56.9，而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例（图中用黄色高亮标记出了 10 个），也或多或少与这...……更多

2024-09-21 09:37:00新论,推理,符号,性能,任务,数据

第二届世界科学智能大赛启动向全球发起选手招募

...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理，打造‘灰盒’可信大模型。具体而言，通过融合科学规律、观测数据和合成数据，开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席，上智...……更多

2024-07-05 14:45:00第二届,招募,选手,大赛,智能,科学

GPT刚刚公开「草莓」项目：推理能力翻倍，定价200美元？

... OpenAI 在大语言模型领域的新尝试，也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看，相比以往的 GPT 模型，「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力，使其成为通用人...……更多

2024-09-12 09:49:00推理,草莓,定价,能力,项目,草莓

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...水平（图中0.0边界）甚至超越，其中不乏非常有挑战性的逻辑推理任务，比如需要复杂多步骤推理的BBH（Big-Bench Hard）和数学应用题测试集GSK8k。其中的HellaSwag测试集，由华盛顿大学和Allen AI在2019年推出，专门针对人类擅长但LLM...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

Transformer推理天花板被谷歌打破？DeepMind

...科学家Denny Zhou拿出一篇ICLR 2024论文称：CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终，CoT会是通往AGI的正确路径吗？随着OpenAI o1的爆火，最近CoT也成了圈内热议的高频词。靠着CoT的强力加持，o1...……更多

2024-09-21 09:43:00天花,天花板,推理,首席,科学家,科学

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...一在今年5月的 OpenCampass 测试榜单中，TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 Tele……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

Anthropic再反击！发布Claude 3.5吊打GPT

...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看，其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言，“太卷了，现在AI竞争是要以周为单位了吗？” 从官方介绍来看，Claude 3.5全家桶仍会有3款系列模型，...……更多

2024-06-21 11:50:00逻辑推理,推理,逻辑,视觉,方面,模型

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

360智脑7b参数模型采用3.4万亿tokens训练

...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型

...代知识增强大语言模型，具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天，让它给你画一幅画，或者问它一些专业问题，写策划、做攻略，敲代码、做表格等等，高效便捷地帮助大家获取信息、知识和...……更多

2023-11-24 17:28:00中国馆,文心,中国,第二届,模型,全球

大模型“翻车”小学题？

...相关性，使得AI在文字创作上达到人类平均水平，而数学推理更需要的是因果性，数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维...……更多

2024-07-18 16:39:00模型,小学,模型,小数,记者,南都

超越ChatGPT：人类特有的思维要强化

...一数据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足，可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌，但当你尝试问它类似这样...……更多

2023-02-14 06:05:00思维,人类,思维,关联,教育,学习

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...据的问题，构建百万量级合成数据，分门别类提升数学、逻辑推理、代码等能力；针对RLHF泛化性弱的问题，在离线DPO的基础上引入了二阶段在线强化策略，实现整体效果处于业界头部水平，文本创作、知识问答、数理逻辑及代...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

连发两款模型“补课”，百度AI成色如何？

...标DeepSeek-R1，具备长思维链，擅长中文问答、文学创作、逻辑推理等。不过，百度并未公布有关基准测试和DeepSeek-R1、o1等同类模型的对比。搜狐科技注意到，文心大模型X1默认启用联网搜索、代码解释器、文档问答、图片理解、A...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

DeepSeek的能力，到底从哪里来？

...开评测中，它的综合能力逼近当时的顶尖大模型，尤其在逻辑推理和数学题上展现出强劲性能，而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的，是它在训练方式上的简化。以往的模型在提升推理能力时，通...……更多

2025-05-27 10:23:00里来,能力,模型,训练,推理,能力

20多家车企接入DeepSeek：为啥没有“蔚小理华米特”

...上叫我给他们讲讲 AI 是怎么回事。由于同时具备强大的推理能力及开源模型两个特质，导致几乎所有科技公司都在研究怎样和 DeepSeek「深度融合」一下。华为、腾讯、百度、字节等互联网巨头，尽管都有各自自研的模型，但不...……更多

2025-02-14 12:52:00米特,接入,多家,模型,推理,智能

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...在MMLU（多任务语言理解）、Knowledge（知识）、Reasoning（推理）、Comprehension（理解）等关键指标上均超越了Meta Llama 2的13B模型。这一个故事，在2024年2月1日的发布会上，也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

最新成果！百度CTO王海峰揭秘文心大模型4.0

...模型4.0训练算法效率提升3.6倍，周均训练有效率超过98%，推理性能提升50倍。王海峰认为，人工智能具有多种典型能力，理解、生成、逻辑、记忆是其中的基础能力，这四项能力越强，越接近通用人工智能，而大语言模型具备了...……更多

2023-10-29 04:43:00王海,王海峰,文心,模型,成果,文心