逻辑推理,推理,逻辑,模型,语言,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...数。ARC-AGI由Keras之父Fran ? ois Chollet开发，主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示，在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%。这标志着，o3的最佳成绩超过...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...爆火，利用纯提示方法让普通LLM摇身一变，成为具备复杂推理能力的OpenAI o1。九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

真香！智谱大模型，有了首个免费的API

...性的同时增加多样性）。体验地址：https://open.bigmodel.cn/逻辑推理能力，从简单到复杂，包含一般逻辑推理和数学推理。测试 1：先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题，很容易就答对了。类似的数字...……更多

2024-08-28 09:43:00真香,模型,模型,能力,应用,开发

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

位列第一梯队，腾讯混元再度领跑国内大模型

...、多维度的综合性测评基准，由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本，通过多维度综合性测评，真实准确地反映了国内外大模型...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

“AI科学家”登场科研自动化时代来了？

...调遣语言模型之外的其他技术。例如，解决数学问题需要逻辑推理，而目前大多数AI模型都不擅长逻辑推理。鉴于此，谷歌深度思维公司开发出AlphaGeometr，将语言模型与符号引擎(使用符号和逻辑规则进行推理)相结合，构建出一...……更多

2024-09-12 07:47:00科学家,科研,自动化,科学,时代,科学家

o1带火的CoT到底行不行？新论文引发了论战

... CoT 带来增益最大的三类任务分别是：符号推理、数学、逻辑推理。在这三个任务上，CoT 实现的平均性能为 56.9，而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例（图中用黄色高亮标记出了 10 个），也或多或少与这...……更多

2024-09-21 09:37:00新论,推理,符号,性能,任务,数据

第二届世界科学智能大赛启动向全球发起选手招募

...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理，打造‘灰盒’可信大模型。具体而言，通过融合科学规律、观测数据和合成数据，开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席，上智...……更多

2024-07-05 14:45:00第二届,招募,选手,大赛,智能,科学

GPT刚刚公开「草莓」项目：推理能力翻倍，定价200美元？

... OpenAI 在大语言模型领域的新尝试，也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看，相比以往的 GPT 模型，「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力，使其成为通用人...……更多

2024-09-12 09:49:00推理,草莓,定价,能力,项目,草莓

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...水平（图中0.0边界）甚至超越，其中不乏非常有挑战性的逻辑推理任务，比如需要复杂多步骤推理的BBH（Big-Bench Hard）和数学应用题测试集GSK8k。其中的HellaSwag测试集，由华盛顿大学和Allen AI在2019年推出，专门针对人类擅长但LLM...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

Transformer推理天花板被谷歌打破？DeepMind

...科学家Denny Zhou拿出一篇ICLR 2024论文称：CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终，CoT会是通往AGI的正确路径吗？随着OpenAI o1的爆火，最近CoT也成了圈内热议的高频词。靠着CoT的强力加持，o1...……更多

2024-09-21 09:43:00天花,天花板,推理,首席,科学家,科学

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...一在今年5月的 OpenCampass 测试榜单中，TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中，以 86.9 分的成绩排名第一。其通用能力较 Tele……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

Anthropic再反击！发布Claude 3.5吊打GPT

...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看，其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言，“太卷了，现在AI竞争是要以周为单位了吗？” 从官方介绍来看，Claude 3.5全家桶仍会有3款系列模型，...……更多

2024-06-21 11:50:00逻辑推理,推理,逻辑,视觉,方面,模型

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

360智脑7b参数模型采用3.4万亿tokens训练

...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测试中，360选择其中...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型

...代知识增强大语言模型，具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天，让它给你画一幅画，或者问它一些专业问题，写策划、做攻略，敲代码、做表格等等，高效便捷地帮助大家获取信息、知识和...……更多

2023-11-24 17:28:00中国馆,文心,中国,第二届,模型,全球

大模型“翻车”小学题？

...相关性，使得AI在文字创作上达到人类平均水平，而数学推理更需要的是因果性，数学是高度抽象和逻辑驱动的，与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学，除了学习世界知识外，还应该有思维...……更多

2024-07-18 16:39:00模型,小学,模型,小数,记者,南都

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...据的问题，构建百万量级合成数据，分门别类提升数学、逻辑推理、代码等能力；针对RLHF泛化性弱的问题，在离线DPO的基础上引入了二阶段在线强化策略，实现整体效果处于业界头部水平，文本创作、知识问答、数理逻辑及代...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

...在MMLU（多任务语言理解）、Knowledge（知识）、Reasoning（推理）、Comprehension（理解）等关键指标上均超越了Meta Llama 2的13B模型。这一个故事，在2024年2月1日的发布会上，也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

最新成果！百度CTO王海峰揭秘文心大模型4.0

...模型4.0训练算法效率提升3.6倍，周均训练有效率超过98%，推理性能提升50倍。王海峰认为，人工智能具有多种典型能力，理解、生成、逻辑、记忆是其中的基础能力，这四项能力越强，越接近通用人工智能，而大语言模型具备了...……更多

2023-10-29 04:43:00王海,王海峰,文心,模型,成果,文心

GPT-4o的识图能力有多牛？四大维度深度体验

...呈现，准确率高达100%。图片来源：GPT-4o四、手写指令和逻辑推理最后，记者上了点难度，用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅准确识别了手写体文字并遵照指示，且答题逻辑完...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...，是全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升，数学/推理/代码/文创能力提升超过30%。（天工3.0模型参数超越Grok-1，成全球最大开...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。论文一作为华人学者Tian...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

科大讯飞股价跌停，市值蒸发120亿元

...为单位数，提升最多的是代码能力，仅有提升9%，其次是逻辑推理（8%），文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时，七大能力大幅度提升，其中语言理解能力提升78%，文本生成、知识...……更多

2023-10-24 16:15:00跌停,讯飞,市值,股价,蒸发,讯飞

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改

...练阶段使用合成数据的例子当属Phi-1.5模型，目的是注入逻辑推理能力。微调掌握了语言的一般结构后，下一步就是微调，让模型更好地遵循指令、完成特定任务。比如，要让模型提高逻辑推理能力、实现更好的代码生成和函数...……更多

2024-07-30 09:38:00手把,英伟,最新技术,模型,代码,数据

2023IDEA大会：让大模型更好应对复杂问题

...本正经的胡说八道”怎么解？众所周之，大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性，这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷，是当下AI应用的重要课题。为此，IDEA...……更多

2023-11-24 10:53:00模型,大会,问题,模型,研究,能力

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

...出的巨大潜力，而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同，大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类：虽然不是每个人都需要具备...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...理解能力大致可以从中管中窥豹，下面考验一下Mistral的逻辑推理能力，题目是这样的：和人类的常规思路一样，Mistral Large 2解答这道题时用的也是假设法，先假定甲说的是真话。直到下图中的倒数第二行分析得都还完全正确，...……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

云计算一哥终于搞多模态了：一口气6个大模型，还有个3nm芯片

...mazon Nova Premier：亚马逊最强多模态大模型，可处理复杂的推理任务，也可用于蒸馏客户定制化的模型。在现场，Andy也晒出了Amazon Nova在CRAG、BFCL、VisualWebBench和Mind2Web等Benchmarks上取得的分数。从成绩中不难看出，其在检索增强……更多

2024-12-05 09:45:00模态,一口,芯片,模型,一口气,亚马

360安全大模型3.0亮相

...成、方案规划、目标拆解能力；判别中枢具有信息抽取、逻辑推理、是非判断、研判检测能力；道德中枢具有情感分析、道德法律能力；记忆中枢具有信息记忆能力。此外，360以安全大模型为“大脑”，构建出智能体框架，通过...……更多

2024-04-01 02:22:00模型,安全,安全,模型,能力,中枢