巅峰,推理,模型,风云,模型,测试头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

IT之家 12 月 21 日消息，“12 Days of OpenAI”活动已拉上帷幕，OpenAI 的 o3 系列大模型压台登场，官方称在某些场景下，其推理能力非常接近通用人工智能（AGI）。名称最新的 AI 模型为何跳过 o2，叫做 o3 呢？OpenAI 公司首席执行官山...……更多

2024-12-21 09:17:00巅峰,推理,模型,风云,模型,测试

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...人工智能也能参与其中，那将是一场怎样的智慧与技术的巅峰对决？不再仅仅是肢体的较量，AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。 ……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...小尺寸版o1-mini。OpenAI官方发文称，新模型旨在解决复杂推理问题，训练模型在响应之前花更多时间思考，类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称，该模型可以解决科学、编程和数学等更...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...术分享直播活动的最后一天！周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

大语言模型逻辑推理“很糟糕”

...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕：它们犯下前后不一致的错误，而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明，大语言模型所依赖的语料库往往反...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

来源：硬AI圣诞节前，人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒，谷歌刚发布自家的先进推理模型挑战OpenAI的o1，第二天，OpenAI就推出了升级版的最强推理模型o3。美东时间12月20日周五，在为期12个...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模

...，和网友猜测的一样，人工智能（AI）巨头OpenAI发布最新推理模型o3和o3-mini。前一天，OpenAI公司CEO山姆·奥特曼（Sam Altman）就曾发文提到三个“o”暗示了o3的到来。为何新模型跳过了o2直接命名o3？奥特曼表示是为了避免和英国电...……更多

2024-12-21 12:10:00推理,模型,直播,推理,模型,时间

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...本质的不同。其不仅进入到复杂的领域，还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

影响英伟达根本逻辑的大争论：OpenAI改变策略意味着什么？

大模型预训练“缩放定律”定律失效？模型推理成“解药”，英伟达一家独大格局要变天？“缩放定律”指导下，AI大模型预训练目前遭遇瓶颈。据路透12日报道，硅谷主要AI实验室的新模型训练计划目前普遍进展不顺，新模型...……更多

2024-11-13 14:09:00英伟,争论,逻辑,意味,根本,策略

全球科研团队竞逐低成本AI模型研发新范式

...基座大模型基础上，仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心（OpenAI）开发的o1、中国深度求索公司的DeepSeek-R1等，但此类尝试意味着企业可以较低成本研发出适合自...……更多

2025-02-27 05:08:00范式,模型,科研,团队,成本,全球

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...达14.3%，显著高于DeepSeek-V3的3.9%，也远远超过行业的其他推理模型，比如OpenAI-o1的测试结果是2.4%。这种AI大模型生成内容与真实数据不符，或偏离用户指令的现象，会极大影响用户的使用体验。在医疗、法律、金融等对准确性要...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根据给定的prompt难度，动态地分配测试时（Test-Time）的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

近日，OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力，将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

Gemini 开启大模型路线之争，新战场将“数流成河”

...k母公司Meta或特斯拉，跻身所谓“七巨头”。3、作为登上巅峰后迄今为止在互联网搜索领域的完全统治地位的 Google，这一年天天度日如年，这一年内讨论 Google 被颠覆话题占有史以来的99%以上，如果谷歌输掉这场AI之战会怎么样...……更多

2023-12-15 10:02:00成河,战场,模型,路线,马斯,马斯克

ChatGPT o1满血版上线！实测中它竟然败给了国产AI？

...特曼用一个简单的柱状图给出了对比：可以看到o1在数学推理和编程领域的表现要明显优于o1-preview，提升幅度在50%左右，而在科研领域的测试里，o1相对于o1-preview的表现就提升有限了。图源：OpenAI考虑到o1模型不需要额外加钱就...……更多

2024-12-11 20:12:00实测,国产,模型,推理,文心,答案

DeepSeek/o3的弱点找到了！三心二意明明对了又改错

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究...……更多

2025-02-04 19:41:00弱点,模型,推理,答案,思路,准确率

OpenAI并未让DeepSeek惊出一身冷汗

...谑道，一直传GPT-5或将在5月发布，到底OpenAI还能不能重回巅峰，只有到时候揭晓了。责任编辑：若风文章内容举报 ……更多

2025-04-17 23:25:00冷汗,一身,模型,图像,人士,能力

阿里推出全新推理模型：仅1/21参数媲美DeepSeek R

...况下，用强化学习实现了性能上的跨越。此外，阿里还在推理模型中集成了与Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。QwQ-32B 在一系列基准测试中进行了评估，测试了数学推...……更多

2025-03-06 07:42:00阿里,推理,模型,参数,全新,能力

上海AI实验室版o1已上线！数学题、Leetcode全拿下，

...编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker，刚刚正式开放试用！新模型不仅在长思维能力方面有了很大提升，而且还能在推理过程中进行自我反思和纠正。先来一起看两个例子感受一下：比...……更多

2024-11-29 09:27:00数学题,上海,实验室,实验,数学,模型

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型，一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

新智元报道编辑：乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

面壁智能发布开源大模型eurux-8x22b

...大模型Eurux-8x22B，包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO，主打推理能力。官方测试中，Eurux-8x22B 在 LeetCode（180道LeetCode编程真题）与 TheoremQA（IT之家注：美国大学水准的STEM题目）测试上超越了 Llama3-70B……更多

2024-05-04 08:57:00模型,智能,测试,数据,模型,推理