国内国际社会时尚情感人文汽车健康

头条订阅服务

体育娱乐财经军事科技游戏教育育儿

三国以色列人工智能AI ChatGPT 数字经济

我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

类别：科技发布时间：2025-02-04 19:41:00 来源：浅语科技

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。

最新研究揭示：

在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败——这种现象被研究者称为Underthinking（欠思考）。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

通过分析AI的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个tokens对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上，对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看，类o1模型在错误回答中比正确回答多消耗了225%的token，原因是思维切换频率增加了418%。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到，许多模型在回答开头阶段的思路是正确的，但并未继续深入完成推理。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

超过70%的错误回答中至少包含一个正确的思路。此外，在超过50%的错误回答中，有10%以上的思路是正确的。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

如下图所示的例子，例如，Thought 1通过识别给定方程类似于以(0,0)和(20,11)为中心的椭圆方程，启动了正确的解释。

将两个表达式设为相等，是寻找满足这两个方程的公共点(x, y)的有效方法。

然而，模型并未专注于深入探索这一合理思路，使用进一步的代数操作和优化技术进行分析，而是频繁切换思路，额外消耗了约7270个token，却依然未能得出正确答案。

最终，它得出一个缺乏扩展COT过程支持的猜测答案。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

基于这些观察，研究人员提出了一个用于量化Underthinking程度的指标（Underthinking Metric）。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

这个指标通过测量错误答案中的token使用效率来评估推理效率，计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。

实验结果表明，所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在MATH500-Hard和GPQA Diamond数据集上，性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时，其UT得分也更高，表明错误回答中存在更多思维不足。

这意味着，尽管模型整体能力更强，但在不确定时可能生成更长但效率较低的推理过程，可能是因为模型探索了多个错误的推理路径，却未能有效收敛到正确解答。

相反，在AIME2024测试集中，DeepSeek-R1-671B模型不仅取得了更高的准确率，还表现出较低的UT得分，反映出较少的思维不足和更高的token效率。

这表明模型在该任务中，即使未得出正确答案，其推理过程依然保持专注和高效，团队表示这可能是因为模型与 AIME2024所要求的问题类型和推理过程更好地对齐。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让AI学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”？

研究者借鉴了人类考试策略，提出了一种“思路切换惩罚机制” （Thought Switching Penalty，TIP）。

其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试10分钟再换思路。”

技术细节上，TIP会对触发思路切换的关键词施加惩罚，降低这些词在解码过程中的生成概率，迫使模型在当前路径上探索更久。

例如，当模型开始写“Alternatively, we can consider…”时，TIP会通过调整参数（惩罚强度α和持续时间β），抑制这种过早的切换倾向。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

实验结果显示，加入TIP能让模型在数学测试上的准确率上升，同时UT Score下降，说明既减少了无效切换，又提高了答案质量。

例如在AIME2024数学竞赛测试上，加入TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%，同时UT Score从72.4降至68.2。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

并且这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。

One More Thing

UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察，

对于DeepSeek-R1和所有推理模型，错误的答案更长，而正确的答案要短得多。

基于此，他们提出一个简单的解决办法，称为“简洁解码” （Laconic decoding）。

并行运行5次模型，从答案中选择tokens最少的。

初步实验结果表示，简洁解码在AIME2024测试上能提高6%-7%的准确率，比Consensus Decoding更好也更快。

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

论文地址：https://arxiv.org/abs/2501.18585

参考链接：

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/status/1885447830120362099

责任编辑：上方文Q

文章内容举报

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2025-02-04 20:45:07

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于弱点,模型,推理,答案,思路,准确率的资讯：

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

Bengio团队提出多模态新基准，直指Claude 3.5和

...）两部分作为上下文信息，模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字（TEI）的作为上下文信息，并不包含图像（VI），模型能还原出的遮住文字的准确率。

2024-06-29 09:37:00

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

...的推理过程。如上图中的红色实线所示，模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票（Majority Voting），模型思维链长度增加展现

2024-11-22 09:50:00

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？

...今最强的基础模型o1。其中，强化微调版的o1 mini，在Top-1准确率上直接跃升180%达到了31%，远超o1的25%

2024-12-09 09:53:00

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关

...步验证成效，可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。发布会上，科大讯飞还宣布将在今年上半年正式发布基于讯飞星火X1的医疗大模型升级版，确保其深层次诊断推理效果

2025-01-15 15:07:00

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Llama 3.1

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发

2024-07-26 09:39:00

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...。在 MATH 数据集上，Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra

2024-11-28 10:00:00

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求

2024-12-05 09:45:00

大模型面临四大关键缺陷，“知识方程”能否通向强人工智能

大模型面临四大关键缺陷，“知识方程”能否通向强人工智能

...无几。因为在进行深度推理时，即便大模型每一步的预测准确率都高达95%，但是当推理到20步时，最终的准确率将会是0.95的20次方，即不到36%，这是一个无法令人满意的结果。

2023-08-23 11:03:00

全球瞩目，又是杭州！这款视觉推理模型一夜起飞

...表示，借助多模态的思考能力，VLM-R1将显著提升图像识别准确率，并生成相应的解决方案，“目前版本还处于1.0阶段，仍需更多实验来完善。”

2025-02-26 07:07:00

更多关于科技的资讯：

央视主持王冰冰现身MOVA展台被洗地机“种草”直呼“太香了”

央视主持王冰冰现身MOVA展台被洗地机“种草”直呼“太香了

2025-03-22 11:00:00

《刺客信条：影》女主内衣被吐槽就像是尿裤

《刺客信条：影》女主内衣被吐槽就像是尿裤

2025-03-22 11:00:00

蔚来法务部：某车企员工造谣蔚来经营状况被公安机关处罚

蔚来法务部：某车企员工造谣蔚来经营状况被公安机关处罚

2025-03-22 11:00:00

骁龙8s至尊版+7000mAh电池！iQOO Z10 Turbo Pro即将登场

骁龙8s至尊版+7000mAh电池！iQOO Z10 Tur

2025-03-22 11:00:00

美媒：“推特蓝鸟”拍卖价约为3.5万美元

美媒：“推特蓝鸟”拍卖价约为3.5万美元

2025-03-22 11:21:00

23岁女学生打赏主播200万后想退费平台客服：成年用户打赏不予退款

23岁女学生打赏主播200万后想退费平台客服：成年用户打赏

2025-03-22 11:30:00

将获欧盟认证！中国商飞加速制造C919：2029年产200架波音空客怕吗

将获欧盟认证！中国商飞加速制造C919：2029年产200架

2025-03-22 12:00:00

容声冰箱亮相AWE 发布百种蔬果养鲜数据

容声冰箱亮相AWE 发布百种蔬果养鲜数据

2025-03-22 12:10:00

色谱行业巨头飞诺美中国研发中心落户天津经开区扫码阅读手机版

色谱行业巨头飞诺美中国研发中心落户天津经开区扫码阅读手机版

2025-03-22 12:20:00

印度男子看视频自学割阑尾：切开缝不上人差点没了

印度男子看视频自学割阑尾：切开缝不上人差点没了

2025-03-22 12:30:00

千禾0酱油检出镉官方称放心吃没问题！专家：0添加无专业标准是营销概念

千禾0酱油检出镉官方称放心吃没问题！专家：0添加无专业标准

2025-03-22 12:30:00

海尔周云杰“出道”即巅峰：评论区被攻陷连央视新闻也罕见下场

海尔周云杰“出道”即巅峰：评论区被攻陷连央视新闻也罕见下场

2025-03-22 12:30:00