• 我的订阅
  • 科技

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

类别:科技 发布时间:2024-11-22 09:50:00 来源:机器之心Pro

DeepSeek 又出手了,这次又是重磅炸弹。

昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。

在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

背后的秘诀,就是「深度思考」。

更多的强化学习、原生的思维链、更长的推理时间,能让大模型的性能更强,这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。

与 OpenAI o1 有点不一样的是,DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理,也就是响应查询和输入的不同链或「思路」,并解释它在做什么以及为什么这样做。

就像是解题时,有人喜欢将每一步骤都详尽地写在卷子上,而 DeepSeek-R1-Lite-Preview 更进一步:把内心 OS 也都写出来了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型,尚未完全释放长思维链的潜力。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

对于用户的 Prompt,DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。

最惊艳的是,发布即上线:所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话,但注意要先在输入框中打开「深度思考」模式,每天限制 50 次使用。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

体验地址:http://chat.deepseek.com/

不得不说,对 o1 直接发起冲击的 DeepSeek,着实让国内 AI 社区振奋了一把:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

图源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用,没有发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试,也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文,大家心中其实还有许多的「问号」。

但 DeepSeek 已经表示,正式版 DeepSeek-R1 模型会完全开源,还会公开技术报告,部署 API 服务。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

图源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的开源和 API 降价,直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波,不知道大家如何顶住。

耐心等待的时间里,我们先来实测一下。

一手实测体验

与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。

虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的,但据初步测评,DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R?」和「9.11 和 9.9 哪个更大?」。

有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试,回复结果和思考用时情况如下:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

Strawberry 这个词中有多少个字母 R?用时 29 秒。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

9.11 和 9.9 哪个更大?用时 9 秒。

不过在数草莓的问题上,R1-Lite-Preview 有时也会困惑,数出「只有 2 个 r」的答案:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

机器之心也实测了一把,似乎对于中文,R1-Lite-Preview 的准确率更高:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

对于需要动脑的问题,R1-Lite-Preview 的表现也可圈可点,比如它可以破解行测题的逻辑陷阱:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

由 LeCun 提出的物理题:圆周上均匀分布了 7 根轴,每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号,依次沿圆周排列。问题是:如果齿轮 3 顺时针旋转,问齿轮 7 会沿什么方向旋转?

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

得出解来十分丝滑:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

接下来,给 R1-Lite-Preview 上点强度,看看它能否笑对大学物理的噩梦:《电磁学千题解》。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

在 34 秒内,它根据题意列出了对应的公式,得到了正确答案:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

至于 R1-Lite-Preview 被全球顶级编程竞赛(codeforces)等权威评测检验过的代码能力,让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

运行起来也没大问题。

然而,相比推理、物理和编程,R1-Lite-Preview 的数学能力可能没那么让人放心。

比如科技博主 @Transformer - 周问了一道中学水平的数列题,只有 o1 和 o1mini 做对了,R1-Lite-Preview 没想出关键的破题思路,而是「蒙」出了答案。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

这道代数题相当难,全球仅有 5 个人全对。在长达 162 秒的思考过程中,R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文,可能它的老师也教过 —— 把解题过程写上能得一半分。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

令人遗憾的是,最终答案 c=1 是错的,正确答案如下:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案:

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

这说明,DeepSeek-R1-Lite-Preview 仍有进步空间,也更让我们期待完整版模型的发布了。

各位读者已经试用了吗?欢迎在评论区分享有趣的实测案例。

https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw

https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃
2024-10-21 09:55:00
收入占比40%、电话会议点名16次,英伟达:推理端的需求被低估了
...让人印象深刻的是,英伟达在财报电话会议的一个观点:推理端的爆发,可能很多人还是低估了。据英伟达电话会议披露,公司全年数据中心里已经有40%的收入来自推理业务,超出了绝大部分人
2024-03-02 13:38:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论
2024-06-25 09:45:00
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所
2024-07-11 16:45:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题
2024-09-13 16:42:00
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...并发、技术自主可控方面具有优势的新选择。AI大模型在推理侧的新机遇与RISC-V创新架构具有的可扩展性、可编程性、超大规模等优势特点不谋而合。技术和场景应用的双重优势下,希姆
2023-11-15 15:41:00
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
... Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整
2024-05-14 09:56:00
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着
2023-01-09 21:57:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...类模型低 75%。端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%
2024-08-07 09:42:00
更多关于科技的资讯: