我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

上海AI实验室版o1已上线！数学题、Leetcode全拿下，还会玩24点

类别：科技发布时间：2024-11-29 09:27:00 来源：量子位

国产o1新选手登场！

它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。

这就是上海AI实验室版o1——强推理模型书生InternThinker，刚刚正式开放试用！

新模型不仅在长思维能力方面有了很大提升，而且还能在推理过程中进行自我反思和纠正。

先来一起看两个例子感受一下：

比如官方展示的这个有点复杂的填字游戏。

InternThinker不仅一步步从易到难猜测出了答案，而且还能在做题的过程中不断检查是否存在冲突。

听说这次InternThinker的编程能力也变强了，量子位马上帮大家测试了一下。

在解答一道中等难度的Leetcode赛题中，InternThinker不仅根据题目要求分步写出了解决思路，而且还在编写完代码之后针对整体逻辑和边界条件进行了检查：

把这个代码直接提交了一下，结果真的通过了。

国外网友也都称赞不已：中国公司的进步速度太快了！

在推理中自我反思、纠正

上海人工智能实验室（上海AI实验室）今年7月发布的书生·浦语2.5已经实现了开源模型中领先的推理能力，而InternThinker则使大模型的推理能力再上新台阶。

团队表示，在OpenAI o1模型发布之前，他们就已开展了相关技术的独创性探索与实践：

在训练数据侧，在国内率先开发出大规模合成数据技术；在任务场景侧，新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力，并具备一定的任务泛化性。

最新的强推理模型书生InternThinker具备长思维能力，并能在推理过程中进行自我反思和纠正，在数学、代码、推理谜题等多种复杂推理任务上都取得了更优结果。

量子位还测试了更多InternThinker的实际体验案例，一起来看看吧。

首先考察一下模型的数学能力，以2024年第65届IMO国家集训队第一阶段试题题目为例，模型在读取题目信息后会先列出相关的知识点，然后逐步进行推理计算，和人类解题的方式非常接近。

再来看看另外一个大家都很熟悉的数字游戏24点，模型也能做到先列出相关的计算方法，然后根据最可能成功的思路进行尝试，并在失败时及时进行反思和重新尝试。

最后来看一个比较抽象的推理问题：1天24小时之内时针和分针有多少次处于相对的位置。

这对人类来说都是一个很有难度的题，然而InternThinker在分析了时钟角度和时针的对应关系之后，得出了公式规律，最终得出了正确答案！

怎么做到的

InternThinker的表现真的让人非常惊喜，据上海AI实验室团队的信息，他们主要利用了以下3种策略：

1.利用元认知理论学习思维模式

为高效提升模型的推理能力，InternThinker采用了更接近人类学习方式的路径。

人在学习解决复杂推理任务时，更多是学习思维模式，即通过回忆相关知识点，对正确的解题过程进行理解、记忆，对错误解题等过程进行反思和修正，进而解决更多的问题。

这种对自我的认知过程进行觉察和调节的能力也被称作元认知能力。

受元认知理论的启发，研究团队设计了一系列元动作来引导模型解决问题的过程，如对问题的理解、知识回忆、规划、执行、反思、总结等。

模型在面对复杂任务时，会显式且动态地选择元动作，再进一步展开相关动作的具体思维过程。通过这种设计，利用部分训练任务，可强化模型对关键元动作组合的使用，显著提升模型学习效率。

研究团队认为，模型在思考过程中能更灵活、多样、有效地使用元动作，是模型在推理阶段能够利用更多思考时间解决更复杂任务的重要原因。

2.“通专融合”的高密度监督数据路径

InternThinker率先独创性地采用了基于通专融合的技术路线生产所需数据。

这样一来，模型就可以获取已有强推理模型的思维链数据并进行蒸馏，这也是提升数学等榜单性能及复现强推理模型的“捷径”。

为此，研发团队设计了多种通用模型和专业模型的协作流程：

首先基于专家模型搜索出针对复杂任务的正确解决轨迹（但这种轨迹数据并不直接适用于元动作思维能力的训练）；

进而由通用模型对复杂任务解决过程进行觉察、分析、改造和质量完善，基于正确轨迹提升思维链的格式规范性和可学习性，最终产出用于模型训练的数据。

在此过程中，模型和数据会交替迭代，达到协同增强的效果。

3.构建大规模沙盒环境：交互中获得反馈信号

在训练模型中，面对丰富多样的推理任务，如何准确地获得过程和结果反馈也非常重要。

为此，团队针对专业任务构建了大规模的沙盒环境，为可形式化验证的推理任务提供反馈信号，包括数十种编程语言的高效率代码执行编译环境，以及代码领域之外的通用推理任务沙盒。

通过自动化专家模型、人机协同策略生成等方法，构建了超过50种不同逻辑思维方式的推理任务思考过程，通过沙盒环境提供思考过程的反馈，形成自下而上对模型思维能力的构建，为模型的自主演进提供精准的反馈信号，这些策略使得InternThinker解决专业任务的能力得到了非常大的提升。

下一步，上海AI实验室将把相关技术融入下一代书生大模型，并继续沿着通专融合发展路径，通过开源与产学研各界共同推动技术进步。

InternThinker已经开启了测试使用，你可以通过下方链接测试更多有趣的题目！

试用链接：https://internlm-chat.intern-ai.org.cn

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-29 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于数学题,上海,实验室,实验,数学,模型的资讯：

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...qizhixin.com；zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的

2024-08-06 09:27:00

9.11大还是9.9大？为什么一道小学数学题难倒了大多数A

9.11和9.9哪个更大？一道小学生都会的数学题，却难倒了一众AI大模型。昨天，“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题，其实来自

2024-07-18 08:31:00

大模型“翻车”小学题？

13.11和13.8谁大？——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉

2024-07-18 16:39:00

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题，第一财经记者测试了12个大模型，其中阿里通义千问

2024-07-17 11:56:00

好未来自研数学大模型MathGPT开启内测用AI实现因材施

...造的大模型。用户使用MathGPT时，用文字或图片方式上传数学题，即可得到对话式的解答反馈，也可以通过“随机来一题”的按钮，随机生成数学题目并由系统给出解答。目前，MathG

2023-08-24 19:02:00

AI时代原住民：AI是一种思维方式

...决问题的趁手工具，更是一种思维方式。做AI项目就像解数学题“滴嘟滴嘟”，火警警报响起，电动自行车棚着火了。只见一个扇形避火罩迅速展开，隔绝火势蔓延，车棚顶端喷淋器开始喷水，一

2024-01-25 17:06:00

大语言模型逻辑推理“很糟糕”

...靠性就尤为重要。”她描述道，大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么？答案往往与基于逻辑和概率的推理脱节。例如，在盒子测

2024-06-12 18:15:00

清华提出CharacterGLM；DeepMind联创发全新

...微信公众号）《大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&

2023-12-06 09:22:00

全球第12！17岁中专女生击败一众名校大学生，闯入阿里数赛决

...的，对我的喜怒哀乐有很大的影响。我要是做不出来一道数学题，每当我躺在床上眼睛一闭的话，它就会在我脑子里反复地出现。然后我就百思不得其解，脑海中就会想这题的思路。然后第二天的话

2024-06-14 09:27:00

更多关于科技的资讯：

记者走基层｜“黑科技”上线，让温暖精准入户

11月12日，河北邢襄热力集团邢台供热分公司二工区三班班长丁帅，在三义庙换热站查看设备运行情况。河北日报记者宋平摄随着11月15日临近

2025-11-14 08:02:00

优势互补共赢发展聚焦三大领域太原公交与中车电动签约

11月13日，太原公共交通控股(集团)有限公司(以下简称“太原公交”)与中车时代电动汽车股份有限公司(以下简称“中车电动”)举行框架合作协议签约仪式

2025-11-14 07:50:00

记者走基层｜智能安全帽，让矿工有了AI“卫士”

11月5日，中煤张家口煤矿机械有限责任公司所属恒洋电器有限公司工作人员介绍智能安全帽产品。河北日报记者魏雨摄“嘀嘀

2025-11-13 08:03:00

“双11”三重奏，解读消费新变局

“长与短”周期变革，“快与慢”时效重构，“热与冷”业态碰撞—— “双11”三重奏，解读消费新变局□南京日报/紫金山新闻记者黄琳燕11月12日中午

2025-11-13 08:05:00

破解园区驳货难题南京医药正式启用无人车项目

南报网讯（记者周容璇）日前，在南京医药中央物流中心，一辆白色无人车平稳地穿梭于主仓库与宝湾库区之间，仅用15分钟便完成了一次驳货作业

2025-11-13 08:05:00

向“质”攀升，南京机器人解锁“智造”新图景

全链条持续发力，以硬核技术竞逐市场向“质”攀升，南京机器人解锁“智造”新图景□南京日报/紫金山新闻记者徐宁实习生黄倩机器人是智能制造的核心组成部分

2025-11-13 08:05:00

江苏南京：“爆单堵件”难寻踪迹，科技赋能让“双11”物流运输

“爆单堵件”难寻踪迹，科技赋能让“双11”物流运输“从从容容” 直播间“秒光” 无人机“闪送”□南京日报/紫金山新闻记者周容璇“3

2025-11-13 08:06:00

逐浪氢能“新蓝海”，南京加速能级跃升

实现全产业链布局，链上企业持续“加码” 逐浪氢能“新蓝海”，南京加速能级跃升□南京日报/紫金山新闻记者徐宁通讯员陈伟伟郑瑞陶炎李雪莹蹲点主题

2025-11-13 08:06:00

2025 脉脉职场新人报告：超50%职场新人想跳槽，校招生最

脉脉人才智库近日发布《以能为本——互联网职场新人流动趋势 2025》报告，将校招和工作经验在3年内的社招人才界定为“职场新人”

2025-11-13 08:57:00

江苏南京：多点突破屡刷纪录科创助推产业升级

黄维院士引领南工大柔性电子全国重点实验室闯出新天地多点突破屡刷纪录科创助推产业升级□南京日报/紫金山新闻记者谈洁姜静实习生钱逸霖在柔性电子领域

2025-11-13 09:43:00

海尔三筒洗衣机：中国第一，海外陆续上市

11月7日，一场聚焦中国三筒洗衣机的发布活动在越南胡志明市西贡河畔举行。活动以户外用户交互嘉年华形式打造沉浸式体验，2000余名消费者

2025-11-13 10:34:00

397.2亿元！“双11”厦门网络零售额全省第一

“双11”厦门网络零售额全省第一总额397.2亿元 760家企业、1062家店铺销售额超100万元东南网11月13日讯（海峡导报记者孙春燕）又一年“双11”即将落幕

2025-11-13 10:48:00

辛选双十一数据出炉！销量超3000万单，总人气突破5亿

鲁网11月13日讯历时超一个月的“双 11”大促正式落下帷幕。作为快手头部直播电商企业，辛选集团在新任董事长初瑞雪的带领下

2025-11-13 11:10:00

打破学科壁垒，贯通产学研链条：宁诺以“”无边界理念回应智能时

10月31日至11月2日，机器智能与自然启发计算国际会议（MIND 2025）在厦门成功举办。本次会议由多所国内外知名高校及科研机构联合主办

2025-11-13 12:05:00

长春万达滑雪场启动造雪 12.25解锁四季滑雪自由

不用等寒冬、不用等降雪，长春净月高新区万达茂里藏着一座“四季不打烊的滑雪天堂”！吉林省首家室内滑雪场长春万达滑雪场已正式启动造雪模式

2025-11-13 14:05:00

头条订阅服务

上海AI实验室版o1已上线！数学题、Leetcode全拿下，还会玩24点