• 我的订阅
  • 科技

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

类别:科技 发布时间:2024-11-29 09:27:00 来源:量子位

国产o1新选手登场!

它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。

这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!

新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程中进行自我反思和纠正。

先来一起看两个例子感受一下:

比如官方展示的这个有点复杂的填字游戏。

InternThinker不仅一步步从易到难猜测出了答案,而且还能在做题的过程中不断检查是否存在冲突。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

听说这次InternThinker的编程能力也变强了,量子位马上帮大家测试了一下。

在解答一道中等难度的Leetcode赛题中,InternThinker不仅根据题目要求分步写出了解决思路,而且还在编写完代码之后针对整体逻辑和边界条件进行了检查:

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

把这个代码直接提交了一下,结果真的通过了。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

国外网友也都称赞不已:中国公司的进步速度太快了!

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

在推理中自我反思、纠正

上海人工智能实验室(上海AI实验室)今年7月发布的书生·浦语2.5已经实现了开源模型中领先的推理能力,而InternThinker则使大模型的推理能力再上新台阶。

团队表示,在OpenAI o1模型发布之前,他们就已开展了相关技术的独创性探索与实践:

在训练数据侧,在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。

最新的强推理模型书生InternThinker具备长思维能力,并能在推理过程中进行自我反思和纠正,在数学、代码、推理谜题等多种复杂推理任务上都取得了更优结果。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

量子位还测试了更多InternThinker的实际体验案例,一起来看看吧。

首先考察一下模型的数学能力,以2024年第65届IMO国家集训队第一阶段试题题目为例,模型在读取题目信息后会先列出相关的知识点,然后逐步进行推理计算,和人类解题的方式非常接近。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

再来看看另外一个大家都很熟悉的数字游戏24点,模型也能做到先列出相关的计算方法,然后根据最可能成功的思路进行尝试,并在失败时及时进行反思和重新尝试。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

最后来看一个比较抽象的推理问题:1天24小时之内时针和分针有多少次处于相对的位置。

这对人类来说都是一个很有难度的题,然而InternThinker在分析了时钟角度和时针的对应关系之后,得出了公式规律,最终得出了正确答案!

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

怎么做到的

InternThinker的表现真的让人非常惊喜,据上海AI实验室团队的信息,他们主要利用了以下3种策略:

1.利用元认知理论学习思维模式

为高效提升模型的推理能力,InternThinker采用了更接近人类学习方式的路径。

人在学习解决复杂推理任务时,更多是学习思维模式,即通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正,进而解决更多的问题。

这种对自我的认知过程进行觉察和调节的能力也被称作元认知能力。

受元认知理论的启发,研究团队设计了一系列元动作来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。

模型在面对复杂任务时,会显式且动态地选择元动作,再进一步展开相关动作的具体思维过程。通过这种设计,利用部分训练任务,可强化模型对关键元动作组合的使用,显著提升模型学习效率。

研究团队认为,模型在思考过程中能更灵活、多样、有效地使用元动作,是模型在推理阶段能够利用更多思考时间解决更复杂任务的重要原因。

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

2.“通专融合”的高密度监督数据路径

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

InternThinker率先独创性地采用了基于通专融合的技术路线生产所需数据。

这样一来,模型就可以获取已有强推理模型的思维链数据并进行蒸馏,这也是提升数学等榜单性能及复现强推理模型的“捷径”。

为此,研发团队设计了多种通用模型和专业模型的协作流程:

首先基于专家模型搜索出针对复杂任务的正确解决轨迹(但这种轨迹数据并不直接适用于元动作思维能力的训练);

进而由通用模型对复杂任务解决过程进行觉察、分析、改造和质量完善,基于正确轨迹提升思维链的格式规范性和可学习性,最终产出用于模型训练的数据。

在此过程中,模型和数据会交替迭代,达到协同增强的效果。

3.构建大规模沙盒环境:交互中获得反馈信号

在训练模型中,面对丰富多样的推理任务,如何准确地获得过程和结果反馈也非常重要。

为此,团队针对专业任务构建了大规模的沙盒环境,为可形式化验证的推理任务提供反馈信号,包括数十种编程语言的高效率代码执行编译环境,以及代码领域之外的通用推理任务沙盒。

通过自动化专家模型、人机协同策略生成等方法,构建了超过50种不同逻辑思维方式的推理任务思考过程,通过沙盒环境提供思考过程的反馈,形成自下而上对模型思维能力的构建,为模型的自主演进提供精准的反馈信号,这些策略使得InternThinker解决专业任务的能力得到了非常大的提升。

下一步,上海AI实验室将把相关技术融入下一代书生大模型,并继续沿着通专融合发展路径,通过开源与产学研各界共同推动技术进步。

InternThinker已经开启了测试使用,你可以通过下方链接测试更多有趣的题目!

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点

试用链接:https://internlm-chat.intern-ai.org.cn

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-29 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的
2024-08-06 09:27:00
9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题,其实来自
2024-07-18 08:31:00
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉
2024-07-18 16:39:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...造的大模型。用户使用MathGPT时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。目前,MathG
2023-08-24 19:02:00
...决问题的趁手工具,更是一种思维方式。做AI项目就像解数学题“滴嘟滴嘟”,火警警报响起,电动自行车棚着火了。只见一个扇形避火罩迅速展开,隔绝火势蔓延,车棚顶端喷淋器开始喷水,一
2024-01-25 17:06:00
...靠性就尤为重要。”她描述道,大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么?答案往往与基于逻辑和概率的推理脱节。例如,在盒子测
2024-06-12 18:15:00
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...微信公众号)《大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&
2023-12-06 09:22:00
全球第12!17岁中专女生击败一众名校大学生,闯入阿里数赛决赛
...的,对我的喜怒哀乐有很大的影响。我要是做不出来一道数学题,每当我躺在床上眼睛一闭的话,它就会在我脑子里反复地出现。然后我就百思不得其解,脑海中就会想这题的思路。然后第二天的话
2024-06-14 09:27:00
更多关于科技的资讯:
刷新多项世界纪录!我国新型单光子探测器量产落地
大皖新闻讯 日前,安徽省量子信息工程技术研究中心发布消息称,我国实现了全球首款四通道超低噪声半导体单光子探测器的量产落地(以下简称“深度制冷单光子探测器”)
2025-10-12 10:52:00
深入实施“人工智能+”行动丨浪潮智能终端“超高清+AI”解锁场景新玩法
漫步浩瀚太空,秒回侏罗纪时代,与科幻机甲同框……济南方特东方神画“九州神韵”的XR拍摄专区,小学生李安安兴奋地“穿越”在异时空中
2025-10-11 10:21:00
近日,据大象新闻报道,疾控卫监部门在一次突击检查中发现,某美容院将普通的高频电灼仪包装为“黄金微针”项目进行推广。这类看似创新的营销话术
2025-10-11 12:36:00
中新经纬10月11日电 (李自曼)近期,多家险企推出1年期的短期重疾险产品。同样保额下,传统重疾险保费动辄千元甚至上万元
2025-10-11 13:55:00
滨州移动织就“数字救援网”,赋能红十字演练通信零死角
鲁网10月11日讯近日,中国红十字应急救援北部协作区综合救援演练在山东省滨州市惠民县黄河三角洲应急消防实训基地拉开帷幕
2025-10-11 14:44:00
看点十足!2025中国移动全球合作伙伴大会变身“AI嘉年华”
当碳基生命的创造力与硅基生命的智慧力深度融合,将迸发出怎样的“AI+”可能?2025年10月10日—10月12日,中国移动全球合作伙伴大会在广州保利世贸博览馆盛大召开
2025-10-11 15:31:00
中国移动董事长杨杰:碳硅共生 合创AI+时代
10月10日至12日,2025中国移动全球合作伙伴大会在广州举行。10月11日上午,中国移动董事长杨杰出席大会主论坛,并发表题为《碳硅共生 合创AI+时代》的主旨演讲
2025-10-11 15:31:00
北京apm多重活动焕活国庆长假新体验,解锁假日新乐趣!
国庆假日期间,北京apm以“沉浸式假日体验”为核心,精心打造多元互动活动、热门IP联名快闪与专属会员福利矩阵,为王府井商圈注入鲜活动能与浓郁假日氛围
2025-10-11 15:41:00
山东乐陵:“老味道”飘出消费新滋味
位于乐陵市经济开发区的山东金鹏德盛斋扒鸡有限公司扒鸡生产车间内,老师傅王强不再像过去那样,紧盯着油炸锅、凭经验调节火力
2025-10-11 16:03:00
近日,张家口农商银行钟楼北小贷中心积极组织开展一场针对光大新天地商城内各商户的专项走访活动。此次活动旨在深入了解商城内各类商户的经营状况
2025-10-11 16:20:00
易生支付:智慧支付护航国庆文旅消费 赋能区域商业活力升级
2025年国庆长假期间,全国文旅消费市场持续呈现旺盛活力。易生支付凭借高并发交易处理、全渠道聚合支付、实时资金清算等核心技术能力
2025-10-11 17:08:00
齐鲁晚报·齐鲁壹点 连宁燕今年以来,威海市商务局围绕促消费开展了一系列卓有成效的工作。紧跟国家、省级、市级各级各类消费提振部署安排
2025-10-11 17:10:00
从精装到智装:百川装饰20年新范式在深圳启航
新范式·新百川·新未来:20周年发布品牌与战略升级近日,行业专家、合作伙伴及媒体代表逾300人齐聚深圳百川装饰集团20周年现场
2025-10-11 17:11:00
聊城首家无缝钢管制造企业汇通集团:年产85万吨钢管,远销全球30余国
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:44:00
聊城新一代信息技术发展:创新水平稳步提高,多项成果达国际领先
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:49:00