• 我的订阅
  • 科技

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

类别:科技 发布时间:2024-11-06 09:49:00 来源:量子位

复刻OpenAI o1推理大模型,开源界传来最新进展:

LLaMA版o1项目刚刚发布,来自上海AI Lab团队。

简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。

这次最新开源代码,也在开发者社区引起热议。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。

10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。

在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方案。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得了重大进展:

已成功使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。

不到一周时间,项目便开源了。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

LLaMA版o1最新进展

目前已开源内容包括:预训练数据集、 预训练模型、强化学习训练代码。

OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果。

例如一个几何问题,包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路,以及对各个推理步骤的批评和验证内容,对推理过程进行评价和指导。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

在此数据集继续预训练后,模型可读取和输出类似o1的长思维链过程。

预训练代码尚未发布,目前推荐使用LLaMaFactory代替。

有意思的是虽然项目名为LLaMA-O1,但目前官方给的预训练模型基于谷歌Gemma 2。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

目前在预训练模型基础上,可以继续进行强化学习训练,从代码中可以看出训练过程如下:

使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验 将经验存储在优先经验回放缓冲区中 从缓冲区采样批次数据进行训练 更新模型参数和经验优先级

论文中也给出了训练过程的图示。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

同时训练代码中使用了以下关键技术点:

使用LoRA进行参数高效微调 使用PPO算法作为策略优化方法 实现了GAE(Generalized Advantage Estimation)算法用于计算优势函数 使用优先经验回放提高训练效率

最后,LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下,并没有特别简介,还比较神秘。

其他与SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

其他o1复刻项目进展

除LLaMA-O1之外,另一个公开进展的o1复刻项目O1-Journey来自上交大团队。

团队在十月初发布了第一份进展报告,其中介绍了创新Journey Learning范式,以及第一个成功将搜索和学习整合到数学推理中的模型。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

O1-Journey核心开发团队主要由上交大大三、大四本科生,以及上交大GAIR实验室(生成式人工智能研究实验室)的一年级博士生组成。

指导教师包括上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,

LLaMA-O1:https://github.com/SimpleBerry/LLaMA-O1相关论文:https://arxiv.org/abs/2406.07394https://arxiv.org/abs/2410.02884

O1-Journey:https://github.com/GAIR-NLP/O1-Journey/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-06 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...的前驱是DeepMind的AlphaGo。AlphaGo以前的围棋算法采用的是蒙特卡洛树搜索,试图利用计算机的算力优势进行海量模拟试错
2024-09-18 15:01:00
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...们在多种搜索算法中进行选择,例如 Beam Search、Best-of-N, 蒙特卡洛树搜索等。每种算法在 PRM 的质量上有其独特的优势
2024-10-15 09:56:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
...这使其具备了更高级的自主学习和智能涌现能力。此外,蒙特卡洛搜索树算法使“天工”可以提供更加人性化的交互体验。这些技术突破,使得「天工」在复杂任务和场景中能够快速且准确地响应指
2023-04-17 15:42:00
...理能力。彼时更主流的看法是,推理能力的提高可能依赖蒙特卡洛树搜索(MCTS)或过程奖励模型(PRM)。对于大模型而言,某种方法是否仍然有效,往往要看它能否经受住规模扩展的考验
2025-05-27 10:23:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,
2024-11-29 09:27:00
...等信息来训练深度学习模型。研究团队采用了一种被称为蒙特卡洛树搜索的算法,不仅使模型可以预测每个分子的抗菌活性,还能预测分子的哪些化学亚结构可能导致这种活性。为进一步缩小候选药
2024-01-01 22:25:00
...亚理工学院、华东师范大学合作开发,整合了强化学习和蒙特卡洛树搜索能力。据微软研究团队表示,XOT方法可以让语言模型扩展到不熟悉的问题上
2023-11-16 09:37:00
教人工智能读懂专业文件(新职业新故事)
...智能(AI)模型。杨洪旭供职的达观数据有限公司,位于上海浦东软件园,是一家智能文本处理技术企业。这里研发的AI模型,能读懂合同工单、财务报表、行业报告等各类文本文件,在银行流
2024-08-27 06:09:00
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...推理方法解释!解释就解释:本文探讨了 best-of-n 采样和蒙特卡洛树搜索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯
2024-09-12 09:58:00
更多关于科技的资讯:
8月22日至24日,2025中国算力大会在山西大同举行。“算力中国·创新成果展示”山西算力产业展示区全方位展示了山西打造全国算力高地的新成就
2025-08-26 06:47:00
今年夏天,“懒人经济”叠加“清凉经济”,高温不仅带火了以空调、冰箱为主的家电产品,更带火了像多筒洗衣机、制冰冰箱、家用制冰机等新家电
2025-08-26 07:41:00
厦门网讯(厦门日报记者 李晓平)在人工智能深度赋能千行百业、重塑生产生活各领域应用场景的当下,今年来,科华数据、国投智能
2025-08-25 08:54:00
英科医疗上榜TopBrand 2025中国品牌500强 位居细分行业首位
近日,《TopBrand 2025中国品牌500强榜单》在2025(第十九届)中国品牌节上正式发布,英科医疗以196.18亿元品牌价值位列第373位
2025-08-25 08:59:00
健康领跑品质卓越 飞利浦空调又获三大奖项
8月22日,以“创异破局 智启新程”为主题的2025-2026中国空调行业高峰论坛在长春举行,本次论坛汇聚行业精英,旨在探讨行业良性健康发展
2025-08-25 09:24:00
8月15日至19日,以“互通互助互利 共商共建共享”为主题的第十五届新疆喀什·中亚南亚商品交易会(以下简称“喀交会”)在喀什国际会展中心盛大举办
2025-08-25 10:33:00
进入7月以来,北京经历了数场分散性降雨,气温较高,湿度较大。气象监测显示,7月北京相对湿度一度冲高至82%。不少北京市民表示
2025-08-25 10:33:00
养老机器人产品形态日益丰富
本报记者 赵 曦 □ 唐 瑞8月20日,工业和信息化部发布通知,征集2025年度中小企业人工智能典型应用场景。通知要求
2025-08-25 10:34:00
上午9点,刚从湘潭某高校通信工程专业毕业的李明打开手机上的“零障碍”平台,一条精准推送的岗位信息映入眼帘——本地一家高新技术企业的见习工程师职位
2025-08-25 10:34:00
莱州市商务局:莱州市举办外贸政策宣讲会
大众网记者 孙建峰 烟台报道为推动莱州本地优势产业与外贸政策深度融合,搭建跨境电商行业交流合作平台,近日,2025莱州外贸政策宣讲会(亚马逊专场)在莱州市电商产业园胜利召开
2025-08-25 10:51:00
“云聚鸢都・赋能潍企”潍企云品牌发布会8月26日启幕
鲁网8月25日讯为深入贯彻国家推动制造业数字化转型、发展新质生产力的战略部署,加速潍坊市中小企业数字化、智能化转型进程
2025-08-25 11:02:00
推动新能源产业高质量发展,是践行绿色低碳发展理念、构建现代化经济体系的重要路径。国家税务总局新泰市税务局紧盯新能源汽车产业发展痛点与需求
2025-08-25 11:08:00
淘宝闪购饿了么官宣外卖行业首套制服,百万骑士将免费换新
外卖行业第一套制服今天由淘宝闪购饿了么正式官宣,网友热议称,新制服既是整个行业升级的重要标志之一,也意味着社会各界对骑士这一职业的全新认同
2025-08-25 11:08:00
从广州塔到南极冰盖:慕思818睡眠文化之旅的战略升维与文化深耕
一场驶向南极的睡眠探索,背后是慕思从传播睡眠文化到践行全球共享的品牌升维。2025年盛夏,当地表温度逼近40℃,慕思完成了一次极具象征意义的跨越
2025-08-25 11:35:00
先理知学REAL PhD:专业团队打磨申博文书,助学子彰显学术实力与潜力
博士申请文书是展现学术潜力的核心材料,直接影响录取和奖学金机会。2025年数据显示,全球申博竞争加剧——申请人数年增15%
2025-08-25 11:36:00