• 我的订阅
  • 科技

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

类别:科技 发布时间:2024-11-29 09:26:00 来源:新智元

【新智元导读】代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!

LLM作为智能的基座,可以衍生出各种能力。

代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。

而想要充分发挥LLM的巨大潜力,指令调优(Instruction Tuning)是至关重要的一步。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

当前,高质量指令数据主要有两个来源:人工注释和蒸馏。

前者很贵,后者则受到限制。于是,人们开始另辟蹊径。

近日,来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。

这篇工作首次证明了,可以通过自对齐(Self-Alignment)来获得强大的代码模型,不需要人工注释或者蒸馏,而且效果更好!

论文地址:https://arxiv.org/pdf/2410.24198

SelfCodeAlign在整个数据生成过程中,使用相同的基础模型进行推理,分为三步:

首先,从高质量的种子片段中提取不同的编码概念,以生成新任务。

然后,对每个任务的多个响应进行采样,将每个响应与测试用例配对,并在沙盒环境中对其进行验证。

最后,选择验证通过的示例来进行指令调优。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

SelfCodeAlign是第一个完全透明的pipeline,使用纯自生成的指令数据对基础代码模型进行自对齐。

实验表明,使用SelfCodeAlign对CodeQwen1.5-7B进行指令微调,在HumanEval+上实现了67.1 pass@1,超过了参数量大10倍的CodeLlama-70B-Instruct。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。

此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5-Turbo的蒸馏方法(包括 OSS-Instruct(61.6)和Evol-Instruct(59.1)),甚至打败了GPT-4o的直接输出蒸馏(65.9)!

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

这意味着,从模型自己的数据分布对齐中学习,可能胜于使用强大的teacher模型。

SelfCodeAlign适用于各种规模(从3B到33B)的LLM,比如StarCoder2-Struct就是以此为基础创建的(base model为StarCoder2-15B)。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

自对齐代码生成

下图以StarCoder2-15B的指令调优过程为例,展示了SelfCodeAlign的流程:

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

种子选择

SelfCodeAlign首先从The Stack V1中收集一组种子代码片段。

此步骤中,确保种子片段多样化且高质量至关重要,它们将用作生成说明和响应的起点。

为了收集种子片段,研究人员从The Stack V1中提取所有带有文档字符串的Python函数,然后应用一系列过滤规则来确保种子片段的质量。

通过运行Pyright类型检查器、删除基准项、过滤掉文档质量差的函数,以及删除几乎重复的函数,总共从5M个函数中过滤出250k个Python函数。

概念生成

收集种子函数后,开始执行Self-OSS-Instruct,对OSS-Instruct的自对齐进行修改,以生成不同的指令。

具体来说,这里采用上下文学习(In-context learning)让基础模型从给定的种子代码片段中自行生成指令。

### System : I - > R You are an extremely intelligent AI coding assistant . Please provide an accurate and reliable response to each user instruction . After delivering your response , verify its consistency and correctness by writing a series of executable tests . ### System : C - > I Create a series of independent coding tasks that are original , distinct , diverse , and high - quality , fostering logical thinking . Each task must adhere to specified properties : - category : the type of task ( e . g . , function implementation , class implementation , or program implementation ) - language : the programming language to be used - difficulty : the complexity level of the task ( e . g . , easy , medium , or hard ) - concepts : fundamental principles and techniques the task is designed to incorporate , which developers must understand to effectively solve the task Design the tasks so that the relevant concepts emerge naturally as the most appropriate solutions , without explicitly mentioning that a particular concept should be used .

作者使用了21个精心设计的示例来教模型如何工作:

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

指令生成过程分为以下两个步骤:

概念提取:对于每个种子函数,提示基本模型生成函数中存在的代码概念列表。代码概念是指编程中使用的基本原则和技术,例如模式匹配和数据类型转换。

指令生成:提示基本模型根据已识别的代码概念和两个附加属性(难度和类别)自生成编码任务,随机抽样以丰富生成指令的多样性。

执行筛选

根据Self-OSS-Struct生成的指令,下一步是将每条指令与高质量teacher模型(比如GPT-4)相匹配。

不过,很多强大的商业模型不允许用蒸馏来做这种事,而且,teacher模型也不一定就更加厉害,毕竟老师也会犯错误,这时就会起到负作用。

作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。

具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在沙箱环境中测试失败的响应。然后,为每个指令随机选择一个验证通过的响应,应用于最终的指令微调数据集。

实验评估

本文全面评估了SelfCodeAlign在各种编码任务中的表现,包括:

函数生成:给定自然语言描述,要求LLM生成一个自包含函数,并测试函数的正确性和效率。 类生成:给定一个包含类级和方法级信息的代码框架,要求LLM生成类及其方法。 数据科学编程:给定数据科学任务的描述和部分代码片段,要求LLM完成代码片段以通过相应的测试。 文件级代码编辑:提供文件内容后,要求模型按照自然语言指令编辑程序。

函数级代码生成

公平起见,比较对象为类似规模的最先进的开源模型,基准测试选择LiveCodeBench。

LiveCodeBench是无污染评估的基准,包含2023年5月至2024年2月期间的400项最新Python算法挑战。这些任务来自Codeforce和LeetCode等网站,每个网站平均有20多个测试用例。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表报告了在3个特定开始日期之后创建的问题的测试结果(pass@1)。SelfCodeAlign-CQ-7B的性能始终优于大多数基线模型。

此外,将开始日期向前移动对SelfCodeAlign-CQ-7B的影响很小,这表明模型不太可能受到污染。

类级代码生成

这里使用ClassEval评估类级代码生成的能力,ClassEval是100个类级Python代码生成任务的集合,涵盖100个类和410个方法,平均每个类33个测试,每个方法有8个测试。

作者将最大上下文大小设置为2048个token,测试了三种生成策略中每个模型的最佳类级pass@1(以及相应的方法级pass@1):

1. 整体生成:在给定类框架的情况下生成整个类; 2. 增量生成:将早期生成的方法放在提示符中来迭代生成类方法; 3. 组合生成:独立生成每个类方法,不查看其他方法。

上表中的类级pass@1需要同时生成正确的类和方法,而方法级pass@1仅检查生成的方法是否能通过方法级测试。

上表的结果显示,就类级性能而言,SelfCodeAlign-CQ-7B是表现最好的,不论是相比于开源指令微调模型,还是使用未知或专有指令微调数据的模型。

数据科学

DS-1000包含7个流行的Python数据科学库中1000个现实数据科学挑战。在这个基准测试中,模型必须完成部分代码片段才能解决问题。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表显示,尽管SelfCodeAlign-CQ-7B只使用了有限的数据科学代码进行训练,但在与一众模型的比较中仍然表现出色。

代码编辑

代码编辑任务选用CanItEdit作为基准测试,该基准测试由三种类型的210个代码编辑任务(每种类型70个任务)组成:纠正(修复错误)、自适应(添加新功能)和完善(改进现有功能)。

对于每个任务,模型需要以原始代码片段和描述所需代码更改的自然语言指令作为输入,生成满足指令的代码片段。遵循原始基准测试中的设置,在0.2的温度下为每个任务进行20次测试。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表报告了每种类型的pass@1以及所有任务的平均成绩。尽管没有专门针对代码编辑进行调优,但SelfCodeAlign-CQ-7B在CanItEdit上表现出强大的性能,实现了39.0%的pass@1,优于除CodeQwen1.5-Chat以外的所有模型。

参考资料:

https://x.com/YuxiangWei9/status/1852421529897972207

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-29 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话伯克利顶级学者Stuart Russell:AI或在各方面超人类,对人类生存构成威胁
...思想大爆炸——对话科学家》栏目第三期,对话加州大学伯克利分校计算机科学专业教授、人类兼容人工智能中心(Center for Human-Compatible AI)创始人斯图尔特·罗素(Stuart Russell)
2023-06-14 13:00:00
MemGPT团队官宣创业,融资1000万美金,硅谷大佬Jeff Dean也投了
...在不同模型提供商之间切换。Letta平台的前身是加州大学伯克利分校的一个研究项目MemGPT。早在去年10月,MemGPT项目在正式发布论文和代码之前
2024-09-26 13:42:00
膨胀宇宙实现迄今最精确测量
...张佳欣为了研究过去110亿年来暗能量的影响,美国劳伦斯伯克利国家实验室借助暗能量光谱仪(DESI),追踪宇宙延续至今的生长轨迹,对不断膨胀的宇宙进行了迄今最精确测量,绘制出目
2024-04-04 07:49:00
当GPT-4化身主考官:与ChatGPT处于同水平的有这些
...了89.1分。随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B
2023-04-17 10:59:00
首位AI科学家问世!已独立生成10篇学术论文,还顺手搞了AI审稿人
...u,Sakana AI的实习生,任公司研究科学家。他本科毕业于UC伯克利,目前牛津大学三年级博士在读,导师是Jakob Foerster
2024-08-14 09:40:00
国内团队新发大模型:ceo上阵写代码
...过深入合作。创始人兼CEO,有着20多年从业经验,曾任UC伯克利客座教授,手握3篇最佳顶会论文和10项技术专利。如今,他们决心从专长领域走向通用大模型。而且一开始便从最底层的
2023-06-07 21:01:00
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在
2024-08-01 09:40:00
OpenAI又失大将!Sora研发负责人跳槽谷歌
...穆拉蒂宣布离职的消息进行了留言回复。布鲁克斯毕业于伯克利人工智能研究所,师从计算机视觉领域专家阿廖沙·叶夫罗斯(Alyosha Efros)
2024-10-04 19:23:00
照片转3d只需一部手机,基于nerf的app上架苹果商店
...NeRF 是少量2D照片生成3D场景的经典AI模型,最初版本由UC伯克利和谷歌开发,只需要输入少量静态图片,就能做到多视角的逼真3D效果。最初NeRF需要专业相机拍几百张照片
2023-01-09 19:49:00
更多关于科技的资讯:
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00
海尔沙特召开2026年战略发布会
1月12日,海尔在沙特阿拉伯成功举办经销商峰会暨2026年战略发布会。会上不仅回顾了2025年业绩成果,更明确了2026年核心发展方向
2026-01-21 12:39:00
海尔智家旗下GE冰箱获2026“CES最佳产品”奖
当地时间1月6日至9日,全球科技盛宴2026年国际消费电子展(CES)在美国拉斯维加斯举行。海尔智家旗下GE Appliances推出的GE Profile智能四门法式对开门冰箱
2026-01-21 12:40:00
卡萨帝咖啡机亮相中奥建交55周年非遗特展复刻金杯标准
1月19日,中奥建交55周年非遗华服暨生命美学主题特展在北京启幕。中奥两国文化、艺术界代表齐聚一堂,众多非遗作品与艺术画作联袂展出
2026-01-21 12:40:00
【宅男财经|专家面对面】1月20日晚,李亚鹏在社交媒体发布视频,配文“再次感恩感谢大家对嫣然的关注,我们还有很长的路要走
2026-01-21 11:04:00
从“单项冠军”到“全能选手” 承德钒钛的市场驱动转型记
1月15日,承德钒钛产品技术室负责人冯国晟向记者展示高纯无氧化二钒样品。河北日报记者 李东宇摄1月15日上午,承德钒钛新材料有限公司钒钛事业部实验室里
2026-01-21 08:28:00
豆包与浦东美术馆达成合作,成为卢浮宫、毕加索双展官方AI讲解员
河北新闻网讯(记者 李春炜)1月20日,字节跳动旗下豆包与上海浦东美术馆达成合作,成为该馆两项国际大展——“图案的奇迹
2026-01-21 09:59:00
索乙“一人公司”的蓬勃发展,高度依赖于由前沿技术、赋能政策、开放产业和宽容文化共同构成的“创新气候”。它既代表了数字经济时代个体力量的崛起
2026-01-21 10:22:00