• 我的订阅
  • 科技

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

类别:科技 发布时间:2024-11-29 09:26:00 来源:新智元

【新智元导读】代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!

LLM作为智能的基座,可以衍生出各种能力。

代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。

而想要充分发挥LLM的巨大潜力,指令调优(Instruction Tuning)是至关重要的一步。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

当前,高质量指令数据主要有两个来源:人工注释和蒸馏。

前者很贵,后者则受到限制。于是,人们开始另辟蹊径。

近日,来自UIUC、伯克利等机构的研究人员提出了SelfCodeAlign。

这篇工作首次证明了,可以通过自对齐(Self-Alignment)来获得强大的代码模型,不需要人工注释或者蒸馏,而且效果更好!

论文地址:https://arxiv.org/pdf/2410.24198

SelfCodeAlign在整个数据生成过程中,使用相同的基础模型进行推理,分为三步:

首先,从高质量的种子片段中提取不同的编码概念,以生成新任务。

然后,对每个任务的多个响应进行采样,将每个响应与测试用例配对,并在沙盒环境中对其进行验证。

最后,选择验证通过的示例来进行指令调优。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

SelfCodeAlign是第一个完全透明的pipeline,使用纯自生成的指令数据对基础代码模型进行自对齐。

实验表明,使用SelfCodeAlign对CodeQwen1.5-7B进行指令微调,在HumanEval+上实现了67.1 pass@1,超过了参数量大10倍的CodeLlama-70B-Instruct。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

在全部的三项基准测试(代码生成、数据科学编程、代码编辑)中,SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。

此外,在HumanEval+上,SelfCodeAlign的性能超越了基于GPT-3.5-Turbo的蒸馏方法(包括 OSS-Instruct(61.6)和Evol-Instruct(59.1)),甚至打败了GPT-4o的直接输出蒸馏(65.9)!

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

这意味着,从模型自己的数据分布对齐中学习,可能胜于使用强大的teacher模型。

SelfCodeAlign适用于各种规模(从3B到33B)的LLM,比如StarCoder2-Struct就是以此为基础创建的(base model为StarCoder2-15B)。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

自对齐代码生成

下图以StarCoder2-15B的指令调优过程为例,展示了SelfCodeAlign的流程:

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

种子选择

SelfCodeAlign首先从The Stack V1中收集一组种子代码片段。

此步骤中,确保种子片段多样化且高质量至关重要,它们将用作生成说明和响应的起点。

为了收集种子片段,研究人员从The Stack V1中提取所有带有文档字符串的Python函数,然后应用一系列过滤规则来确保种子片段的质量。

通过运行Pyright类型检查器、删除基准项、过滤掉文档质量差的函数,以及删除几乎重复的函数,总共从5M个函数中过滤出250k个Python函数。

概念生成

收集种子函数后,开始执行Self-OSS-Instruct,对OSS-Instruct的自对齐进行修改,以生成不同的指令。

具体来说,这里采用上下文学习(In-context learning)让基础模型从给定的种子代码片段中自行生成指令。

### System : I - > R You are an extremely intelligent AI coding assistant . Please provide an accurate and reliable response to each user instruction . After delivering your response , verify its consistency and correctness by writing a series of executable tests . ### System : C - > I Create a series of independent coding tasks that are original , distinct , diverse , and high - quality , fostering logical thinking . Each task must adhere to specified properties : - category : the type of task ( e . g . , function implementation , class implementation , or program implementation ) - language : the programming language to be used - difficulty : the complexity level of the task ( e . g . , easy , medium , or hard ) - concepts : fundamental principles and techniques the task is designed to incorporate , which developers must understand to effectively solve the task Design the tasks so that the relevant concepts emerge naturally as the most appropriate solutions , without explicitly mentioning that a particular concept should be used .

作者使用了21个精心设计的示例来教模型如何工作:

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

指令生成过程分为以下两个步骤:

概念提取:对于每个种子函数,提示基本模型生成函数中存在的代码概念列表。代码概念是指编程中使用的基本原则和技术,例如模式匹配和数据类型转换。

指令生成:提示基本模型根据已识别的代码概念和两个附加属性(难度和类别)自生成编码任务,随机抽样以丰富生成指令的多样性。

执行筛选

根据Self-OSS-Struct生成的指令,下一步是将每条指令与高质量teacher模型(比如GPT-4)相匹配。

不过,很多强大的商业模型不允许用蒸馏来做这种事,而且,teacher模型也不一定就更加厉害,毕竟老师也会犯错误,这时就会起到负作用。

作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。

具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在沙箱环境中测试失败的响应。然后,为每个指令随机选择一个验证通过的响应,应用于最终的指令微调数据集。

实验评估

本文全面评估了SelfCodeAlign在各种编码任务中的表现,包括:

函数生成:给定自然语言描述,要求LLM生成一个自包含函数,并测试函数的正确性和效率。 类生成:给定一个包含类级和方法级信息的代码框架,要求LLM生成类及其方法。 数据科学编程:给定数据科学任务的描述和部分代码片段,要求LLM完成代码片段以通过相应的测试。 文件级代码编辑:提供文件内容后,要求模型按照自然语言指令编辑程序。

函数级代码生成

公平起见,比较对象为类似规模的最先进的开源模型,基准测试选择LiveCodeBench。

LiveCodeBench是无污染评估的基准,包含2023年5月至2024年2月期间的400项最新Python算法挑战。这些任务来自Codeforce和LeetCode等网站,每个网站平均有20多个测试用例。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表报告了在3个特定开始日期之后创建的问题的测试结果(pass@1)。SelfCodeAlign-CQ-7B的性能始终优于大多数基线模型。

此外,将开始日期向前移动对SelfCodeAlign-CQ-7B的影响很小,这表明模型不太可能受到污染。

类级代码生成

这里使用ClassEval评估类级代码生成的能力,ClassEval是100个类级Python代码生成任务的集合,涵盖100个类和410个方法,平均每个类33个测试,每个方法有8个测试。

作者将最大上下文大小设置为2048个token,测试了三种生成策略中每个模型的最佳类级pass@1(以及相应的方法级pass@1):

1. 整体生成:在给定类框架的情况下生成整个类; 2. 增量生成:将早期生成的方法放在提示符中来迭代生成类方法; 3. 组合生成:独立生成每个类方法,不查看其他方法。

上表中的类级pass@1需要同时生成正确的类和方法,而方法级pass@1仅检查生成的方法是否能通过方法级测试。

上表的结果显示,就类级性能而言,SelfCodeAlign-CQ-7B是表现最好的,不论是相比于开源指令微调模型,还是使用未知或专有指令微调数据的模型。

数据科学

DS-1000包含7个流行的Python数据科学库中1000个现实数据科学挑战。在这个基准测试中,模型必须完成部分代码片段才能解决问题。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表显示,尽管SelfCodeAlign-CQ-7B只使用了有限的数据科学代码进行训练,但在与一众模型的比较中仍然表现出色。

代码编辑

代码编辑任务选用CanItEdit作为基准测试,该基准测试由三种类型的210个代码编辑任务(每种类型70个任务)组成:纠正(修复错误)、自适应(添加新功能)和完善(改进现有功能)。

对于每个任务,模型需要以原始代码片段和描述所需代码更改的自然语言指令作为输入,生成满足指令的代码片段。遵循原始基准测试中的设置,在0.2的温度下为每个任务进行20次测试。

代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024

上表报告了每种类型的pass@1以及所有任务的平均成绩。尽管没有专门针对代码编辑进行调优,但SelfCodeAlign-CQ-7B在CanItEdit上表现出强大的性能,实现了39.0%的pass@1,优于除CodeQwen1.5-Chat以外的所有模型。

参考资料:

https://x.com/YuxiangWei9/status/1852421529897972207

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-29 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

对话伯克利顶级学者Stuart Russell:AI或在各方面超人类,对人类生存构成威胁
...思想大爆炸——对话科学家》栏目第三期,对话加州大学伯克利分校计算机科学专业教授、人类兼容人工智能中心(Center for Human-Compatible AI)创始人斯图尔特·罗素(Stuart Russell)
2023-06-14 13:00:00
MemGPT团队官宣创业,融资1000万美金,硅谷大佬Jeff Dean也投了
...在不同模型提供商之间切换。Letta平台的前身是加州大学伯克利分校的一个研究项目MemGPT。早在去年10月,MemGPT项目在正式发布论文和代码之前
2024-09-26 13:42:00
膨胀宇宙实现迄今最精确测量
...张佳欣为了研究过去110亿年来暗能量的影响,美国劳伦斯伯克利国家实验室借助暗能量光谱仪(DESI),追踪宇宙延续至今的生长轨迹,对不断膨胀的宇宙进行了迄今最精确测量,绘制出目
2024-04-04 07:49:00
当GPT-4化身主考官:与ChatGPT处于同水平的有这些
...了89.1分。随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna-13B,以及清华系开源模型ChatGLM-6B
2023-04-17 10:59:00
首位AI科学家问世!已独立生成10篇学术论文,还顺手搞了AI审稿人
...u,Sakana AI的实习生,任公司研究科学家。他本科毕业于UC伯克利,目前牛津大学三年级博士在读,导师是Jakob Foerster
2024-08-14 09:40:00
国内团队新发大模型:ceo上阵写代码
...过深入合作。创始人兼CEO,有着20多年从业经验,曾任UC伯克利客座教授,手握3篇最佳顶会论文和10项技术专利。如今,他们决心从专长领域走向通用大模型。而且一开始便从最底层的
2023-06-07 21:01:00
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在
2024-08-01 09:40:00
OpenAI又失大将!Sora研发负责人跳槽谷歌
...穆拉蒂宣布离职的消息进行了留言回复。布鲁克斯毕业于伯克利人工智能研究所,师从计算机视觉领域专家阿廖沙·叶夫罗斯(Alyosha Efros)
2024-10-04 19:23:00
照片转3d只需一部手机,基于nerf的app上架苹果商店
...NeRF 是少量2D照片生成3D场景的经典AI模型,最初版本由UC伯克利和谷歌开发,只需要输入少量静态图片,就能做到多视角的逼真3D效果。最初NeRF需要专业相机拍几百张照片
2023-01-09 19:49:00
更多关于科技的资讯:
制造为基,智慧引领——春宇控股以红旗实力赋能新能源充电生态
在波澜壮阔的能源革命浪潮中,红旗集团——这家集科研、开发、生产、销售于一体,拥有8家子公司、200多家销售公司,业务横跨电线电缆
2025-12-29 11:44:00
光荣浙商,誉归乐清!贝昂智能总经理胡加明当选“2025光荣浙商”
近日,从浙江日报传来喜讯,乐清籍企业家、苏州贝昂智能科技股份有限公司联合创始人兼总经理胡加明,正式入选“2025光荣浙商”
2025-12-29 11:44:00
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功完成汇聚机房碳氢类浸没式液冷技术试点。历经3个月的全场景测试验证
2025-12-29 13:28:00
AI驱动绿色发展,中国移动江苏公司开辟节能新路径
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功研发并部署基于AI协同调控的数据中心空调节能智能化系统,通过端到端节能智能体创新应用
2025-12-29 13:28:00
智推互联GEO助力企业品牌决胜:别只顾做产品,先让AI“认识”你
在人工智能大模型逐渐成为公众获取信息首要入口的当下,企业的“数字存在感”早已超越官网或社交媒体账号的范畴——它直接决定了用户是否“看见你
2025-12-29 13:45:00
像导游一样的前台、会直播的销售 去酒店上班,也要懂自媒体运营
今年,杭州的酒店屡上热搜,先是酒店外摆卖美食,再是40元打包酒店自助餐……那些“第一个吃螃蟹”的酒店借着流量火了一波,证实了酒店在公域耕耘的重要性
2025-12-29 08:42:00
解码当下流行文化:腾讯QQ流行文化观察(2025)
卷首语从通讯工具到数字生活空间当我们在2025年审视QQ,看到的早已不是一个简单的即时通讯应用。它更像一座自然形成的数字城市
2025-12-29 08:43:00
“数据合规与保护专业能力评价”首次考试圆满举行
2025年12月27日,由中国计算机行业协会主办的“数据合规与保护专业能力评价”首次考试顺利举行,作为国内第一个数据合规领域的标准化能力评价考试
2025-12-29 09:13:00
中新经纬12月29日电 据韩联社报道,韩国电商巨头酷澎(Coupang)创始人、其美国母公司酷澎Inc.董事会主席金范锡(音)12月28日就近期引起广泛关注的用户信息外泄事件首次公开致歉
2025-12-29 10:16:00
2025年,兴业银行石家庄分行以“安愉人生”养老金融服务品牌为核心,围绕“生态构建、服务升级、安全守护”三大维度发力,全方位推进养老金融高质量发展
2025-12-29 10:29:00
做用户信赖的智家服务守护者——记泰安联通岱岳分公司夏张营业部王景峰
鲁网12月29日讯泰安联通岱岳夏张营业部智家工程师王景峰,坚守装维服务一线,以精益求精的服务态度、扎实过硬的专业能力,成为用户口中“信得过
2025-12-29 11:02:00
预计年产值20亿元!杭州新开工项目,2028年投用!
近日,杭州赋厨人工智能产业发展有限公司新建AI+智能厨电研发及生产项目正式开工建设。据悉,该项目位于杭州富春湾新城,总投资10亿元
2025-12-29 08:11:00
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00