• 我的订阅
  • 科技

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

类别:科技 发布时间:2024-08-20 13:44:00 来源:新智元

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。

全世界高质量数据几乎枯竭。

AI科学家们为了解决这一难题,可谓是绞尽脑汁。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。

就连英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

但是,用合成数据,并非完全对LLM训练有帮助。

前段时间,Nature封面研究显示,合成数据迭代9次后,会让大模型崩溃。而且,类似的研究比比皆是。

那么,我们该怎么办呢?

最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。

它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

论文地址:https://arxiv.org/pdf/2407.03502

对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编辑、创意写作、工具使用、编码、阅读理解等。

然后,他们利用这些数据对Mistral-7b进行后训练,得到了Orca-3模型。

与原始的Mistral-7b-Instruct相比,Orca-3在多个基准测试中,都显示出显著的性能提升。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

而在数学方面上的表现,性能直接暴涨168%。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

当「合成数据」遇上智能体

过去一年,我们见证了智能体的兴起。

智能体可以生成高质量的数据,通过反思和迭代,其能力反超了底层基础大模型。

在这个过程中,智能体可以回顾解决方案,自我批评,并改进解决方案。它们甚至可以利用工具,如搜索API、计算器、代码解释,来扩展大模型的能力。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

此外,多智能体还可以带来更多的优势,比如模拟场景,同时生成新的提示和响应。

它们还可以实现数据生成工作流的自动化,减少或消除某些任务对人工干预的需求。

论文中,作者提出了「生成式教学」的概念。

这是说,使用合成数据进行后训练,特别是通过强大的模型创建数据,来教另一个模型新技能或行为。

AgentInstruct是生成式教学的一个智能体解决方案。

总而言之,AgentInstruct可以创建:

- 高质量数据:使用强大的模型如GPT-4,结合搜索和代码解释器等工具。

- 多样化数据:AgentInstruct同时生成提示和回应。它使用多智能体(配备强大的LLM、工具和反思流程)和一个包含100多个子类别的分类法,来创建多样化和高质量的提示和回应。

- 大量数据:AgentInstruct可以自主运行,并可以应用验证和数据过滤的流程。它不需要种子提示,而是使用原始文档作为种子。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

生成式教学:AgentInstruct

我们如何创建海量数据?如何保证生成的数据具有多样性?如何生成复杂或微妙的数据?

为此,研究人员概述了解决这些挑战的结构化方法:

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

具体来说,AgentInstruct定义了三种不同的自动化生成流程:

内容转换流程:将原始种子转换为中间表示,简化了针对特定目标创建指令的过程。

种子指令生成流程:由多个智能体组成,以内容转换流程的转换后种子为输入,生成一组多样化的指令。

指令改进流程:以种子指令流程的指令为输入,迭代地提升其复杂性和质量。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

接下来,研究人员为为17种不同的技能实现了这些流程,每种技能都有多个子类别。

这些技能包括阅读理解、问答、编码、检索增强生成、创意写作、工具/API使用和网络控制。

完整列表,如下表1中所示。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

接下来,研究人员通过以下三种技能的案例研究,来解释这些工作流是如何运作的。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

实验结果

正如开头所述,研究人员使用2580万对指令,微调Mistral-7b-v0.1模型,然后得到Orca-3。

那么经过使用AgentInstruct数据训练Orca-3,性能究竟如何?

AgentInstruct的目标是合成一个大型且多样化的数据集,其中包含不同难度级别的数据。

在这个数据集上,像Orca-2.5、Mistral-Instruct-7b和ChatGPT这样的基准模型得分远低于10分,显示出它们相对于GPT-4(被指定为基准,得分为10)的劣势。

图4中描绘的性能比较展示了基准模型与Orca-3之间的对比分析。

这个图显示了在AgentInstruct数据的支持下,后训练过程中各种能力的显著提升。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表2概括了所有评估维度的平均得分。

平均而言,包括每轮训练轮后的Orca-3,AgentInstruct数据的引入使性能相比Orca 2.5基准提高了33.94%,相比Mistral-Instruct-7B提高了14.92%。

刷新多项基准SOTA

表3中给出了每个基准的所有基线的结果。

比如,在AGIEval提升40%,在MMLU上提升19%,在GSM8K上提升54%,在BBH上提升38%,在AlpacaEval上提升45%。

此外,它在性能上持续超过其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

就阅读理解任务来说,对于LLM至关重要。对于小模型来说,也更为重要。

通过使用AgentInstruct进行针对性训练,可以观察到Mistral的阅读理解能力有了实质性的提升(见表4)——相比Orca 2.5提高了18%,相对于Mistral-Instruct-7b提高了21%。

此外,通过利用这种数据驱动的方法,研究人员将一个7B参数的模型在LSATs的阅读理解部分的表现,提升到了与GPT-4相匹配的水平。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

再拿数学来说,通过AgentInstruct,成功提升了Mistral在从小学到大学水平的各种难度数学问题上的熟练程度,如下表5所示。

在各种流行的数学基准测试上,改进幅度从44%-168%不等。

应当强调的是,生成式教学的目标是教授一种技能,而不是生成数据来满足特定的基准测试。AgentInstruct在生成式教学方面的有效性通过在各种数学数据集上的显著改进得到了证明。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表6显示了,Orca-3-7B模型和FoFo基准上,其他开源和闭源基准的性能。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

另外,通过 AgentInstruct 方法,成功地将模型幻觉减少31.34%,同时达到了与GPT-4(教师)相当的质量水平。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表8显示了使用/不使用RAG的MIRAGE上所有模型的结果。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

总之,AgentInstruct生成教学方法,为模型后训练生成大量多样化和高质量数据的挑战,提供了一个有前途的解决方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-20 14:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软GenAI开发被曝遭遇瓶颈,转攻AI安全推出「抗幻觉神器」
【新智元导读】近期微软的高层人员调动以及新工具的推出,可能暗示着其AI战略的转向。微软已经有一段时间没有向外界透露任何有关GenAI的讯息了。在减少对OpenAI技术依赖的过程中
2024-10-12 09:51:00
微软宣布Team Copilot发布,年内将推出初步预览版
当地时间5月21日,美国科技公司微软召开年度Build2024开发者大会。在CEO纳德拉的带领下,微软各个产品团队再一次展现出惊人的执行力,在发布会上又拿出了接近50个新产品或功
2024-05-22 20:01:00
英特尔更新arc图形解决方案directml优化
11月20日消息,在MicrosoftIgnite开发者大会上,英特尔和微软宣布将合作对英特尔Arc图形解决方案的DirectML进行优化
2023-11-20 11:52:00
微软被曝正自研AI大模型:5000亿个参数,与谷歌和OpenAI竞争
科技巨头微软或正在研发参数达5000亿的全新AI(人工智能)大模型,将正面叫板谷歌和OpenAI。当地时间5月6日,据外媒报道,微软正在研发一款名为MAI-1的最新AI大模型,其
2024-05-07 14:33:00
微软,用最开放的云,玩最野的AI
...于混合现实和量子计算,在 B 端和 C 端都乏善可陈的巨头微软,能在短短一年时间之内脱胎换骨,成为整个硅谷,不,乃至全球最潮的科技公司。点燃这家老牌公司的,无他,只有两个字母
2023-11-16 09:40:00
微软推出自研AI芯片:台积电5nm工艺、Open AI开启试用,想摆脱对英伟达依赖?
...需求,越来越多的科技巨头开始自研芯片,三年前入局的微软也终于交出成果。在当地时间周三举行的Microsoft Ignite全球技术大会上,微软正式发布首款自研AI芯片和云计算
2023-11-16 16:47:00
微软Win11中发现国产开源大模型!RWKV官方:没给钱啊?现在赶趟
微软正尝试在Office中集成国产开源大模型RWKV!RWKV官方甚至直接发了个推文表示:RWKV.cpp,现已在全球五亿系统中部署
2024-09-05 09:50:00
微软华人团队发布全新基准AGIEval,专为人类考试而生
...据集的传统基准测试并不能准确表示人类的能力。最近,微软的研究人员发布了一个全新基准AGIEval,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试
2023-05-13 21:28:00
全球AI大事记·疯狂三月盘点:9万亿AIGC时代即将到来|钛媒体AGI
...成式 AI 的热度只增不减。过去一个月内,OpenAI、谷歌、微软、英伟达、阿里等多家国内外大科技公司均发布多个关于 AI 的重要消息
2024-04-03 15:00:00
更多关于科技的资讯:
河北新闻网讯(王闯、徐贵旺)近日,在开滦集团唐山矿业公司(简称“开滦山矿公司”)大井绞车提升作业现场,一项不起眼的小改造引发了员工们的热议
2026-02-24 20:46:00
河北新闻网讯(任蕊)近日,在开滦股份吕家坨矿综采一队的会议室里,采掘电钳工李彭超正通过手机反复观看一段微视频。视频中,“技术大拿”叶春海正在讲解如何查验智能化设备的数据包丢失率
2026-02-24 20:51:00
春节假期高速充电需求迎高峰 安徽交控“小程序+移动电站”护航绿色出行
大皖新闻讯 马年春节假期落幕,在春运返乡返程的车流高峰中,新能源汽车的“补能”问题成为社会关注焦点。记者从安徽交控资源公司所属交控能源公司获悉
2026-02-24 21:28:00
2月24日,粉笔(02469.HK)发布业绩预告,截至2025年12月31日,公司预计录得不少于人民币26.56亿元营收
2026-02-24 21:46:00
江南时报讯 春节期间,常州市紧扣“促消费、保供应、守安全”三条主线,提前谋划、高效落实,全力保障节日市场繁荣有序、平稳运行
2026-02-24 22:47:00
大皖新闻讯 2月24日下午,马年春节后首个工作日,合肥市科技创新引领新质生产力发展大会召开。会上,合肥市创新创业综合服务平台“创享合肥”正式发布
2026-02-24 22:03:00
出海的隐性分水岭:中小企业开始直面“品牌能力”的考验
过去几年,中国中小企业的出海进程明显提速。从新能源、智能制造到各类工业技术与解决方案型企业,越来越多公司完成了将产品推向海外市场的第一步
2026-02-24 17:15:00
服务人次958万,云迹科技机器人服务智能体全力保障春节
2026年春节期间,人工智能与具身智能技术深度融入大众节日生活,展现出从“可选项”向“必需品”转变的显著趋势。在酒店、景区
2026-02-24 17:18:00
海辰储能山东一体化零碳产业园将于二季度试生产— 一场瞄准AI时代的能源“卡位战”
鲁网2月24日讯除夕夜,黄宣田在菏泽学会了包饺子。作为厦门海辰储能科技股份有限公司(以下简称“海辰储能”)菏泽制造基地负责人
2026-02-24 17:28:00
25000㎡、300+品牌、20000+买家:亚洲户外烧烤展5月定档广州,打造全球户外生活商贸枢纽
随着露营经济等消费趋势兴起,消费者对高品质、体验式户外生活的需求日益增长,全球掀起一股烧烤热潮。从家庭聚会到户外派对,烧烤不再只是厨房的延伸
2026-02-24 17:51:00
庙会上的科技范儿
科技庙会上机器人在给市民免费送年货。机器人“店小二”在售卖饮品。机器人在和小朋友“智对诗章”。机器人舞狮表演吸引众多游客围观
2026-02-24 14:56:00
新春之际,年货市场掀起新潮流。AI眼镜、陪伴机器人、无弦吉他成为抢手货,3D打印机现做生肖模型、智能书法台挥毫送福成新景
2026-02-24 14:56:00
大麦娱乐灯塔研究院春节档洞察:总票房57.52亿,三四线城市票房近53%
2月24日,大麦娱乐旗下灯塔研究院发布《2026年春节档电影市场洞察报告》。报告显示,2026年春节档总票房达57.52亿
2026-02-24 14:58:00
理解“长途优先”背后的平衡智慧
这两天,“长途有票、短途无票”的话题在网络上引发了不少讨论。不少旅客感到困惑:明明同一趟车,为什么长途票能买到短途票却显示“无票”
2026-02-24 15:11:00
中国消费者报讯(记者万晓东)近日,谦寻控股在《直播电商监督管理办法》(以下简称《办法》)出台后积极组织全员开展专题学习
2026-02-24 15:26:00