• 我的订阅
  • 科技

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

类别:科技 发布时间:2024-08-20 13:44:00 来源:新智元

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。

全世界高质量数据几乎枯竭。

AI科学家们为了解决这一难题,可谓是绞尽脑汁。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。

就连英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

但是,用合成数据,并非完全对LLM训练有帮助。

前段时间,Nature封面研究显示,合成数据迭代9次后,会让大模型崩溃。而且,类似的研究比比皆是。

那么,我们该怎么办呢?

最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。

它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

论文地址:https://arxiv.org/pdf/2407.03502

对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编辑、创意写作、工具使用、编码、阅读理解等。

然后,他们利用这些数据对Mistral-7b进行后训练,得到了Orca-3模型。

与原始的Mistral-7b-Instruct相比,Orca-3在多个基准测试中,都显示出显著的性能提升。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

而在数学方面上的表现,性能直接暴涨168%。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

当「合成数据」遇上智能体

过去一年,我们见证了智能体的兴起。

智能体可以生成高质量的数据,通过反思和迭代,其能力反超了底层基础大模型。

在这个过程中,智能体可以回顾解决方案,自我批评,并改进解决方案。它们甚至可以利用工具,如搜索API、计算器、代码解释,来扩展大模型的能力。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

此外,多智能体还可以带来更多的优势,比如模拟场景,同时生成新的提示和响应。

它们还可以实现数据生成工作流的自动化,减少或消除某些任务对人工干预的需求。

论文中,作者提出了「生成式教学」的概念。

这是说,使用合成数据进行后训练,特别是通过强大的模型创建数据,来教另一个模型新技能或行为。

AgentInstruct是生成式教学的一个智能体解决方案。

总而言之,AgentInstruct可以创建:

- 高质量数据:使用强大的模型如GPT-4,结合搜索和代码解释器等工具。

- 多样化数据:AgentInstruct同时生成提示和回应。它使用多智能体(配备强大的LLM、工具和反思流程)和一个包含100多个子类别的分类法,来创建多样化和高质量的提示和回应。

- 大量数据:AgentInstruct可以自主运行,并可以应用验证和数据过滤的流程。它不需要种子提示,而是使用原始文档作为种子。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

生成式教学:AgentInstruct

我们如何创建海量数据?如何保证生成的数据具有多样性?如何生成复杂或微妙的数据?

为此,研究人员概述了解决这些挑战的结构化方法:

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

具体来说,AgentInstruct定义了三种不同的自动化生成流程:

内容转换流程:将原始种子转换为中间表示,简化了针对特定目标创建指令的过程。

种子指令生成流程:由多个智能体组成,以内容转换流程的转换后种子为输入,生成一组多样化的指令。

指令改进流程:以种子指令流程的指令为输入,迭代地提升其复杂性和质量。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

接下来,研究人员为为17种不同的技能实现了这些流程,每种技能都有多个子类别。

这些技能包括阅读理解、问答、编码、检索增强生成、创意写作、工具/API使用和网络控制。

完整列表,如下表1中所示。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

接下来,研究人员通过以下三种技能的案例研究,来解释这些工作流是如何运作的。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

实验结果

正如开头所述,研究人员使用2580万对指令,微调Mistral-7b-v0.1模型,然后得到Orca-3。

那么经过使用AgentInstruct数据训练Orca-3,性能究竟如何?

AgentInstruct的目标是合成一个大型且多样化的数据集,其中包含不同难度级别的数据。

在这个数据集上,像Orca-2.5、Mistral-Instruct-7b和ChatGPT这样的基准模型得分远低于10分,显示出它们相对于GPT-4(被指定为基准,得分为10)的劣势。

图4中描绘的性能比较展示了基准模型与Orca-3之间的对比分析。

这个图显示了在AgentInstruct数据的支持下,后训练过程中各种能力的显著提升。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表2概括了所有评估维度的平均得分。

平均而言,包括每轮训练轮后的Orca-3,AgentInstruct数据的引入使性能相比Orca 2.5基准提高了33.94%,相比Mistral-Instruct-7B提高了14.92%。

刷新多项基准SOTA

表3中给出了每个基准的所有基线的结果。

比如,在AGIEval提升40%,在MMLU上提升19%,在GSM8K上提升54%,在BBH上提升38%,在AlpacaEval上提升45%。

此外,它在性能上持续超过其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

就阅读理解任务来说,对于LLM至关重要。对于小模型来说,也更为重要。

通过使用AgentInstruct进行针对性训练,可以观察到Mistral的阅读理解能力有了实质性的提升(见表4)——相比Orca 2.5提高了18%,相对于Mistral-Instruct-7b提高了21%。

此外,通过利用这种数据驱动的方法,研究人员将一个7B参数的模型在LSATs的阅读理解部分的表现,提升到了与GPT-4相匹配的水平。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

再拿数学来说,通过AgentInstruct,成功提升了Mistral在从小学到大学水平的各种难度数学问题上的熟练程度,如下表5所示。

在各种流行的数学基准测试上,改进幅度从44%-168%不等。

应当强调的是,生成式教学的目标是教授一种技能,而不是生成数据来满足特定的基准测试。AgentInstruct在生成式教学方面的有效性通过在各种数学数据集上的显著改进得到了证明。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表6显示了,Orca-3-7B模型和FoFo基准上,其他开源和闭源基准的性能。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

另外,通过 AgentInstruct 方法,成功地将模型幻觉减少31.34%,同时达到了与GPT-4(教师)相当的质量水平。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

表8显示了使用/不使用RAG的MIRAGE上所有模型的结果。

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

总之,AgentInstruct生成教学方法,为模型后训练生成大量多样化和高质量数据的挑战,提供了一个有前途的解决方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-20 14:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软GenAI开发被曝遭遇瓶颈,转攻AI安全推出「抗幻觉神器」
【新智元导读】近期微软的高层人员调动以及新工具的推出,可能暗示着其AI战略的转向。微软已经有一段时间没有向外界透露任何有关GenAI的讯息了。在减少对OpenAI技术依赖的过程中
2024-10-12 09:51:00
微软宣布Team Copilot发布,年内将推出初步预览版
当地时间5月21日,美国科技公司微软召开年度Build2024开发者大会。在CEO纳德拉的带领下,微软各个产品团队再一次展现出惊人的执行力,在发布会上又拿出了接近50个新产品或功
2024-05-22 20:01:00
英特尔更新arc图形解决方案directml优化
11月20日消息,在MicrosoftIgnite开发者大会上,英特尔和微软宣布将合作对英特尔Arc图形解决方案的DirectML进行优化
2023-11-20 11:52:00
微软被曝正自研AI大模型:5000亿个参数,与谷歌和OpenAI竞争
科技巨头微软或正在研发参数达5000亿的全新AI(人工智能)大模型,将正面叫板谷歌和OpenAI。当地时间5月6日,据外媒报道,微软正在研发一款名为MAI-1的最新AI大模型,其
2024-05-07 14:33:00
微软,用最开放的云,玩最野的AI
...于混合现实和量子计算,在 B 端和 C 端都乏善可陈的巨头微软,能在短短一年时间之内脱胎换骨,成为整个硅谷,不,乃至全球最潮的科技公司。点燃这家老牌公司的,无他,只有两个字母
2023-11-16 09:40:00
微软推出自研AI芯片:台积电5nm工艺、Open AI开启试用,想摆脱对英伟达依赖?
...需求,越来越多的科技巨头开始自研芯片,三年前入局的微软也终于交出成果。在当地时间周三举行的Microsoft Ignite全球技术大会上,微软正式发布首款自研AI芯片和云计算
2023-11-16 16:47:00
微软Win11中发现国产开源大模型!RWKV官方:没给钱啊?现在赶趟
微软正尝试在Office中集成国产开源大模型RWKV!RWKV官方甚至直接发了个推文表示:RWKV.cpp,现已在全球五亿系统中部署
2024-09-05 09:50:00
微软华人团队发布全新基准AGIEval,专为人类考试而生
...据集的传统基准测试并不能准确表示人类的能力。最近,微软的研究人员发布了一个全新基准AGIEval,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试
2023-05-13 21:28:00
全球AI大事记·疯狂三月盘点:9万亿AIGC时代即将到来|钛媒体AGI
...成式 AI 的热度只增不减。过去一个月内,OpenAI、谷歌、微软、英伟达、阿里等多家国内外大科技公司均发布多个关于 AI 的重要消息
2024-04-03 15:00:00
更多关于科技的资讯:
索乙“哭哭马”的逆袭不可复制,但年轻人情绪消费的潜力不可忽视。如果说,生产商火速将“次品”转化为爆款,形成强大的复制生产能力所展现的市场嗅觉与“变现”能力令人欣慰
2026-01-13 14:07:00
WOOK创始人许龙华:以“拙”胜“巧” 构建中国品牌出海的高速公路
十五年前,若不是一次印度尼西亚之行,WOOK创始人许龙华或许不会注意到当地零售市场假货漫天遍地,3C零售市场两极分化的混乱状态
2026-01-13 14:37:00
泰岳天成荣获2025年度电力创新奖一等奖
日前,2025年度中国电力企业联合会电力创新奖拟授奖成果正式公示。神州泰岳旗下泰岳天成参与的《基于人工智能的输变电设备全域状态感知与辅助决策技术及应用》荣获一等奖
2026-01-13 14:37:00
四大趋势引领北京青年消费潮流
跨年夜,大学生小赵融入华熙LIVE的人潮,散场后选择公交+共享单车返程——既享节日氛围,又不盲目为虚荣买单。这正是2025年北京青年消费市场的生动缩影
2026-01-13 14:37:00
旭化成微电子发布小型、支持表面贴装的CO₂传感器S12 CO₂:通过CO₂浓度控制空调系统,助力实现零能耗建筑
旭化成微电子株式会社(总公司:东京都千代田区、法定代表人总经理:篠宫秀行)旗下子公司Senseair开发出新型CO₂传感器S12 CO₂
2026-01-13 14:37:00
唐传艳国家医保局1月11日印发通知,开展“个人医保云”建设试点申报工作,今年2月至12月将在部分地区试点建设“个人医保云”
2026-01-13 14:37:00
在全球化求职市场竞争日趋激烈的当下,专业求职咨询机构已成为求职者突破信息壁垒、提升竞争优势的重要助力。其中,筑梦求职(INTERNATIONAL IDEAL)凭借多年深耕积累的深厚底蕴
2026-01-13 14:41:00
全球智慧家庭发明专利榜单揭晓:海尔智家14连冠
在智慧家庭领域,专利是衡量企业科技实力的重要指标。专利不仅能直观反映研发投入与创新节奏,更能体现企业对核心技术的掌控力与前瞻性
2026-01-13 14:43:00
陈燕红律师:学术研究与法律实战的双向赋能
北京德和衡律师事务所副总裁、高级权益合伙人陈燕红律师,扎根于商事金融争议解决领域,所代理的案件累计争议标的跨越千亿元量级
2026-01-13 15:07:00
工行临沂商谷支行多维赋能提升客户满意度
鲁网1月13日讯今年以来,工行临沂商谷支行始终坚持以人民为中心的服务导向,坚持以客户需求为导向,通过优化服务流程、强化员工能力
2026-01-13 15:20:00
江苏省公布新一批公共数据“跑起来”场景实践案例 南京江宁区AI赋能精准招商应用场景入选
我省公布新一批公共数据“跑起来”场景实践案例江宁区AI赋能精准招商应用场景入选南报网讯(通讯员宁数轩记者马道军)近日,省数据局确定7个场景纳入2025年第6批(总第6批)公共数据“跑起来”县(市
2026-01-13 15:20:00
南报网讯(记者张希)近日,江苏省商务厅公布新一批跨国公司地区总部及功能性机构认定结果,位于江宁开发区的法雷奥凯佩科液力变矩器(南京)有限公司成功入选
2026-01-13 15:20:00
河北新闻网讯(李娜)近日,招商银行唐山分行深入贯彻金融服务实体经济的政策要求,积极践行普惠金融理念,通过精准锚定供应链及场景金融
2026-01-13 15:46:00
北方首家“机器人6S店”落地济南,意味着什么?
人形机器人跳现代舞、舞彩带龙,机器狗舞狮子、做俯卧撑、翻跟头……11月28日,位于济南高新区汉峪金谷的预见未来机器人6S中心正式开业
2026-01-13 15:54:00
鸿蒙版“陕西医保”App全新升级
近日,鸿蒙版“陕西医保”App完成全面升级,正式以更智慧、更安全、更便捷的姿态服务全省参保群众。陕西医保App作为承载全省医保数字化转型核心使命的官方平台
2026-01-13 15:54:00