我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科学问题正确率提高28%

类别：科技发布时间：2024-12-03 13:34:00 来源：新智元

【新智元导读】最近，一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后，一个仅80亿参数的小模型，在科学问题上也能和GPT-4o一较高下！或许，单纯地卷AI计算能力并不是唯一的出路。

我们都知道，在科研界，LLM在解决简单科学问题时表现得游刃有余，但在应对复杂问题时往往会出现幻觉。于是，为了让模型更靠谱，研究人员尝试给模型装上科学工具，帮助它们解决高难度任务。

然而，一旦用上工具，模型就「上瘾」了！甚至连一些不怎么难的问题都要靠工具解决。这不仅让计算成本暴涨，还影响了模型自己「独立思考」的能力——就像有的人有了计算器就不再心算一样。

相较而言，人类科学专家在解决科学问题时，通常会先评估问题的复杂性，再决定使用基本推理或专业工具。

正是受这种解决问题流程的启发，一支来自UCSD和清华的研究团队提出了一种全新的微调方法，让模型「边适应边学习」，学会在使用外部科学工具和依赖内部知识之间做出合理选择。

论文地址：https://arxiv.org/abs/2411.00412

这一方法的显著意义在于它大大提高了模型效率。

研究人员仅使用一个拥有80亿参数的LLM——远小于行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。

这挑战了AI开发中的一个惯有想法：更大的模型必然能带来更好的结果。

教会AI在使用外部工具和依赖内部知识之间进行判断——就像训练一位年轻科学家如何在相信自己计算的同时知道何时咨询专业设备——可能比单纯地卷AI计算能力更为重要。

微调方法简介

微调方法由两部分组成：World Knowledge Distillation（WKD）和Tool Usage Adaptation（TUA）。

World Knowledge Distillation可以翻译为「世界知识蒸馏」。在WKD过程中，LLM通过学习那些借助工具生成的解答，来掌握和积累特定领域的知识。

WKD分为监督微调和偏好优化两部分。

对于所有问题，研究人员提示LLM使用工具生成确定性的解答，然后将这些解答作为目标，进行监督微调（SFT）。

在遇到开放式问题时，除了进行监督微调外，LLM会生成一组不同的解答提议，并使用预定义的指标对这些提议进行排序，以构建偏好对；然后利用这些数据进行偏好优化。

而在Tool Usage Adaptation中，研究人员首先在基准数据集的问题上评估经过WKD微调后的LLM。对于每个问题，他们采样生成一组直接回答，以计算其准确率。

基于预设的准确率阈值，他们将问题分为两个子集：简单问题集，即LLM可以直接解决的问题；以及复杂问题集，即LLM需要借助工具回答的问题。

对于简单问题集，保持与WKD一致的对齐目标，即继续通过内化已有知识直接作答；而对于复杂问题集，研究人员将对齐目标切换为包含工具使用轨迹的增强解答，并训练LLM准确地遵循这些轨迹。

实验过程

研究人员使用Llama-3.1-8B-Instruct作为微调方案的基础模型。同时还对其他最先进的开源和闭源模型进行了广泛评估，包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

数据集

研究人员使用了两个现有的公开数据集MATH和SciBench，并构建了四个新的科学数据集用于实验：Mujoco、偏微分方程（PDEs）、气候科学和流行病学。

四个数据集的构建遵循系统化流程：首先，基于专家咨询和模拟器功能设计了特定领域的问题模板；接着，通过在科学合理的参数范围内进行采样，生成单独的问题；最后，利用LLMs和工具使用轨迹生成相应的解答。

Mujoco中主要涉及刚体和柔体动力学相关问题。

在偏微分方程（PDEs）中，研究人员设计了内部的数值求解器，并编制了关于热传递、化学工程、人口模拟等领域的问题。

气候科学问题数据集则以神经代理模型为中心。该模型接受时间、气候情景（如SSP126、SSP245）、温室气体排放（CO₂，CH₄）和气溶胶气体（BC，SO₂）等输入，输出相应的地表温度。

流行病学问题数据集使用了最先进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件，用于描述流行病状态。模型输出未来28天的流行病状态预测。

四个自定义数据集主要由多项选择题构成，而其中的气候科学数据集还包含开放式问题（例如关于气候变化缓解的政策建议）。公开的MATH和SciBench数据集则完全由数值问题组成。

外部科学工具

研究人员为不同数据集使用了不同的工具。

对于Mujoco数据集，他们使用了官方API；

对于PDEs数据集，他们利用了内部的数值求解器；

对于气候和流行病学数据集，他们使用了封装对应神经代理模型的API；

对于开放式数据集，他们采用了Python代码解释器。

评估指标

实验主要评估了两种准确率：答案准确率和工具使用准确率。

答案准确率

答案准确率量化了模型提供的正确答案比例。

对于自定义数据集中的多项选择题（MCQs），研究人员根据模型是否选择正确选项来分配二进制分数。

对于MATH和SciBench数据集中的数值答案，如果答案在真实值的±5%的容差范围内，则视为正确答案。

工具使用准确率

工具使用准确率评估模型是否能在工具使用方面做出智能决策，即在回答较难问题时使用工具，而在回答较简单问题时直接作答。

问题根据训练模型是否可通过Pn（无工具使用）回答来划分为简单（E）或困难（H）。当使用允许工具选择的Pi时，决策进一步标记为T（使用工具）或N（不使用工具）。例如，HT表示模型在处理一个困难问题时选择使用工具。

工具使用准确率定义为：

实验结果

答案准确率

该微调方法在自定义数据集上的表现显著优于所有基准模型，这些数据集通常未在预训练中涵盖。

尽管在公开数据集上，微调过的模型并未超越当前的最先进模型，但相比于未微调的基础模型，该方法显示出显著的改进。这一在公开基准测试上的性能差距，可能是由于当前最先进模型具有更多的参数量，并对开源数据集进行了特定优化。

工具使用准确率

总体而言，训练模型在所有数据集上均实现了最佳的工具使用准确率，除了在SciBench数据集上排名第二。

相比之下，其他模型的准确率大约为50%，表明两种典型情况：要么过度依赖工具，要么从不尝试使用工具。

除了表中展示的优势外，研究人员还进一步分析了MATH数据集上的工具使用决策情况，该数据集在下图中根据问题难度提供了先验标签。

训练模型在问题难度增加时显示出合理的工具使用增长。基础模型则无论问题难度如何均表现出对工具的过度依赖；而Claude 3.5在面对简单和困难问题时均表现出更多的直接回答信心，可能是因为MATH是一个公开数据集，该模型在训练期间已接触到类似问题。

作者介绍

Bohan Lyu

Bohan Lyu目前在清华大学修读计算机科学与经济学双学位。

2023年，他加入清华NLP实验室，受刘知远教授的指导。

2024年夏天，他前往加州大学圣地亚哥分校（UCSD）的计算机科学与工程系Rose-STL实验室，导师是Rose Yu教授。本研究部分工作在他访问UCSD期间完成。

他的研究兴趣是设计创新的计算机科学方法，特别是专注于语言技术、知识发现和数据挖掘，以解决现实世界的挑战。

此前，他曾担任过ICLR 2024、ICML 2024和ACL 2024研讨会的审稿人。

YadiCao

Yadi Cao在加州大学圣地亚哥分校（UCSD）计算机科学与工程系担任博士后研究员，导师是Rose Yu教授。

此前，他在加州大学洛杉矶分校（UCLA）获得了计算机科学博士学位，导师是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程（PDE）的数值解和机器学习方法，特别是在计算固体和流体动力学方面。

参考资料：

https://venturebeat.com/ai/uc-san-diego-tsinghua-university-researchers-just-made-ai-way-better-at-knowing-when-to-ask-for-help/

https://arxiv.org/abs/2411.00412

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-03 15:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于正确率,清华,模型,全新,科学,方法的资讯：

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

【新智元导读】LLM数学水平不及小学生怎么办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT

2024-08-10 09:47:00

北大字节VAR最佳论文、厦大清华亚军，NeurIPS 202

...获得了最佳论文亚军（Best Paper Runner-up）：由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need

2024-12-05 09:47:00

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...如果大模型对预测结果表示具有高度自信时，回答结果的正确率也更高，也就是说，大模型完全可以辅助人类做科研新发现。最重要的是，这种方法并不特定于某一个学科，其他知识密集型任务上也

2024-12-09 09:50:00

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...（SAIL）。他在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。同时，他也是李飞飞创业公司World Labs的顾问

2024-11-11 13:31:00

AI老师上线？专家：通用人工智能将推动教育范式转变

...让通用大模型像学生一样去解答题库里的题目，发现它的正确率非常低；接下来又尝试让通用模型进行模拟题的定制，测试下来发现，通用大模型只能做到模仿题目的形态，在题目的难度、内容和考

2024-07-13 09:49:00

常见电子邮件分类算法的性能分析

...)。从图1可看出，随着训练量(Train examples)的增大，训练集正确率下降，测试集正确率上升，最后稳定在0

2024-08-26 09:59:00

当大学生遇上大模型：人工智能会成为“偷懒神器”吗？

...教授赵启军道出了学校对人工智能通识教学的考量。根据清华大学教育研究院2024年在国内高校本科生、研究生中开展的一项调查，超过半数的大学生会经常使用生成式AI工具，主要用于信息

2025-02-24 07:37:00

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，

2024-11-28 09:57:00

谷歌AlphaFold 3在《自然》杂志刊登：准确率超50%

...歌旗下公司DeepMind创建的基于深度学习的人工智能测序式模型AlphaFold解决了这个问题。北京时间5月8日（周三）晚间

2024-05-12 23:11:00

更多关于科技的资讯：

双城耀国庆绮梦筑新章——恐龙园集团文旅产品“出圈”更“出彩

今年国庆、中秋假期恐龙园集团旗下环球恐龙城与东方盐湖城凭借全新业态与沉浸式体验双双跻身长三角文旅“顶流”双节期间，约62

2025-10-09 21:49:00

NBA中国携手阿里云开启多年合作，球迷互动体验新惊喜在哪？

10月9日，NBA中国和阿里云宣布达成多年合作，阿里云将正式成为NBA中国官方云计算与人工智能合作伙伴，基于通义千问大模型和云计算基础设施

2025-10-09 22:19:00

获充换电大会官方推荐及星级认证，公牛充电桩全场景方案引关注

9月27日至29日，2025中国汽车充换电生态大会在合肥举行，此次大会由国家能源局电力司、安徽省汽车办、中国汽车工业协会共同指导

2025-10-09 17:04:00

“北京榜样•最美互联网从业者”提名人选｜我爱我家陈少亮：数字

2025年的北京，秋阳穿过写字楼玻璃幕墙，在键盘上投下斑驳光影。在我爱我家集团总部技术中心，陈少亮正盯着屏幕上的数据流图

2025-10-09 17:05:00

两部门：到2027年新制定云计算国家标准和行业标准30项以上

中新经纬10月9日电工信部网站9日消息，工业和信息化部、国家标准化管理委员会近期联合发布《云计算综合标准化体系建设指南(2025版)》(下称《指南》)

2025-10-09 13:06:00

东湖评论：让热搜回归本真共建清朗网络空间

当下，网络热搜榜单已经成为我们感知世界的一个重要窗口。这个窗口展示的内容是否真实、健康、积极，直接影响着数亿网民的认知判断

2025-10-09 10:31:00

票根消费场景丰富激活经济增长势能

高低2025年国庆中秋双节，中国电影市场成绩亮眼：国庆档总票房破17亿元，10月2日年度总票房达425.02亿元，超2024年全年

2025-10-09 10:49:00

我市一3D打印企业有望在美国上市

厦门网讯（厦门日报记者李晓平）如今，拍照不再停留在平面，“一站式”3D人像打印，正让影像“立”起来，成为更多人的选择

2025-10-08 08:12:00

小牛FX风速款首销战报：5小时全渠道销量14252台，以“价

2025年9月29日，全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示，这款被业界称为“价格屠夫”的新品在9月28日首发后

2025-10-08 09:00:00

稳就业稳企业稳市场稳预期|从 “设备制造” 到 “全链

9月29日，由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动，带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察

2025-10-08 17:51:00

华远陆港入选全国“5A级供应链服务企业”

近日，中国物流与采购联合会公布全国第十批5A级供应链服务企业名单，华远国际陆港集团正式通过评审，获评“5A级供应链服务企业”

2025-10-08 18:01:00

中秋国庆假期太原重点商企“揽金”增超一成

货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期，我市消费市场“热”力值拉满，处处繁荣兴旺、活力十足。10月8日

2025-10-08 18:32:00

抢占新赛道，270多名员工假期忙“冲刺”

佳盛机电乘风而上，今年前8月产值同比增长超38%抢占新赛道，270多名员工假期忙“冲刺”南报网讯（通讯员单维亮记者张希）“我们是智能电网产业链条上的配套企业

2025-10-07 08:41:00

培育壮大十大千亿级产业集群丨十堰臻融：创新与技改“双轮”驱动

十堰广电讯（全媒体记者何旭通讯员胡新）科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎

2025-10-07 20:43:00

沉浸式AR科技盛宴：打造“可触摸”的科普实验室，重构科普新形

这个国庆去哪玩？中国科学技术馆告诉你！2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中

2025-10-07 09:05:00

头条订阅服务

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科学问题正确率提高28%