我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

波士顿大学提出无尺度强化学习算法，能用于金融交易和自动驾驶

类别：科技发布时间：2024-04-28 10:36:00 来源：DeepTech深科技

强化学习（Reinforcement Learning, RL）是一种机器学习的范式，主要关注的是在特定环境中，如何通过智能体与环境的交互来学习最优行为或策略，以最大化某种累积奖励。

它与监督学习和无监督学习不同的是，强化学习不是从带标签的数据集中学习，而是通过智能体在环境中采取行动，并根据行动的结果（奖励或惩罚）来学习。

强化学习已被广泛用于多种领域，包括游戏（如 AlphaGo）、自动驾驶汽车、机器人控制、推荐系统等。

通过强化学习，机器可以自主学习如何在复杂环境中做出决策，以实现特定的目标。

然而，目前强化学习研究的一个痛点是，为了保证学习率能被合适地设定，现有算法需要对奖励或惩罚的规模需要被限制。

举例来说，对于现有的绝大数强化学习问题，一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下，如果输入超范围的奖励或惩罚，算法无法正常的工作。

受无尺度在线学习（scale free online learning）的启发，美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法，巧妙地解决了上述问题。

图 | 陈鸣宇（来源：陈鸣宇）

详细来说，他们的算法在无需对奖励或惩罚的幅度假设下，实现了和已有算法相匹配的表现。

通过此提高了强化学习算法的通用性和适应性，使得同一套算法框架可以有效地应用于不同规模和复杂度的问题，从而扩大了强化学习在实际应用中的适用范围和效率。

在实际应用中，无尺度强化学习的可以用于动态调整的推荐系统，它能够实时处理用户行为数据，并不断更新推荐内容以适应用户兴趣的变化。

此外也可用于金融市场的实时交易分析系统，它能够处理高速流动且变化剧烈的市场数据，并即时调整交易策略。

一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中，鉴于安全性的关键性，必须确保避免机器人或自动驾驶车辆采取某些特定行为。

针对这一目标可以通过强化学习实现，即通过对不希望出现的行为施加惩罚来进行训练。

然而，如果对惩罚的幅度设定了限制，那么算法可能需要较长时间来彻底消除这类不期望的行为。

相比之下，本次算法能显著加快此过程，进而有效缩短训练周期并降低相关成本。

如前所述，本次课题的灵感源自于无尺度在线学习的启发。因此，他们旨在探索是否能将在线学习的成果延伸至强化学习领域。

这个想法在直觉上显得颇具挑战性：在线学习允许人们在与环境互动并采取行动后，获取关于奖励或惩罚的全面信息，包括那些不直接由人类行动引起的信息。

而在强化学习的情境下，人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚。

此外，鉴于本次课题面临的是无尺度问题，奖励或惩罚的波动幅度可能非常大。

这就要求他们能够及时获取奖励或惩罚的信息，以便有效调整算法参数。在这样的背景下，他们对信息的需求远远超过了有尺度情境下的需求。

与许多研究工作一样，他们的起点是强化学习中最基本的模型之一：多臂老虎机问题（Multi-armed bandit）。对于这个特定的无尺度多臂老虎机问题，已有一些研究成果。

但当他们深入分析这些先前研究的论文时，发现现有算法的设计理念与在线学习的策略大致相同。

这种相似性导致它们的应用范围仅限于多臂老虎机问题，而难以扩展至更广泛的强化学习领域。

鉴于此，他们决定不再依赖现有的研究框架，而是从零开始，尝试开发全新的无尺度强化学习算法。

本次研究的首项进展源自一个直觉上的灵感：虽然强化学习无法全面获取奖励或惩罚的信息，但是能够通过一些巧妙的设计，使得奖励或惩罚每一部分的信息都有一定机会被观测到。

以多臂老虎机为例，对于算法生成的任何策略，可以引入一个偏差项，确保每个臂都有一定的概率被拉动。在这种情况下，每个臂对应的信息都能有一定概率被获取。

在这一思路指引下，该团队开发了两种针对多臂老虎机的新算法。

这两种算法显著优化了现有成果：让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法，还开发了第一个能够以高概率减小遗憾的算法。

在成功开发了针对多臂老虎机的算法之后，课题组将研究重心转移到了一般化强化学习问题上。

此时他们面临的挑战是：在强化学习的场景中，可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。

例如，在某个强化学习问题中，如果存在一个无法到达的状态，那么该状态相关的信息也就无法被获知。

面对这一问题，他们尝试了多种方法，但均未能达到令人满意的结论。

一个偶然中，课题组注意到一个常被忽略的要点：对强化学习问题来说，某个状态对应的奖励或惩罚信息的重要性，实际上与该状态的可达性有关。

简而言之，如果对所有可能的策略而言，某个状态始终无法到达，那么他们无需关注它的奖励或惩罚信息，因为这些信息并不会对策略的优化产生帮助。

受到这个洞察的启发，他们的问题转化为寻找一种能最大化状态可达性的策略。

如果能找到这样的策略，那么就可以将先前为多臂老虎机问题设计的算法扩展应用，从而完成无尺度强化学习算法的设计。

本次课题的最后一个挑战是：如何找到一种策略能够最大化状态的可达性。

这时，一篇名为《在线强化学习中样本复杂度的解决》（Settling the Sample Complexity of Online Reinforcement Learning）的论文为他们提供了关键的启示。

该研究介绍了一种最新的无奖励强化学习算法（reward-free reinforcement learning）。于是，这个算法成了本次工作的决定性补充。

这让他们找到了一个可以被看作黑盒的工具，帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合，他们最终圆满完成了这项研究。

日前，相关论文以《无标度对抗强化学习》（Scale-free Adversarial Reinforcement Learning）为题发在 arXiv[1]，陈鸣宇和 Xuezhou Zhang 是共同作者。

图 | 相关论文（来源：arXiv）

陈鸣宇补充称：“我一直在思考一个非常简单但经常被忽视的话题：如何让强化学习算法真正自动化？如何使得人类（博士生？）不需要再不断手动调整算法的参数？”

对他而言，本次项目更像是一个开始：他的短期计划在于将本文的结论扩展到更一般的场景上，如线性强化学习（Linear RL）、表征强化学习（representation RL）。

长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作，能增强强化学习算法的通用性和灵活性，并提高强化学习在现实世界应用中的范围和效能。

参考资料：

1.https://arxiv.org/pdf/2403.00930

排版：罗以

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-28 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于波士顿大学,波士,尺度,算法,驾驶,金融的资讯：

借“他山之石”，促生物医药产业创新发展

...投资或私募股权团队专业度高，其成员毕业于哈佛大学、波士顿大学等医学相关专业，保障生物医药永续创新发展。企业裂变和聚变推动创新创业发展波士顿地区高校云集、医院汇聚，拥有顶尖研究

2023-10-25 08:01:00

回国求职收好攻略

...、大数据等行业的前沿科技岗位偏好留学生。毕业于美国波士顿大学的刘喻说：“据我了解，这些岗位对应聘者的专业能力、开放思维较为看重，留学生在海外学习能在迥异的环境里学到更多思考方

2024-08-23 06:22:00

沪上龙年首场招聘，父母俩瞒着波士顿大学毕业的儿子帮其找工作

...”谢先生说到儿子的时候十分自豪，他的儿子毕业于美国波士顿大学，前两年因为美国疫情的混乱回了国。而他和老伴是瞒着儿子来到招聘会的，“他不让我们来，我们自己比较着急，就过来看看。

2024-02-26 09:32:00

韩国知名女星，公开与丈夫的约会照，透露了女儿的目标大学

...次强调了哈佛的录取，引起了笑声。第二天，她们前往波士顿大学，孙泰英说：“我去是因为儿子想去，我认为给孩子们灌输梦想是件好事”。随后，四人前往波士顿大学，她把妈妈的一面展示

2024-08-30 10:22:00

助推演艺“引进来”“走出去”

...文纳）近日，中国对外文化集团旗下中演院线先后与美国波士顿大学、美国倪德伦环球娱乐公司举行签约仪式，就促进人文交流，进一步加强文化教育领域的友好合作达成共识。根据协议，中演院线

2024-03-25 04:41:00

华人青年钢琴家王梦茵出任加拿大歌剧公司钢琴艺术指导

...士学位；亦拥有新英格兰音乐学院表演研究生文凭、美国波士顿大学协作钢琴专业音乐艺术博士学位。她的职业生涯横跨北美、欧洲和中国的独奏音乐会、室内乐和歌剧表演等。年轻的王梦茵在声乐

2025-02-23 14:25:00

何以“提前上岸”?　须经“别样闯关”

...证,为接下来的出国留学做准备。李昀初最终选择去美国波士顿大学就读。其实在前期对加拿大、美国、英国等地的20多所学校进行申请之后,他总共拿下了16所高校的录取通知书。面对这样的

2024-06-04 05:32:00

NBA总决：12人裁判名单出炉詹姆斯公开挺欧文湖人3换1

...欧文的父亲也曾是一名职业球员，曾在NCAA效力多年，是波士顿大学历史得分王。

2024-06-06 10:46:00

苹果iphonese4升级：取消静音拨杆

...消费者对苹果及整个智能手机行业的需求正在走低。根据波士顿大学相关的数据，人们对智能手机的依赖性正在降低，这直接导致了苹果、三星等厂商近期销量的下滑。因此，业内分析认为，iPh

2023-10-07 05:03:00

更多关于科技的资讯：

丰台怡海中学无人驾驶实训教学项目落地

11月28日，AI驭见未来——怡海教育&加州伯克利大学机器人自动驾驶大赛ROAR实训基地揭牌仪式在北京市丰台区怡海中学（北校区）举行

2025-12-02 12:04:00

鹭江茶桌仔 | “全球第一”为何相中厦门？

●杨炯上周末，在珠海的亚洲通航展上，奥捷龙航空科技有限公司格外引人注目。虽然已多次到珠海参展，但这次它“来自厦门”。这一全球市场份额第一的德国旋翼机品牌

2025-12-02 08:18:00

博物馆进入“沉浸时代”，感官残障观众如何“入场”

视障文化博物馆“触摸文明”展厅。中青报·中青网记者李怡蒙/摄如今，许多博物馆将视觉、听觉、触觉等多种感知方式融合，创造出多层次

2025-12-02 05:43:00

烟台联通举办客服人员心理健康专题讲座

胶东在线12月1日讯为加强对一线客服员工的人文关怀，帮助员工有效应对工作压力，提升情绪管理与自我调适能力，11月26日

2025-12-02 06:42:00

现代物流网络布局与供应链弹性提升的关联

摘要：本文分析现代物流网络布局与供应链弹性提升的内在关联，探讨节点布局合理性、线路连接多样性、资源整合协同性对供应链冗余能力

2025-12-02 07:09:00

管理会计在企业战略决策中的应用研究

摘要：本文聚焦管理会计在企业战略决策中的应用，首先解析其与战略决策的内在关联，即通过整合财务与非财务信息，为战略制定提供系统性支持

2025-12-02 07:10:00

警惕境外组织利用恶意SDK收集敏感信息国家安全机关提示

中国网12月2日讯据国家安全部官微消息，国家安全部提示，SDK（软件开发工具包）是一套为特定软件框架、硬件平台或操作系统提供的开发工具集合

2025-12-02 07:26:00

全球首创全动压空气轴承产业化成果发布，开启高端制造新纪元

北京讯—— 2025年11月28日，“全球首创全动压空气轴承产业化成果发布会”在北京首钢园香格里拉酒店圆满落幕。此次盛会标志着我国在超精密制造领域取得了重大突破

2025-12-02 07:32:00

联通超清电视狂欢双十一，临沂IPTV用户喜获iPhone17

鲁网12月1日讯一年一度的双十一购物狂欢盛宴圆满收官，在这场全民消费热潮中，山东联通精心策划的“双十一福利再升级”活动脱颖而出

2025-12-01 11:12:00

千里运荔藏巧思现代加盟终端拓新局

“就算失败，我也想知道，自己倒在距离终点多远的地方。”电视剧《长安的荔枝》中这句掷地有声的台词，精准道出了当下创业者选择加盟之路时的执着与忐忑

2025-12-01 12:23:00

赛事总奖金160万元！WCI国际冠军赛苏州完美收官

2025年坦克世界国际冠军赛（WCI）11月30日在苏州阳澄国际电竞馆落下帷幕。来自中国、欧洲、北美和亚太地区的八支顶尖战队经过激烈角逐

2025-12-01 13:58:00

2025年北京市中小学生电子与信息创意实践活动圆满举行

当AI小球听懂指令，当智能车驰骋赛场，当电路在指尖点亮创意……孩子们像科学家一样思考，像工程师一样实践。11月30日，2025年北京市中小学生电子与信息创意实践活动在北京市第十四中学(畿辅校区)火热开幕

2025-12-01 14:26:00

烟台联通创新应用高压直流供电技术破解高铁5G基站供电瓶颈

胶东在线12月1日讯在青烟威荣高铁5G覆盖扩容工程建设中，烟台联通成功应用高压直流供电技术创新方案，有效解决了牟平北山隧道西口

2025-12-02 05:00:00

海尔智慧家庭成立创新实验室布局好房子住居生态

海尔智慧家庭战略持续强化、开放和加速布局，又交出新成果。11 月 28日，以“AI 新纪元共筑智慧家”为主题的海尔智慧家庭生态创新研讨会在北京召开

2025-12-01 14:51:00

海尔智慧家庭新成果：2025物联网大会斩获两项大奖

海尔智慧家庭持续强化、开放并加速智慧居住领域战略布局，如今再添重磅新成果。11 月 29 日，在首届全球万物智联数字经济可持续发展大会暨2025（第十届）世界物联网大会上

2025-12-01 14:51:00

头条订阅服务

波士顿大学提出无尺度强化学习算法，能用于金融交易和自动驾驶