• 我的订阅
  • 科技

波士顿大学提出无尺度强化学习算法,能用于金融交易和自动驾驶

类别:科技 发布时间:2024-04-28 10:36:00 来源:DeepTech深科技

强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。

它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。

强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。

通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。

然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。

举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。

受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。

波士顿大学提出无尺度强化学习算法,能用于金融交易和自动驾驶

图 | 陈鸣宇(来源:陈鸣宇)

详细来说,他们的算法在无需对奖励或惩罚的幅度假设下,实现了和已有算法相匹配的表现。

通过此提高了强化学习算法的通用性和适应性,使得同一套算法框架可以有效地应用于不同规模和复杂度的问题,从而扩大了强化学习在实际应用中的适用范围和效率。

在实际应用中,无尺度强化学习的可以用于动态调整的推荐系统,它能够实时处理用户行为数据,并不断更新推荐内容以适应用户兴趣的变化。

此外也可用于金融市场的实时交易分析系统,它能够处理高速流动且变化剧烈的市场数据,并即时调整交易策略。

一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中,鉴于安全性的关键性,必须确保避免机器人或自动驾驶车辆采取某些特定行为。

针对这一目标可以通过强化学习实现,即通过对不希望出现的行为施加惩罚来进行训练。

然而,如果对惩罚的幅度设定了限制,那么算法可能需要较长时间来彻底消除这类不期望的行为。

相比之下,本次算法能显著加快此过程,进而有效缩短训练周期并降低相关成本。

如前所述,本次课题的灵感源自于无尺度在线学习的启发。因此,他们旨在探索是否能将在线学习的成果延伸至强化学习领域。

这个想法在直觉上显得颇具挑战性:在线学习允许人们在与环境互动并采取行动后,获取关于奖励或惩罚的全面信息,包括那些不直接由人类行动引起的信息。

而在强化学习的情境下,人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚。

此外,鉴于本次课题面临的是无尺度问题,奖励或惩罚的波动幅度可能非常大。

这就要求他们能够及时获取奖励或惩罚的信息,以便有效调整算法参数。在这样的背景下,他们对信息的需求远远超过了有尺度情境下的需求。

与许多研究工作一样,他们的起点是强化学习中最基本的模型之一:多臂老虎机问题(Multi-armed bandit)。对于这个特定的无尺度多臂老虎机问题,已有一些研究成果。

但当他们深入分析这些先前研究的论文时,发现现有算法的设计理念与在线学习的策略大致相同。

这种相似性导致它们的应用范围仅限于多臂老虎机问题,而难以扩展至更广泛的强化学习领域。

鉴于此,他们决定不再依赖现有的研究框架,而是从零开始,尝试开发全新的无尺度强化学习算法。

本次研究的首项进展源自一个直觉上的灵感:虽然强化学习无法全面获取奖励或惩罚的信息,但是能够通过一些巧妙的设计,使得奖励或惩罚每一部分的信息都有一定机会被观测到。

以多臂老虎机为例,对于算法生成的任何策略,可以引入一个偏差项,确保每个臂都有一定的概率被拉动。在这种情况下,每个臂对应的信息都能有一定概率被获取。

在这一思路指引下,该团队开发了两种针对多臂老虎机的新算法。

这两种算法显著优化了现有成果:让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法,还开发了第一个能够以高概率减小遗憾的算法。

在成功开发了针对多臂老虎机的算法之后,课题组将研究重心转移到了一般化强化学习问题上。

此时他们面临的挑战是:在强化学习的场景中,可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。

例如,在某个强化学习问题中,如果存在一个无法到达的状态,那么该状态相关的信息也就无法被获知。

面对这一问题,他们尝试了多种方法,但均未能达到令人满意的结论。

一个偶然中,课题组注意到一个常被忽略的要点:对强化学习问题来说,某个状态对应的奖励或惩罚信息的重要性,实际上与该状态的可达性有关。

简而言之,如果对所有可能的策略而言,某个状态始终无法到达,那么他们无需关注它的奖励或惩罚信息,因为这些信息并不会对策略的优化产生帮助。

受到这个洞察的启发,他们的问题转化为寻找一种能最大化状态可达性的策略。

如果能找到这样的策略,那么就可以将先前为多臂老虎机问题设计的算法扩展应用,从而完成无尺度强化学习算法的设计。

本次课题的最后一个挑战是:如何找到一种策略能够最大化状态的可达性。

这时,一篇名为《在线强化学习中样本复杂度的解决》(Settling the Sample Complexity of Online Reinforcement Learning)的论文为他们提供了关键的启示。

该研究介绍了一种最新的无奖励强化学习算法(reward-free reinforcement learning)。于是,这个算法成了本次工作的决定性补充。

这让他们找到了一个可以被看作黑盒的工具,帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合,他们最终圆满完成了这项研究。

日前,相关论文以《无标度对抗强化学习》(Scale-free Adversarial Reinforcement Learning)为题发在 arXiv[1],陈鸣宇和 Xuezhou Zhang 是共同作者。

波士顿大学提出无尺度强化学习算法,能用于金融交易和自动驾驶

图 | 相关论文(来源:arXiv)

陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”

对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。

长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。

参考资料:

1.https://arxiv.org/pdf/2403.00930

排版:罗以

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-28 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...投资或私募股权团队专业度高,其成员毕业于哈佛大学、波士顿大学等医学相关专业,保障生物医药永续创新发展。企业裂变和聚变推动创新创业发展波士顿地区高校云集、医院汇聚,拥有顶尖研究
2023-10-25 08:01:00
回国求职 收好攻略
...、大数据等行业的前沿科技岗位偏好留学生。毕业于美国波士顿大学的刘喻说:“据我了解,这些岗位对应聘者的专业能力、开放思维较为看重,留学生在海外学习能在迥异的环境里学到更多思考方
2024-08-23 06:22:00
沪上龙年首场招聘,父母俩瞒着波士顿大学毕业的儿子帮其找工作
...”谢先生说到儿子的时候十分自豪,他的儿子毕业于美国波士顿大学,前两年因为美国疫情的混乱回了国。而他和老伴是瞒着儿子来到招聘会的,“他不让我们来,我们自己比较着急,就过来看看。
2024-02-26 09:32:00
韩国知名女星,公开与丈夫的约会照,透露了女儿的目标大学
...次强调了哈佛的录取,引起了笑声。 第二天,她们前往波士顿大学,孙泰英说:“我去是因为儿子想去,我认为给孩子们灌输梦想是件好事”。随后,四人前往波士顿大学,她把妈妈的一面展示
2024-08-30 10:22:00
...文纳)近日,中国对外文化集团旗下中演院线先后与美国波士顿大学、美国倪德伦环球娱乐公司举行签约仪式,就促进人文交流,进一步加强文化教育领域的友好合作达成共识。根据协议,中演院线
2024-03-25 04:41:00
...士学位;亦拥有新英格兰音乐学院表演研究生文凭、美国波士顿大学协作钢琴专业音乐艺术博士学位。她的职业生涯横跨北美、欧洲和中国的独奏音乐会、室内乐和歌剧表演等。年轻的王梦茵在声乐
2025-02-23 14:25:00
何以“提前上岸”? 须经“别样闯关”
...证,为接下来的出国留学做准备。李昀初最终选择去美国波士顿大学就读。其实在前期对加拿大、美国、英国等地的20多所学校进行申请之后,他总共拿下了16所高校的录取通知书。面对这样的
2024-06-04 05:32:00
NBA总决:12人裁判名单出炉 詹姆斯公开挺欧文 湖人3换1报价曝光
...欧文的父亲也曾是一名职业球员,曾在NCAA效力多年,是波士顿大学历史得分王。
2024-06-06 10:46:00
苹果iphonese4升级:取消静音拨杆
...消费者对苹果及整个智能手机行业的需求正在走低。根据波士顿大学相关的数据,人们对智能手机的依赖性正在降低,这直接导致了苹果、三星等厂商近期销量的下滑。因此,业内分析认为,iPh
2023-10-07 05:03:00
更多关于科技的资讯:
十堰广电讯(全媒体记者 耿吉国)据2025新能源汽车零部件交易会组委会最新消息,9月21日10:30,本届交易会将在十堰国际会展中心的交易会活动现场
2025-09-21 08:54:00
9月20日,2025太原人形机器人欢乐跑比赛在晋阳湖公园举行。这是我市第一次举办人形机器人“跑步”比赛。本次比赛,共有来自省城高校
2025-09-21 06:42:00
混成全网公敌的“流水线式造假”,终于被整顿
一家三口站在某所知名小学校门前,松弛地拍了一张合照。照片发到小红书上,下方评论区都在问询:“这么优秀的娃,究竟该怎么培养
2025-09-20 22:18:00
家庭观影进入IMAX时代!海信发布全球最大150英寸激光电视
鲁网9月19日讯9月19日,以“无界”为主题的“2025激光显示技术与产业发展大会”隆重举行。作为全球激光显示领域的领军企业
2025-09-20 08:56:00
我国脑机接口技术取得重大突破 厦门大学研究人员参与
放大镜视野下的“神经蠕虫”电极。(受访者 供图)厦门网讯(厦门日报 佘峥 通讯员 戴佩琪)我国脑机接口技术有重大突破——近日
2025-09-20 09:18:00
厦门“屏实力”再添新动能 天马发布高端OLED技术品牌“天工屏”
图为天马“天工屏”发布会现场。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹 通讯员 雷飏 李舜)随着人们日常使用手机时长持续攀升
2025-09-20 09:18:00
“赢在南京”海外人才创业大赛总决赛落幕逐鹿未来机“慧” 四海英才“论剑”南报网讯(记者余梦娇)9月19日,2025年“赢在南京”海外人才创业大赛总决赛在紫金山科技城圆满落幕
2025-09-20 09:54:00
过节送福礼,就送波尼亚!老字号中秋礼盒,青岛人都认这口
鲁网9月20日讯中秋将至,岛城的节日氛围日渐浓厚,走亲访友、阖家团聚的时刻,一份饱含心意的礼品总能传递温暖。作为扎根青岛的老字号肉食品牌
2025-09-20 10:08:00
机器人“总动员”!2025世界制造业大会上演智造奇观
大皖新闻讯 机械臂在空中划出优美弧线,人形机器人灵活抓取糖果,机器狗稳步行走在模拟街区内……2025世界制造业大会的智能机器人展区仿佛穿越至未来世界
2025-09-20 13:25:00
茶话弄九周年,这款经典单品即将迎来“家族式”升级
9月的西安,金桂飘香。2016年创立于西安的国风新中式茶饮品牌茶话弄,也将于近期启动以“桂花”为主题元素的品牌九周年庆典系列活动
2025-09-20 15:33:00
了不起的河南制造丨汉威科技:唤醒机器人“感知”世界的能力
大河网讯 2025世界制造业大会9月20日至23日在安徽省合肥市举办,大会以“智造世界·创造美好”为主题,举办开幕式暨主旨演讲
2025-09-20 16:14:00
了不起的河南制造丨2025世界制造业大会举行,河南“工业机器人”现场秀签名
大河网讯 9月20日,2025世界制造业大会开幕式暨主旨演讲在合肥市举行。河南省作为主宾省参会,30家制造业企业“重装上阵”
2025-09-20 16:45:00
2026届校园招聘大战启幕 科技企业派机器狗进高校抢人
近期,2026届校园招聘在全国多所高校陆续启动,一场围绕科技人才的“抢人大战”正式拉开帷幕。与往年相比,今年众多科技企业积极创新招聘形式
2025-09-20 17:55:00
2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度盛大启幕
鲁网9月20日讯(记者 潘亚妮 实习记者 刘悦 通讯员 袁嘉利 位一凡)9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市美妆在线新经济产业园盛大启幕
2025-09-20 17:55:00
从“炕头经济”到“美丽经济” ,平度睫毛产业数字化蝶变升级
齐鲁晚报•齐鲁壹点 刘震 通讯员 袁嘉利 位一凡9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市开幕
2025-09-20 18:05:00