• 我的订阅
  • 头条热搜
强化学习是一种通过试错和奖励来学习最优策略的机器学习方法
...。强化学习是一种通过试错和奖励来学习最优策略的机器学习方法。在机器人路径规划中,强化学习算法可以通过与环境的交互来学习最优的行动策略。具体而言,机器人可以通过感知环境的状态,选择合适的动作,并根据环境...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...基于模型的方法和无模型的方法。1. 基于模型的安全强化学习方法:基于模型的安全强化学习方法通常依赖于对环境的建模,通过利用物理模型或近似模型进行推理和决策。这类方法通常具有较高的学习效率。例如,基于控制理...……更多
波士顿大学提出无尺度强化学习算法,能用于金融交易和自动驾驶
强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。它与监督学习和无监督学习不同的是,强化学习不是从带标...……更多
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...张森,曾在悉尼大学从事博士后研究工作,现任TikTok机器学习工程师;詹忆冰,京东探索研究院算法科学家。本文的通讯作者是武汉大学计算机学院教授、博士生导师、国家特聘青年专家罗勇。第一作者为张子屹,目前在武汉大...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?为了尝试回答这些问题,伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)、西湖大学联合开源了首个类 o...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
... 其中,RLHF 是一种广泛使用的方法,依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段:首先,通过人类偏好数据训练奖励模型(Reward Model, RM),然后使用该奖励模型指导策略模型(Policy Model)的强化学习优化。然而...……更多
强化学习训练一两个小时,自主完成任务:机器人ChatGPT时刻来了?
...据(演示和校正的数量)时,他们训练的策略远胜过模仿学习方法 —— 成功率平均超过 101%,周期时间平均快 1.8 倍。这是个具有重大意义的结果,因为其表明强化学习确实可以直接在现实世界中,使用实际可行的训练时间学会...……更多
清华、北大等发布Self-Play强化学习最新综述
...本或历史版本进行博弈而进行演化的方法,近年来在强化学习领域受到广泛重视。这篇综述首先梳理了自博弈的基本背景,包括多智能体强化学习框架和博弈论的基础知识。随后,提出了一个统一的自博弈算法框架,并在此框架...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...模型,并且在所有实验中,它都是一个线性模型,具有可学习参数 w = {w_0, w_1, . . . , w_N },给定 N 个特征:内循环:拟合 RBR RBR 拟合过程很简单:首先,使用内容和行为策略规则,并根据命题值确定排名。然后,优化 RBR 权重,...……更多
从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
...024x1280x3,手腕图像为480x640x3。 运动学数据不像其他模仿学习方法中常见的那样作为输入提供,这是因为由于dVRK的设计限制,运动学数据通常不一致。策略输出包括末端执行器(delta) 位置、(delta) 方向和双臂下颌角度。实验过程...……更多
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能,但是和其他的基础模型,比如初版的 StableDiff...……更多
...释性。在模型建立和预测阶段,可以采用机器学习或深度学习方法,利用大规模数据来建立更精确的模型。 三、充分发挥传统统计学的优势:应对数据分析需求传统统计学方法在可解释性方面表现出色。它们能够帮助我们理解...……更多
迪士尼是怎么做双足机器人的?
...采用标准零件和3D打印外壳,腿部有5个自由度,通过强化学习掌握了动画人物的行走姿态,动作灵巧流畅,还锻炼出跨越复杂地形的能力。在不久前的IEEE活动上,这个迪士尼机器人还跟杭州宇树科技的机器狗面对面炫技斗舞。...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此,有人认为,新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能...……更多
榕城职校 | 面对复杂的专业课程,职高学生如何高效学习?
...那些对你未来职业道路有直接影响的课程。2.采用有效的学习方法主动学习:通过提问、讨论和实验来深入理解课程内容,而不是被动地接受信息。分段学习:将复杂的任务分解成小块,每次专注于一个小部分,这样可以提高集...……更多
惠州市普通高中|高中生学习进入瓶颈期,该如何调整?
...、整洁,减少干扰因素,如手机、电视等。3、尝试新的学习方法和技巧:不同的学科可能需要不同的学习方法。尝试使用不同的学习策略,如主动学习(通过提问、讨论和解决问题来学习)、间隔重复(通过定期回顾来巩固记忆)等...……更多
惠州高考复读学校|高三学生复习进入“瓶颈期”,该如何应对?
...期:一、调整复习策略多样化复习方式:尝试使用不同的学习方法,如制作思维导图、进行小组讨论、利用在线资源等,以激发学习兴趣,提高复习效率。分阶段设定目标:将复习内容划分为小块,设定短期和长期目标,每完成...……更多
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
...凡解。任何适于解决这类问题的方法,我们都认为是强化学习方法。除了agent和环境的存在,强化学习系统中还有以下四个要素:策略(policy),定义正在学习的agent在指定时间的行为奖励信号(reward signal),定义强化学习问题...……更多
机器学习和人工智能在各行各业掀起了新的变革浪潮
1月2日消息,机器学习和人工智能已经在各行各业掀起了新的变革浪潮,其重点表现形式是各种大模型支撑的“智能体”(agent),指能自主活动的软件或者硬件实体。这些“智能体”可以和用户进行自然对话,并根据对话内容...……更多
Nature重磅:AI颠覆外骨骼!节省大量体力,自主适应走路、跑步等多种动作
...lation”。该论文展示了一种在计算机仿真环境中通过强化学习来让机器人学习控制策略的新方法。通过这种“计算机仿真中的机器学习”(learning-in-simulation),研究展示了这种方法可以让机器人具备智能性,特别是能适合各种人的...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...难的问题。于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐? 为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词...……更多
...数据中的隐藏模式,从而更好地选择和构建特征,为机器学习模型提供更有信息量的输入。 概率统计是AI中不可或缺的一部分。它用于处理不确定性和随机性,帮助AI系统进行推理和决策。贝叶斯统计、马尔可夫链和隐马尔可夫...……更多
...022年,日本科学家在机器人技术、计算机元件制造、机器学习等领域取得更多成果,为该国数字技术的进一步发展奠定了坚实的基础。在智能机器人方面,京都大学和名古屋大学研究人员从脊椎动物的进化中汲取灵感,开发出新...……更多
在学校职高技校就读怎么培养良好的学习习惯和自律能力?
在学校的职高技校阶段,培养良好的学习习惯和自律能力不仅是学业成功的关键,更是个人成长与未来职业生涯中不可或缺的品质。这一阶段,学生们面临着从基础知识向专业技能转变的挑战,如何在这样的环境中塑造自我,...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态...……更多
...,涌现了许多强大的工具和技术。其中,数据挖掘、机器学习和人工智能等技术起到了重要作用。例如,聚类分析、分类算法、关联规则挖掘等可以帮助我们发现数据背后的隐藏模式和规律。(四)大数据在国企思政工作中的应用...……更多
好的沟通胜过好的教育
...。过度的延迟满足可能会让你感到沮丧和不满,但你可以学习如何在满足即时欲望和长期目标之间找到平衡。这可能需要一些时间和努力,但你会逐渐发现,这种能力将对你产生积极影响。3.随着AI的发展与普及,各种人工智能...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多媒体信息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研...……更多
生成式AI可训练机器人执行多种任务
...)、机器人远程操作(中)和人类演示(下)让机器人能学习使用不同的工具。图片来源:麻省理工学院科技日报北京6月23日电 (记者张梦然)据美国麻省理工学院官网近日报道,该机构研究人员为了训练更先进的多用途机器...……更多
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍
...换和重放,自动生成大量适用于双手灵巧操作场景中模仿学习的训练数据。 项目主页:https://dexmimicgen.github.io/从仅5个源人类演示开始,DexMimicGen可以生成1000个双手灵巧任务的演示。研究团队从60个源人类演示中总共生成了21000...……更多
更多关于科技的资讯:
Mac比Windows PC更安全吗 未必
一直以来,相比Windows平台的PC用户,苹果macOS似乎有一种先天的“安全优势”,很多用户认为Mac比Windows更安全可靠
2025-02-08 22:46:00
“胖一点”好!攒点肉真的能扛病
快科技2月8日消息,微博话题“攒点肉真的能扛病”引发关注。医生就这一话题作出解释,生病时,尤其是禁食期间,体内的脂肪组织可分解代谢产生能量
2025-02-08 22:46:00
雷军驾驶小米YU7参与冬测:表现不错 测试任务圆满完成
快科技2月8日消息,今日晚间,小米创办人雷军发文表示,他驾驶小米YU7参与了冬季高速长途的测试,主要测智能驾驶和续航等项目
2025-02-08 22:46:00
英特尔AMD高通芯片科普:一文带你认清三大厂商笔记本处理器
在今年的CES 2025上,英特尔、AMD以及高通都发布了全新的处理器,持续布局自家的产品线。目前各家在移动端处理器这款都提供了非常丰富的型号尤其是英特尔和AMD
2025-02-08 23:16:00
2024平板电脑市场变天了:小米大增73%
市场调研机构Canalys公布了2024年全球平板电脑市场统计数据。最新数据显示,2024年第四季度全球平板电脑出货量达到3990万台
2025-02-08 17:15:00
软弹耐磨 鸿星尔克凌跃2.0跑鞋110元大促 吊牌299元
天猫【鸿星尔克官方旗舰店】鸿星尔克凌跃 2.0 跑鞋日常售价为 219 元,下单领取 70 元优惠券,首次购买用户叠加 7~10 元首购礼金
2025-02-08 17:15:00
韶音发布OpenFit 2 开放式耳机,开启舒适听音新时代
在2025年初举办的首届ShokzDay交流会上,作为开放式耳机、专业运动耳机赛道推动者的韶音,正式推出了新一代韶音舒适圈OpenFit2
2025-02-08 17:45:00
OPPO Find N5真机出炉:折痕最浅 机身全球最薄
快科技2月8日消息,今天下午,OPPO周意保晒出了Find N5折叠屏真机照。这款折叠屏不仅做到了全球最薄,折痕也是行业最浅
2025-02-08 17:45:00
小米回应春节期间夺手机第一:在不擅长的线下打败友商
快科技2月8日消息,据华尔街见闻援引供应链数据,2025年W5(1.27-2.2)春节期间,小米新机激活量达130万台
2025-02-08 17:45:00
七彩虹笔记本大升级!“虹光AI”智能助手接入满血DeepSeek
快科技2月8日消息,继联想“小天”之后,七彩虹科技升级全新“虹光AI”智能模型助手,正式将满血版DeepSeek R1模型引入
2025-02-08 18:15:00
2025年第一款双潜望旗舰!OPPO Find X8 Ultra 3月登场
快科技2月8日消息,博主数码闲聊站暗示,OPPO Find X8 Ultra会在3月份正式发布。对比上代Find X7 Ultra
2025-02-08 18:15:00
荣耀MagicBook Pro 14配置抢先曝光:酷睿Ultra 200H系列处理器 可流畅运行《黑神话:悟空》
快科技2月8日消息,2025年刚开年,荣耀就给了所有打算换本的同学一个大惊喜。昨晚,荣耀 PC 产品线总经理@朱臣才-荣耀 在微博上放出了新品笔记本荣耀MagicBook Pro 14的一段实测演示视频
2025-02-08 18:15:00
走出去 创未来丨亮晶晶:借数字化之力,破解潍企出海“密码”
大众网记者 杨晓玲 潍坊报道外贸是拉动经济增长的重要引擎,也是联结国内国际双循环的重要枢纽,跨境电商则是城市外贸经济的重要推动力
2025-02-08 18:38:00
胖东来:全村的希望
正月初五,胖东来蛇年营业第一天,不出意外的给其所在的小城——河南许昌,带来了一场市内“春运”。胖东来许昌地区门店每日总客流量超过30万人
2025-02-08 18:45:00
王腾包场请REDMI团队看《哪吒2》:大家都说REDMI和哪吒气质很像
快科技2月8日消息,今天,REDMI王腾包场请团队成员去看电影《哪吒2》。他表示,组织大家一起学习怎么打造优秀的产品,很多视觉效果对我们做设计和视觉都有借鉴意义
2025-02-08 18:45:00