• 我的订阅
  • 头条热搜
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...作,现任TikTok机器学习工程师;詹忆冰,京东探索研究院算法科学家。本文的通讯作者是武汉大学计算机学院教授、博士生导师、国家特聘青年专家罗勇。第一作者为张子屹,目前在武汉大学计算机学院攻读博士二年级,研究方...……更多
打造高品质游戏 - 云上分布式AI实践
...中需要AI机器人的原因和挑战,以及强化学习的核心技术和算法。演讲重点介绍了亚马逊云科技如何支持游戏开发商实现AI虚拟玩家、自动化测试、实时决策优化和虚拟角色行为等功能,带来高效、高覆盖率和个性化的优势。这个演...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
... 和 RM-Max 组合进行选择。我们的框架允许我们在多种搜索算法中进行选择,例如 Beam Search、Best-of-N, 蒙特卡洛树搜索等。每种算法在 PRM 的质量上有其独特的优势。复杂的搜索算法在处理更难的任务时可能表现更好,而简单的方...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...:应用控制理论的原则来设计出能满足安全性要求的 RL 算法。 形式化方法:利用形式化验证工具来确保策略的安全性。2. 无模型的安全强化学习方法:无模型的方法则不依赖于精确的环境模型,而是直接通过与环境的交互来进...……更多
波士顿大学提出无尺度强化学习算法,能用于金融交易和自动驾驶
...究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此,这些模型的通用性能和专业能力都非常强。但遗憾的是,他们都没有透明地公开他们的训练数据和训练配方。到目前为止,开源后训练一直...……更多
北京经开区:加快打造AI原生产业创新高地,每年发放1亿元...
...体目标到2026年,人工智能核心技术取得重大突破,算力算法数据有效支撑,场景赋能的广度和深度全面拓展,数据要素市场化建设成效显著,全面构建自主可控软硬件人工智能产业生态。培育性能达到国际先进水平的通用大模...……更多
思明区发布十条有力措施 每年一亿元资金推动AI产业建圈强链
...设人工智能产业公共服务平台●提供普惠算力●鼓励模型算法应用●促进数据要素流通●推动模型算法创新●鼓励企业“智改数转”●支持打造场景标杆●支持建设特色产业楼宇●提升专业人才技能●落地优质产业资源厦门网讯...……更多
小米开源首个推理大模型Xiaomi MiMo:7B参数就超越OpenAI o1-mini
...,MiMo 推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动。包括:预训练:核心是让模型见过更多推理模式数据:着重挖掘富推理语料,并合成约200B tokens推理数据。训练:进行了三阶段训练,逐步...……更多
是个车企都要蹭DeepSeek 属实有点幽默了
...以看到,大家都提到了 DeepSeek-R1 模型和自有模型在底层算法上的融合,部份品牌还提到了模型蒸馏的技术。再加上一家名叫思必驰的云端大模型服务公司,前一阵也官宣了自己在云端模型里融合了 DeepSeek 模型,给像是长城、比...……更多
苹果AI版iOS首日火爆:聊天秒变高情商,大模型成最强嘴替
...作帮助、工具使用和代码。另外,苹果也研发了许多自研算法,为提高模型表现提供了加持,具体信息也在报告中被披露。还有细心的网友从中发现了华点——苹果大模型的训练用的是谷歌TPU集群,英伟达含量竟然为零。Siri升...……更多
首届大模型顶会COLM高分论文:偏好搜索算法让大模型评估更高效
...出了将评估问题转换成偏好排序问题,从而设计了 PairS 算法,一个可以从成对偏好(pairwise preference)中搜索和排序的算法。通过利用不确定性和 LLM 传递性(transitivity)的假设,PairS 可以给出高效,准确的偏好排序,并在多个...……更多
...技赛事将面向全球高校学子发出召集令,通过“神算师”算法、“大营家”营销、“星匠师”巧匠三大赛道,为高校青年打造一个展现才华、碰撞智慧、对话未来的顶级舞台。十五载追光而行:“中兴捧月”如何成就全球青年的...……更多
文科无用?这所高校发布“基于大语言模型的社会科学实验装置”
...构建“人文-科技”共生生态。AI时代亟需培养出既能驾驭算法、又能守护人性的新一代人才,回应人工智能时代的复杂挑战。他说,近年来,浙江工商大学积极响应技术革命对教育的机遇和挑战,在这场教育和技术的比赛中快速...……更多
...北京4月25日电 (记者赵竹青)4月23日,2024年第三届琶洲算法大赛正式启动。本届大赛由广州市人民政府、中国人工智能学会联合主办,通过设置算法优选赛、创新应用赛、AI大模型挑战赛等多个组别的比赛,促进人工智能算法...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...模态大模型与人类的意图相对齐、研究如何通过不同对齐算法让模型输出更符合人类预期和价值观具有重要意义。该框架的独特之处在于:1)Align-Anything 框架支持文本、图像、音频、视频等多种模态的输入和输出对齐,这在目...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...先会使用SFT对模型进行预热,然后采用在线强化学习(PPO算法)进行优化。也就是,对给定的问题自动采样大量的推理路径,并根据真实答案来获取奖励,从而进一步对模型进行微调。在GSM8K、MathQA和SVAMP数据集上的大量实验表...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于到底能不能其乐融融,咱就不管...……更多
交行副行长钱斌:生成式AI在算力算法、数据安全等领域面临...
...技术在金融领域的落地应用。钱斌指出,生成式AI在算力算法、数据安全、人才等领域面临着诸多痛点和难点。比如,如何实现大规模算力模式下的绿色低碳供给,如何提供适合大模型的大规模、高质量、实时性数据,如何将模...……更多
星尘数据举办春季媒体开放日暨Rosetta3.0平台上线发布会,打破标注产业“人力工厂”认知
...据拥有行业内自动化水平最高的标注平台Rosetta平台,在算法种类、算法效率、算法接入能力、算法交互能力等方面均具领先优势,其数据闭环系统打通数据采集标注、数据预处理、自动化质检、人工质检、多轮质检、客户验收...……更多
卓翼飞思智能算法云仿真平台助推全国集群挑战赛,引爆行业热潮!
...北京卓翼智能科技有限公司及旗下飞思实验室研发的智能算法云仿真平台(以下简称”卓翼飞思RflySim Cloud平台”)提供全方位的智能仿真方案支持,赢得行业200多位专家及所有参赛学生的好评。政策导向 行业技术趋势尽显本...……更多
chatgpt低成本复现流程开源
...段的监督微调模型和第二阶段的奖励模型,利用强化学习算法对大语言模型进一步训练。 △RLHF的三个阶段对于ChatGPT训练而言,第三阶段是核心部分。OpenAI采用了强化学习中近端策略优化算法(PPO),借此引入奖励信号,使得...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性,并不可避免地导致泛化问题和效率问题。基于这些考虑,谷歌 DeepMind 和芝加哥大学...……更多
前海人工智能集聚区迎来首批企业入驻
...中心和算力调度平台最高获2000万元支持“数据、算力和算法”是人工智能发展三大关键要素,《若干措施》加大了对其要素供给。在提高算力供给能力方面,鼓励开展“一云多芯、以网强算、算网融合”技术创新,推动云、数...……更多
鹰瞳科技:万语大模型通过国家深度合成服务算法备案 打造智能健康助手助力行业发展
近日,国家互联网信息办公室发布第六批深度合成服务算法备案信息公告,鹰瞳科技(2251.HK)万语大模型算法顺利通过该备案。据介绍,鹰瞳万语医疗大模型算法旨在提高对医学知识的访问和理解,促进医疗领域内的知识共享...……更多
...维度,从而为后续数据挖掘奠定基础。 (三)特征工程与算法选择特征工程是利用领域知识和数据分析技术,从原始数据中提取、构建能够刻画需求规律、影响因素的关键特征指标,为算法建模提供输入。常见的特征工程方法包...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...的任务求解范式。ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据GPT系列模型的技术演变(ChatGPT):在GPT-3的基础上,OpenAI又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级,推出了GPT-3.5系列模型。202...……更多
...走稳步”的原则,重点把握好以下几个关键点。一、明确算法在模型构建中的重要价值。最高人民检察院检察长应勇指出,“法律监督应用模型是深入实施数字检察战略的重要突破口”,广泛推进数字模型应用是检察机关积极响...……更多
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...。AI产业有望继续保持“芯片+算力基础设施+AI框架&;算法库+应用场景”的稳定产业价值链结构,拥有完整数据闭环结构、良好数据自处理能力的企业望持续成为产业受益者。以ChatGPT为代表的预训练大模型加速商业化落地,...……更多
黄伟健教授在暨南大学创业学院发表量子计算与人工智能融合前沿报告
...班专题学术活动,黄伟健教授以《量子计算驱动人工智能算法优化和跨领域应用》为题发表学术报告,深入探讨量子技术与人工智能(AI)融合的前沿趋势及实践路径。黄伟健,男,1981年2月25日出生于中国,是工商管理和商业人...……更多
更多关于科技的资讯:
重构交付逻辑,激活产品价值——装库科技副总经理赵世佳解读“团装模式”的时代意义
在“好房产品力峰会暨数字化赋能创新大会”上,装库科技副总经理赵世佳以《重构好房子的交付逻辑,装库团装打造效率与体验兼备的产品交付闭环》为题
2025-07-04 20:30:00
淄博淄川:“智能测评+专业指导” 为求职者“精准画像”“量体裁衣”
鲁网7月4日讯(记者 陈珊珊 通讯员 司芮良 齐秀华)近日,“淄川就业”小程序再添新功能,全面推出“职业素质测评”模块
2025-07-04 21:08:00
淄博市淄川区:“智”造简历 助您打造“求职利器”
鲁网7月4日讯(记者 陈珊珊 通讯员 李玉玺 司书杰)简历是求职的敲门砖,更是求职者的“门面”。它不仅是对个人职业经历
2025-07-04 21:41:00
支易:着力培养“数字工匠”
以人工智能、云计算、区块链等为代表的新一代数字技术,凭借其高创新性、强渗透性和泛时空性,深刻革新了生产工具与生产方式,实现了对经济社会各领域全方位
2025-07-04 21:52:00
烟火经济新引擎!快手直播大舞台遍地开花,打造现象级文旅新爆款
夜幕降临,河北唐山迁安天元谷景区内,泡泡龙大舞台灯光亮起,一场别开生面的文化盛宴准时上演。线上,快手直播间涌入数百万粉丝
2025-07-04 22:10:00
移动5G直播 让樱桃“红”遍全国
近日,又到了樱桃成熟的季节,在东营广饶稻庄的樱桃种植园里,红彤彤的樱桃挂满枝头,果香四溢,果农们迎来了忙碌而喜悦的采摘季
2025-07-04 21:35:00
2025品牌强国论坛在京举行 屈凌霄获邀出席共话品牌新机遇
2025年6月,由中国商报社、中国工业报社联合主办的“2025品牌强国发展高峰论坛暨第八届品牌强国人物大会”在北京国家会议中心顺利举行
2025-07-04 08:23:00
刘众博士荣获“2025年度AI行业杰出人物”称号
2025年,AI时代以迅雷不及掩耳之势来到我们身边,年轻的科技新锐正在以一项项前所未有的创新AI成果改变世界。刘众博士就是其中的一员
2025-07-04 08:24:00
厦门:为低空经济人才插上高飞之翼
集美工业学校学生在调试参赛无人机的尾翼结构件。学生在校内进行无人机飞行训练。厦门网讯(本版文/厦门日报记者 何无痕 本版图/厦门日报记者 林铭鸿)虽然已放暑假
2025-07-04 08:49:00
【多彩新论】别让字典背负不该承受之“累”
近期,《新华字典》第12版中的一些内容引发了争议,像“累”字“孩子小,成了累赘”的造句,“玩”字“戏弄,玩弄女性”的释义等
2025-07-04 17:10:00
与辉同行开新号兰知春序,粉丝量已超27万,董宇辉任公司董事
7月4日,@与辉同行 发文“【兰知春序】抖音账号特别推出《主创请开麦》节目!”据悉,该栏目将以电影为主题,带领观众一起走进电影的世界
2025-07-04 17:39:00
宇树科技入选《时代周刊》2025年\
近日,国际权威媒体《时代周刊》正式发布2025年度"全球100大最具影响力企业"榜单,宇树科技凭借在机器人领域的突破性创新和全球市场影响力成功入选
2025-07-04 17:47:00
触摸数智生活、深度感受元宇宙……2025数博会专业展设置六大展馆提前剧透
据中国国际大数据产业博览会(简称数博会)执委会最新消息,2025数博会专业展将于8月27日在贵阳国际会议展览中心启幕,规划6万平方米展区
2025-07-04 18:04:00
中国民营企业数量庞大,其中绝大多数是中小企业。中小企业已是推动创新、产业升级、促进就业、改善民生和稳定增长的重要力量。截至2025年5月底
2025-07-04 18:12:00
培育壮大十大千亿级产业集群丨湖北长收农业:产品产线双提升 顺利实现“双过半”
十堰广电讯(丹江口融媒记者 周鹏)今年以来,湖北长收农业科技有限公司将传统酱菜工艺与现代科技结合,用科技创新传承老味道
2025-07-04 19:36:00