• 我的订阅
  • 头条热搜
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务,一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。论文...……更多
首届大模型顶会COLM高分论文:偏好搜索算法让大模型评估更高效
...。在 RLHF 训练范式中,奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。近日,第一届大模型顶会 COLM 刚刚公布接收结果,其中一项高分工作分...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...应,由再让M_t对自己进行评价,由此得到用于训练actor的偏好数据。 之后,给定同一个响应内容y,让M_t生成各种不同评价的变体,由meta-judge进行打分和排名,由此得到用于训练judge的偏好数据。结合上述的两类偏好数据,通过D...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好和兴趣,从而生成个性化、贴合用户需求的推荐内容。具体而言,该框架采用隐空间扩散机制,有效清除用户表示中的噪声,无论是压缩还是密集的嵌入空间。RecDiff...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器。一方面,为了使LLM自动评分更加合理、准确并与人类偏好保持一致,对人类判断的数据收集极其重要。 然而,获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行,但面临着缺乏标准、文档数据...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...来源(人工标注和模型反馈)和微调技术(有监督微调和偏好学习)对这些工作进行了详细讨论。图 4:LLM-as-a-judge prompting 方法(2)提示:提示(prompting)技术可以有效提升 LLM-as-a-judge 的性能和效率。在这一章节中,我们总结...……更多
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
...对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...型,既能改善过度谨慎的奖励模型,也能改进(有时候)偏好不安全输出的奖励模型。 该团队也进行了消融研究,实验了不同的设计选择,比如多种不同的安全提示集数量和组成。用于安全的基于规则的奖励首先,作为 RBR 方法...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...训练的新方法,以及使用模型自己的生成结果创建高性能偏好数据的新方法。加上更多优化细节,得到的 Tülu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的?A...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...模态上扩展新的对齐算法;3)同时发布首个全模态人类偏好数据集 Align-Anything,提供详细的人类偏好注释以及用于批评和改进的精细语言反馈,在增强模型的多模态理解能力的同时,从而实现跨模态的全面评估和改进。全模态...……更多
文娱行业速看:用户体验与平台收益最大化双赢
...费)和忠于你(重复付费、持续消费)。第六,基于用户偏好分层。用户偏好分为长期偏好、短期偏好、泛化偏好。其中,长期偏好和短期偏好又分为行为偏好和营销偏好两类,通过用户旅程中的触点梳理相应的用户行为,进而...……更多
解密OneEntity体系
...教、地理位置、价值观等。人的向往与需求,可分为兴趣偏好、行为消费偏好。兴趣偏好:是人堆非物化对象的内在心理向往与外在行为表达,是一种法子内心的本能喜好,与物质无必然关系。例如渴望爱情、需要安全感、讨厌...……更多
RLHF不够用了,OpenAI设计出了新的奖励机制
...对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上,例如基于人类反馈的强化学习(RLHF)。然而,仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...文中,研究人员结合渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法达成了这一目标。光是变大还不够,在性能匹配Transformer的前提下,速度也要够快才行。 Mamba凭借固定的推理开销,在长序列中的优势明显,但Transf...……更多
泰州农商银行持续提升风险管理能力
...有进,保持了良好的发展态势。细化指标,出台年度风险偏好陈述书和风险管理工作指导意见。根据全面风险管理要求,以监管部门监管指标、省联社2024年经营管理考核、该行2022-2024三年全面风险管理规划为主要依据,结合风...……更多
国内首个类chatgpt模型:复旦大学moss今日正式开源
...训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 MOSS来自复旦大学自然语言处理实验室的邱锡鹏教授团队,名字与《流浪地球》电影中的AI同名,已发布至公开平台(h...……更多
...)、短视频App(33%)等线上渠道了解保险品牌,年轻人更偏好社交媒体和内容类平台,老年人更偏好短视频App。从购险渠道来看,传统保司线下网点/代理人渠道(70%)仍是当前购险首选。但相较于2022年,2023年各年龄段消费者的...……更多
MSRA:视觉生成六大技术问题
...,可以得到下面的结果。然而,该指标不能确保与人类的偏好完全一致。2、利用已有的生成模型衡量指标,如FID等。这类方法有两个问题,第一,FID等指标自身的bias,比如FID假设图像抽取特征后的分布满足高斯分布,这会带来...……更多
华商基金邓默:市场风格向盈利确定性较高行业扩散
...中国经济网北京2月19日讯今年以来,市场对于核心风格的偏好已经逐渐转向价值,以红利风格为代表的防御型资产持续走强。华商基金邓默表示,在这个过程中,我们也在选股模型中加大了对估值因子的考虑,投资组合整体呈现...……更多
苹果AI版iOS首日火爆:聊天秒变高情商,大模型成最强嘴替
...通过多轮迭代优化模型的性能。其核心思想是结合不同的偏好优化算法,包括拒绝采样、直接偏好优化(DPO),使得模型能够从多种优化策略中受益,从而提高其对特定任务的适应性和性能。在每次迭代中,iTeC会从最新的模型...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看看具体是如何做到的?自回归通用文生图模型STAR扩散模由于其高质量和多元的生成,一度在文生图领域占有主导地位。它通过逐步的去噪过程,...……更多
报告:iPad用户更倾向保留旧设备 iPhone用户偏好交易
【CNMO科技消息】根据Consumer Intelligence Research Partners(CIRP)的最新研究报告,iPad用户在处理旧设备时,相较于iPhone用户,更倾向于保留或再利用它们。这份覆盖至2024年3月过去12个月的数据揭示了一个显著的现象:在iPad的重复购...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐? 为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性,并不可避...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... 3 同样有着更好的表现。人类标注者根据该评估集进行的偏好排名,凸显了 Llama 3 70B 指令跟随模型与真实世界中同等规模的竞争模型相比的强大性能。Llama 3 的预训练模型还为这类规模的 LLM 模型建立了新的 SOTA。 Llama 3 是如何...……更多
A股风险偏好或将提高,高弹性、高成长的科技成长占据反弹第一线
...、经济持续复苏提振,A股市场吹响反攻号角,市场风险偏好或将提高,高弹性、高成长的科技成长占据反弹第一线。流动性方面,消息面再传来利好,美国劳工部报告显示,因能源价格大幅放缓,美国10月CPI同比升3.2%,为今年7...……更多
...握“人想要什么”的能力。在人和物之间建立某种关于“偏好”“需求”的关联。人们想出的办法是利用相似性原理。1997年,电子购物先驱亚马逊首次在商业上采用算法推荐,根据用户的购买记录推荐相似商品,取得相当不错...……更多
关系改善可能提升市场风险偏好
...及国内经济底部企稳大方向没有变化,此前压制市场风险偏好的主要因素已经得到缓和。另外中美关系出现明显转暖迹象,本周APEC峰会举行,中美领导人会晤可能会成为市场关注的焦点,若出现双边关系改善,特别是在经贸领...……更多
线上购险接受度将反超线下?互联网保险如何乘势而上
...各年龄段消费者的线上购险率普遍提高,老年人对线上的偏好度显著提升;各年龄段消费者的线下购险率均有降低,越年轻对线下的偏好度越低。2023年,以51—60岁这一年龄段为例,线上购险率由上一年的63%增长至72%。20—30岁这...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...一种多级蒸馏方法,结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于...……更多
更多关于科技的资讯:
华硕印度市场踩雷!53亿欠款难收回:谁坑了全球PC巨头
快科技3月12日消息,华硕在法说会上公布2024年第四季度及全年财报时表示,由于印度服务器客户欠款严重延迟支付,被迫在2024年四季度计提新台币53
2025-03-12 11:49:00
陪爬泰山小伙称为挣钱透支了身体 医生:爬山膝盖受压力达体重5倍
快科技3月12日消息,据报道,26岁小伙陈先生大学毕业后,便投身于泰山陪爬这一行业。泰山作为中国的五岳之首,每年吸引着无数游客前来攀登
2025-03-12 11:49:00
小米15 Ultra专业影像套装绝配!小米宣布OK夜光快门按钮免费领
快科技3月12日消息,今日,小米宣布,3月14日起,携带小米15 Ultra专业影像套装或具有“快门线螺纹接口”的相机到指定小米之家门店有机会免费领取OK夜光快门按钮
2025-03-12 11:49:00
小红书官宣:今天起 五种违规引导站外交易将永久封号!
快科技3月12日消息,近日,小红书官方发布了《交易导流违规管理细则》,明确规范了交易导流的定义、适用范围及违规类型。据了解
2025-03-12 11:49:00
加班文化开始退潮 网友灵魂发问:从不准加班到不用加班还有多远
快科技3月12日消息,微博话题“从不准加班到不用加班还有多远”冲上热搜榜,引发关注。据媒体报道,近日,大疆、美的、海尔等多家大厂接连宣布“强制下班”规定
2025-03-12 11:49:00
奢华天花板!宾利发布特别版座驾:全车镶嵌210克黄金
快科技3月12日消息,宾利发布了Batur Black Rose特别版官图。这款豪华GT跑车采用专属双色油漆和玫瑰金外观内饰套件
2025-03-12 11:49:00
合资竞相开启价格战!B级家轿福特蒙迪欧限时一口价12.58万
快科技3月12日消息,去年底以来,多家车企开启了一口价模式,其中别克投入力度最大,涵盖了几乎所有在售车型,而效果也立竿见影
2025-03-12 11:49:00
喜报!元征 APP(原 CICP)智慧任务助力经销商诊断设备成交再创新高!
元征APP(原CICP)智慧任务改版在去年下半年全新上线后,得到了广大元征授权经销商的认可和支持,并在2025年初实现诊断设备成交迭创新高
2025-03-12 11:52:00
拉丁公主争议不断!迪士尼罕见削减《白雪公主》首映规模
据媒体《综艺》报道,迪士尼将于3月15日在好莱坞举办《白雪公主》首映礼,但官方决定缩减红毯环节的规模,不再邀请大量媒体进行采访
2025-03-12 12:19:00
显示器自带空气净化功能!华硕推出VU Air Ionizer系列显示器
快科技3月12日消息,华硕宣布推出VU Air Ionizer系列显示器,其最大亮点在于内置了空气净化功能,主要面向商务用户群体
2025-03-12 12:19:00
领克900用上宁德时代骁遥超级增混电池:解决两大痛点
快科技3月12日消息,领克汽车官宣,品牌旗下旗舰SUV领克900将同级首发52.38kWh宁德时代骁遥超级增混电池,解决了增混车型的两大痛点
2025-03-12 12:19:00
忠艺隆五金丨钣金机柜加工速度慢,该从哪些方面进行解决?
在钣金机柜的加工流程中,时常会因各种因素遭遇加工速度变慢的现象。这主要是指在钣金机柜的生产制造环节中,由于一系列的原因
2025-03-12 12:23:00
听劝!海尔三筒懒人洗衣机真的要来了
3月11日,海尔官方微博账号连续发布多条消息,称应热心网友的智慧洗衣需求,三筒懒人洗衣机即将上市,将于3月15日晚预售首发
2025-03-12 12:29:00
主讲人:与光同尘科技CEO陈发灵今年春节档,《哪吒2》一再突破国产电影票房的天花板,有口皆碑的精良制作背后,更有前沿技术的托举
2025-03-12 12:49:00
“可以批量导入、一键报送,今年会轻松不少。”面对即将到来的近400家省内门店的年报报送,喜茶浙江区域公共事务部负责人华冬冬显得格外淡定
2025-03-12 12:49:00