高徒,偏好,模型,过程,基线,偏好头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。论文...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

首届大模型顶会COLM高分论文：偏好搜索算法让大模型评估更高

...。在 RLHF 训练范式中，奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐，从而生成更好地帮助人类并遵守人类价值观的回应。近日，第一届大模型顶会 COLM 刚刚公布接收结果，其中一项高分工作分...……更多

2024-08-06 09:26:00模型,偏好,高分,算法,首届,评估

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...应，由再让M_t对自己进行评价，由此得到用于训练actor的偏好数据。之后，给定同一个响应内容y，让M_t生成各种不同评价的变体，由meta-judge进行打分和排名，由此得到用于训练judge的偏好数据。结合上述的两类偏好数据，通过D...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好和兴趣，从而生成个性化、贴合用户需求的推荐内容。具体而言，该框架采用隐空间扩散机制，有效清除用户表示中的噪声，无论是压缩还是密集的嵌入空间。RecDiff...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...器。一方面，为了使LLM自动评分更加合理、准确并与人类偏好保持一致，对人类判断的数据收集极其重要。然而，获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行，但面临着缺乏标准、文档数据...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

关于LLM-as-a-judge范式，终于有综述讲明白了

...来源（人工标注和模型反馈）和微调技术（有监督微调和偏好学习）对这些工作进行了详细讨论。图 4：LLM-as-a-judge prompting 方法（2）提示：提示（prompting）技术可以有效提升 LLM-as-a-judge 的性能和效率。在这一章节中，我们总结...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推

...对齐不同模态时面临幻觉和细粒度感知不足等问题，传统偏好学习方法依赖可能不适配的外源数据，存在成本和质量问题。Calibrated Self-Rewarding（CSR）框架通过自我增强学习，利用模型自身输出构造更可靠的偏好数据，结合视觉...……更多

2024-06-21 09:21:00模态,美国,瓶颈,顶尖,模型,团队

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型。该团队也进行了消融研究，实验了不同的设计选择，比如多种不同的安全提示集数量和组成。用于安全的基于规则的奖励首先，作为 RBR 方法...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...训练的新方法，以及使用模型自己的生成结果创建高性能偏好数据的新方法。加上更多优化细节，得到的 Tülu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？A...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

全模态对齐框架align-anything来啦：实现跨模态指

...模态上扩展新的对齐算法；3）同时发布首个全模态人类偏好数据集 Align-Anything，提供详细的人类偏好注释以及用于批评和改进的精细语言反馈，在增强模型的多模态理解能力的同时，从而实现跨模态的全面评估和改进。全模态...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

解密OneEntity体系

...教、地理位置、价值观等。人的向往与需求，可分为兴趣偏好、行为消费偏好。兴趣偏好：是人堆非物化对象的内在心理向往与外在行为表达，是一种法子内心的本能喜好，与物质无必然关系。例如渴望爱情、需要安全感、讨厌...……更多

2024-04-23 06:00:00体系,数据,标签,行为,偏好,业务

3天把Llama训成Mamba，性能不降，推理更快！

...文中，研究人员结合渐进式蒸馏、监督微调（SFT）和定向偏好优化（DPO）等方法达成了这一目标。光是变大还不够，在性能匹配Transformer的前提下，速度也要够快才行。 Mamba凭借固定的推理开销，在长序列中的优势明显，但Transf...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

RLHF不够用了，OpenAI设计出了新的奖励机制

...对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上，例如基于人类反馈的强化学习（RLHF）。然而，仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费...……更多

2024-07-26 09:35:00不够,奖励,机制,设计,模型,安全

泰州农商银行持续提升风险管理能力

...有进，保持了良好的发展态势。细化指标，出台年度风险偏好陈述书和风险管理工作指导意见。根据全面风险管理要求，以监管部门监管指标、省联社2024年经营管理考核、该行2022-2024三年全面风险管理规划为主要依据，结合风...……更多

2024-11-18 20:04:00泰州,农商,风险管理,风险,能力,银行

《报告》：老年人线上买保险偏好度提升

...）、短视频App（33%）等线上渠道了解保险品牌，年轻人更偏好社交媒体和内容类平台，老年人更偏好短视频App。从购险渠道来看，传统保司线下网点/代理人渠道（70%）仍是当前购险首选。但相较于2022年，2023年各年龄段消费者的...……更多

2024-04-24 14:23:00偏好,老年人,报告,渠道,消费者,势将

MSRA：视觉生成六大技术问题

...，可以得到下面的结果。然而，该指标不能确保与人类的偏好完全一致。2、利用已有的生成模型衡量指标，如FID等。这类方法有两个问题，第一，FID等指标自身的bias，比如FID假设图像抽取特征后的分布满足高斯分布，这会带来...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

苹果AI版iOS首日火爆：聊天秒变高情商，大模型成最强嘴替

...通过多轮迭代优化模型的性能。其核心思想是结合不同的偏好优化算法，包括拒绝采样、直接偏好优化（DPO），使得模型能够从多种优化策略中受益，从而提高其对特定任务的适应性和性能。在每次迭代中，iTeC会从最新的模型...……更多

2024-07-31 09:39:00情商,火爆,模型,苹果,模型,苹果

华商基金邓默：市场风格向盈利确定性较高行业扩散

...中国经济网北京2月19日讯今年以来，市场对于核心风格的偏好已经逐渐转向价值，以红利风格为代表的防御型资产持续走强。华商基金邓默表示，在这个过程中，我们也在选股模型中加大了对估值因子的考虑，投资组合整体呈现...……更多

2024-02-19 15:54:00确定性,华商,盈利,风格,基金,行业

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看看具体是如何做到的？自回归通用文生图模型STAR扩散模由于其高质量和多元的生成，一度在文生图领域占有主导地位。它通过逐步的去噪过程，...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

报告：iPad用户更倾向保留旧设备 iPhone用户偏好交易

【CNMO科技消息】根据Consumer Intelligence Research Partners（CIRP）的最新研究报告，iPad用户在处理旧设备时，相较于iPhone用户，更倾向于保留或再利用它们。这份覆盖至2024年3月过去12个月的数据揭示了一个显著的现象：在iPad的重复购...……更多

2024-05-24 09:36:00用户,偏好,倾向,报告,设备,交易