高徒,偏好,模型,过程,基线,偏好头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。论文...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

首届大模型顶会COLM高分论文：偏好搜索算法让大模型评估更高

...。在 RLHF 训练范式中，奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐，从而生成更好地帮助人类并遵守人类价值观的回应。近日，第一届大模型顶会 COLM 刚刚公布接收结果，其中一项高分工作分...……更多

2024-08-06 09:26:00模型,偏好,高分,算法,首届,评估

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...应，由再让M_t对自己进行评价，由此得到用于训练actor的偏好数据。之后，给定同一个响应内容y，让M_t生成各种不同评价的变体，由meta-judge进行打分和排名，由此得到用于训练judge的偏好数据。结合上述的两类偏好数据，通过D...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好和兴趣，从而生成个性化、贴合用户需求的推荐内容。具体而言，该框架采用隐空间扩散机制，有效清除用户表示中的噪声，无论是压缩还是密集的嵌入空间。RecDiff...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...器。一方面，为了使LLM自动评分更加合理、准确并与人类偏好保持一致，对人类判断的数据收集极其重要。然而，获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行，但面临着缺乏标准、文档数据...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

关于LLM-as-a-judge范式，终于有综述讲明白了

...来源（人工标注和模型反馈）和微调技术（有监督微调和偏好学习）对这些工作进行了详细讨论。图 4：LLM-as-a-judge prompting 方法（2）提示：提示（prompting）技术可以有效提升 LLM-as-a-judge 的性能和效率。在这一章节中，我们总结...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推

...对齐不同模态时面临幻觉和细粒度感知不足等问题，传统偏好学习方法依赖可能不适配的外源数据，存在成本和质量问题。Calibrated Self-Rewarding（CSR）框架通过自我增强学习，利用模型自身输出构造更可靠的偏好数据，结合视觉...……更多

2024-06-21 09:21:00模态,美国,瓶颈,顶尖,模型,团队

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型。该团队也进行了消融研究，实验了不同的设计选择，比如多种不同的安全提示集数量和组成。用于安全的基于规则的奖励首先，作为 RBR 方法...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...训练的新方法，以及使用模型自己的生成结果创建高性能偏好数据的新方法。加上更多优化细节，得到的 Tülu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的？A...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

全模态对齐框架align-anything来啦：实现跨模态指

...模态上扩展新的对齐算法；3）同时发布首个全模态人类偏好数据集 Align-Anything，提供详细的人类偏好注释以及用于批评和改进的精细语言反馈，在增强模型的多模态理解能力的同时，从而实现跨模态的全面评估和改进。全模态...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

文娱行业速看：用户体验与平台收益最大化双赢

...费）和忠于你（重复付费、持续消费）。第六，基于用户偏好分层。用户偏好分为长期偏好、短期偏好、泛化偏好。其中，长期偏好和短期偏好又分为行为偏好和营销偏好两类，通过用户旅程中的触点梳理相应的用户行为，进而...……更多

2023-05-19 14:12:00文娱,收益,体验,用户,行业,平台

解密OneEntity体系

...教、地理位置、价值观等。人的向往与需求，可分为兴趣偏好、行为消费偏好。兴趣偏好：是人堆非物化对象的内在心理向往与外在行为表达，是一种法子内心的本能喜好，与物质无必然关系。例如渴望爱情、需要安全感、讨厌...……更多

2024-04-23 06:00:00体系,数据,标签,行为,偏好,业务

RLHF不够用了，OpenAI设计出了新的奖励机制

...对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上，例如基于人类反馈的强化学习（RLHF）。然而，仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费...……更多

2024-07-26 09:35:00不够,奖励,机制,设计,模型,安全

3天把Llama训成Mamba，性能不降，推理更快！

...文中，研究人员结合渐进式蒸馏、监督微调（SFT）和定向偏好优化（DPO）等方法达成了这一目标。光是变大还不够，在性能匹配Transformer的前提下，速度也要够快才行。 Mamba凭借固定的推理开销，在长序列中的优势明显，但Transf...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

泰州农商银行持续提升风险管理能力

...有进，保持了良好的发展态势。细化指标，出台年度风险偏好陈述书和风险管理工作指导意见。根据全面风险管理要求，以监管部门监管指标、省联社2024年经营管理考核、该行2022-2024三年全面风险管理规划为主要依据，结合风...……更多

2024-11-18 20:04:00泰州,农商,风险管理,风险,能力,银行

国内首个类chatgpt模型：复旦大学moss今日正式开源

...训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 MOSS来自复旦大学自然语言处理实验室的邱锡鹏教授团队，名字与《流浪地球》电影中的AI同名，已发布至公开平台（h...……更多

2023-04-21 22:51:00复旦大学,复旦,模型,大学,数据,模型

《报告》：老年人线上买保险偏好度提升

...）、短视频App（33%）等线上渠道了解保险品牌，年轻人更偏好社交媒体和内容类平台，老年人更偏好短视频App。从购险渠道来看，传统保司线下网点/代理人渠道（70%）仍是当前购险首选。但相较于2022年，2023年各年龄段消费者的...……更多

2024-04-24 14:23:00偏好,老年人,报告,渠道,消费者,势将

MSRA：视觉生成六大技术问题

...，可以得到下面的结果。然而，该指标不能确保与人类的偏好完全一致。2、利用已有的生成模型衡量指标，如FID等。这类方法有两个问题，第一，FID等指标自身的bias，比如FID假设图像抽取特征后的分布满足高斯分布，这会带来...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

华商基金邓默：市场风格向盈利确定性较高行业扩散

...中国经济网北京2月19日讯今年以来，市场对于核心风格的偏好已经逐渐转向价值，以红利风格为代表的防御型资产持续走强。华商基金邓默表示，在这个过程中，我们也在选股模型中加大了对估值因子的考虑，投资组合整体呈现...……更多

2024-02-19 15:54:00确定性,华商,盈利,风格,基金,行业

苹果AI版iOS首日火爆：聊天秒变高情商，大模型成最强嘴替

...通过多轮迭代优化模型的性能。其核心思想是结合不同的偏好优化算法，包括拒绝采样、直接偏好优化（DPO），使得模型能够从多种优化策略中受益，从而提高其对特定任务的适应性和性能。在每次迭代中，iTeC会从最新的模型...……更多

2024-07-31 09:39:00情商,火爆,模型,苹果,模型,苹果

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看看具体是如何做到的？自回归通用文生图模型STAR扩散模由于其高质量和多元的生成，一度在文生图领域占有主导地位。它通过逐步的去噪过程，...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

报告：iPad用户更倾向保留旧设备 iPhone用户偏好交易

【CNMO科技消息】根据Consumer Intelligence Research Partners（CIRP）的最新研究报告，iPad用户在处理旧设备时，相较于iPhone用户，更倾向于保留或再利用它们。这份覆盖至2024年3月过去12个月的数据揭示了一个显著的现象：在iPad的重复购...……更多

2024-05-24 09:36:00用户,偏好,倾向,报告,设备,交易