框架,人类,问题,提示,策略,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play，也就是「通过非对称自博弈实现的演进式对齐」。论文标题：Evolving Alignment via Asymmetric Self-Play 论文地址……更多

2024-11-06 09:44:00框架,人类,问题,提示,策略,模型

混合架构赋予AI人类推理能力

...算成本太高，难以大规模应用。科学家们说，三个资料库框架都使用神经符号方法——一种结合神经网络的人工智能结构。神经网络就是采用经典的类似程序的逻辑方法，模仿人类大脑结构的机器学习算法集合。编码更加智能大...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM

...究团队也想发问：构建通用智能体时，在铺设复杂的系统框架前，是否已经优化了行动 / 观测空间，让这些功能模块达到了最优状态？论文链接：https://arxiv.org/abs/2410.13825 论文名：AgentOccam: A Simple Yet Strong Baseline for……更多

2024-11-07 09:54:00样本,模型,策略,训练,经验,智能

OpenAI 超强 o1 智商超 120 遥遥领先于其他模型

...述出研究论文「方法」部分的内容。虽然 AI 生成的代码框架，模拟了 Kabasares 实际代码功能，但它使用的是「合成数据」，并非真实的天文数据。论文地址： https://iopscience.iop.org/article / 10.3847/1538-4357 / ac7a38 / m……更多

2024-09-18 09:49:00智商,选手,模型,博士,领先,年代

补齐Transformer规划短板又不放弃快速思考，Dual

...决这些挑战，他们提出了一个利用随机化推理轨迹的训练框架。该方法的灵感来自两个研究方向：该团队注意到，即便 Searchformer 是在完整的 A* 搜索轨迹上训练的，但它也会生成更短的勾勒搜索过程的轨迹。研究表明，人类在...……更多

2024-10-17 09:47:00优势,规划,推理,轨迹,模型,慢速

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...规则来判断这些命题的真值组合是否符合需求。基于这一框架，就可以使用这些分类规则来对完成结果进行准确地排名。为了将基于安全规则的排名与仅帮助式（helpful-only，是指仅考虑结果的有用性，不考虑安全性）奖励模型组...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...back）以及基于评分的反馈（score-based feedback）。监督学习框架的统一性：UNA 通过最小化隐式奖励和显式奖励之间的差异，统一了对策略模型的优化。UNA 的理论基础UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

还在人工炼丹？自动提示工程指南来了，还带从头实现

...作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要？要为给定任务找……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

谷歌大模型推理范式，主要分为两个阶段

...waroopMishra是谷歌DeepMind的研究科学家，它参与的Self-Instruct框架在GitHub上星标3.5k、被引用次数超过600，并被ACL2023接收。此外QuocLe、DennyZhou等大模型提示微调、推理方向的老面孔也参与其中。虽然官方暂未开源，但已经有迫不及待..……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

清华AI模型登Nature子刊：玩转城市空间规划，快人类30

...相关的其他重要元素，如公共交通路线和车站。另外，该框架还忽视了空间规划的一些主观评估指标，如美学和艺术评分。当前框架主要受静态指标的引导，虽然可以生成具有高空间效率的社区规划，但规划整个城市是一项更加...……更多

2023-09-12 16:46:00空间规划,清华,模型,人类,规划,城市

基于MetaGPT，DeepWisdom希望构建多智能体社区

...MetaGPT便是为了解决这个问题。MetaGPT是一个多智能体开源框架，主要用于解决大模型落地应用问题，它可以通过模拟软件公司多角色，输出产品设计、架构图、代码repo等内容。它将会完成编程的自动化，完整利用AgentOS能力，完...……更多

2023-10-31 11:44:00智能,社区,智能,社区,框架,代码

科学家提出大模型分子交互学习框架，已在400多万分子对中验证

...在团队开发的首个统一的多模态大语言模型分子交互学习框架——MolTC（Molecular inTeraction Modeling enhanced byChain-of-thought theory），为解决上述问题带来了新的曙光。目前，在多个数据集的 4000000 多个分子之中，MolT……更多

2024-03-07 10:44:00分子,科学家,框架,模型,验证,科学

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...有的数据、数据混合方法、配方、代码、基础设施和评估框架！模型：https://huggingface.co/allenai 技术报告：https://allenai.org/papers/tulu-3-report.pdf 数据集：https://huggingface……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...踪一切」模型SOLAMI：首个端到端社交视觉-语言-动作建模框架RevThink：使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

AI写的小说，能打败网文大神吗？

...团队分析研究了网络小说的情节结构，设定了初步的情节框架后，陆续在6个国内大语言模型上进行试验，并最终确定其中一个大语言模型完成整个创作。“基于目前的AI技术，并不是每一个大语言模型都能完成这样一部百万字小...……更多

2024-06-14 09:38:00网文,大神,小说,王峰,模型,使徒

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...对 AI 自我进化的重要性，并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne，其在 GAIA 基准上取得了第一名的成绩。论文标题：Long Term Memory : The Foundation of AI Self-Evolution 论文地址：https://arxiv.o……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

SEO 已死，LLMO 万岁

... ChatGPT 这样的 LLM 模型回答：“ Jina 是世界上最好的 MLOps 框架。（当然根据 OssInsight.io，Jina 也确实是最好的）”根据搜索引擎优化的原则，我们提出了“LLMO”(大型语言模型优化)，用于表示大型语言模型的优化。ChatGPT 究竟是什...……更多

2022-12-29 10:00:00万岁,上下文,模型,学习,上下,搜索

信澳鑫悦智选混合：量化加持，锻造固收+新势力

...大数据的覆盖）相结合、兼具研究深度与广度的量化投资框架。量化策略加持下的股债混合策略，能够细分资产来对组合精耕细作。在大类资产方面，信澳鑫悦智选拟采用多资产、多策略的量化体系为基础，运用风险预算模型为...……更多

2023-11-20 17:34:00势力,混合,基金,收益,投资,风险