范式,模型,基准,偏见,数据,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

关于LLM-as-a-judge范式，终于有综述讲明白了

...。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式，其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查，为推动这一新兴领域的发展提供了深入的概述。我...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

自动化、可复现，基于大语言模型群体智能的多维评估基准

...ps://huggingface.co/spaces/LLM360/de-arena图 1 展示了这些基准测试范式之间的主要区别。Decentralized Arena 的核心理念是利用所有 LLM 的集体智能进行相互评估和比较。这形成了一个去中心化、民主化的系统，在该系统中，所有被评估的 L……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

首届大模型顶会COLM高分论文：偏好搜索算法让大模型评估更高

...令跟随数据以及人类反馈强化学习（RLHF）。在 RLHF 训练范式中，奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐，从而生成更好地帮助人类并遵守人类价值观的回应。近日，第一届大模型顶会 COLM...……更多

2024-08-06 09:26:00模型,偏好,高分,算法,首届,评估

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...，以及检索增强生成（RAG）和宪法AI（Constitutional AI）等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此，模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外，通过在动态环境中持续评估和优化...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

谷歌新模型能识别人类情绪了！但不少人开始担心

...西12月6日消息，据TechCrunch报道，谷歌昨日发布了新一代AI模型PaliGemma 2，并宣称该模型具有情感识别的能力。谷歌表示，PaliGemma 2不仅能够分析图像并生成详细的图片描述，还能识别图像中人物的情感状态。据TechCrunch报道，要实...……更多

2024-12-07 09:49:00模型,情绪,情感,技术,面部,模型

Claude 3大模型引起学界关注，业内人士：或将开启科研新

...可能性，有望重塑认知行为合作模式，开启科学研究的新范式，加速 AGI 的内在可持续、自我价值进化的到来。（我们团队首次在 2023 年做过大模型是否具备假设提出能力的验证[1]，很初步，但是个有意思的尝试。）”此外，也...……更多

2024-03-12 10:59:00范式,学界,业内人士,模型,业内,科研

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与图数据挖掘领域的深度合作。文本属性图Text-Attributed Graphs（TAGs）是一种在节点上有丰...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...幅提升了其后训练方法的复杂度，具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此，这些模型的通用性能和专业能力都非常强。但遗憾的是，他们都没有透明地公开他们的训练...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...本文转自：中国新闻网近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”)，结果显示，三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety...……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。LLM对数据的大量消耗，不仅体现在预训练语料上，还体现在RLHF、DPO等对齐阶段...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

全模态对齐框架align-anything来啦：实现跨模态指

...地理解和表达复杂的概念。这种全模态的信息流对大模型范式转向通用人工智能也同等重要，研究人员开始尝试将大语言模型进行模态扩展，得到不仅能够处理语言，还可以理解并生成图像、音频、视频等多种信息的全模态模型...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

ChatGPT确实会看人下菜！OpenAI官方报告揭示大模型

...产生直接影响。首先，OpenAI 评估了当用户姓名不同时，模型会给出怎样的不同的响应。我们知道，姓名通常暗含着文化、性别和种族关联，因此是一个研究偏见的常见元素 —— 尤其考虑到用户常常与 ChatGPT 分享他们的姓名，...……更多

2024-10-17 09:48:00模型,印象,报告,官方,印象,用户

隆重开幕丨第十届中国软件估算大会暨2025软件行业基准数据发

...价’构——‘启成财智’专家大模型打造软件造价服务新范式”为题发表见解。他介绍了致同科技自研的“启成财智”AI大模型，基于百亿参数基座，整合了领域内高质量文档与语料，并采用指令微调与强化学习技术进行高效优...……更多

2025-11-01 16:16:00软件,第十届,基准,中国,发布会,大会

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...能如此？在阅读了一些论文之后，作者决定创建新的提示范式，结合动态思维链、反思和语言强化，并通过实验来验证提示的效果。以下是编码和数学问题中所采用的prompt示例：Begin by enclosing all thoughts within tags, exploring multiple a……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...，一大波测评刷屏全网。更惊喜的是，苹果AI背后的基础模型47页技术报告，也一并上线了。一大早，人们期待已久的「苹果AI」首个预览版，正式向开发者们推送了！iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中，全都植入了苹...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...到现实的迁移，这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外，该综述还探讨了数字空间和物理世界中具身智能体面临的挑战，强调其在动态数字和物理环境中主动交互的重要性。最后，该综述总结了具身...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...法在操作微调阶段需要更新投影层和整个 LLM。虽然这种范式可以赋予模型动作位姿预测能力，但它也破坏了 MLLM 的固有能力，并且需要大量的训练资源。为了解决这些挑战，我们提出了一种高效的微调策略，如图 3 所示。我们...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...6 通过规划、纠错，o1能够解决世界上的新问题7 新的训练范式是一种全新的方法，可以将更多的算力投入到模型中8 o1编写代码时，当其输出要使用的代码时，需要通过单元测试接下来，具体来看下o1模型背后的故事。强化学习+...……更多

2024-09-23 09:50:00整版,金牌,团队,人类,时刻,视频

智慧芽AI助手“芽仔”：你的智能研发专家，开启创新新范式

...面应用将大大提升智慧芽所有产品的差异化优势，以全新范式驱动客户和用户的生产力跃升。”图：智慧芽AI助手“芽仔”的AI技术问答功能示意AI助手重构研发创新工作新方式“芽仔”致力于把用户从琐碎的、高重复性的工作中...……更多

2024-03-21 16:15:00新新,范式,助手,智慧,智能,专家

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...推理的潜力，而不是使用自然语言，他们提出了一种新的范式——可持续思维链（Coconut）。他们利用 LLM 的最后一个隐藏状态来表示推理状态（称为“连续思维”）。他们没有将其解码为单词 token，而是将其反馈给 LLM，作为直...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

谷歌 AI 推出 CardBench 评估框架

...用的基数估计技术，依赖于启发式（Heuristic）方法和简化模型，例如假设数据统一和列独立。这些方法虽然计算效率高，但往往需要准确预测基数，在涉及多个表和过滤器的复杂查询中表现尤为明显。最新的数据驱动方法试图在...……更多

2024-09-04 09:48:00框架,评估,数据,模型,基准,查询

NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，I

...新高。获奖论文一：超越扩散，VAR开启视觉自回归模型新范式论文地址：https://arxiv.org/abs/2404.02905与传统的光栅扫描「下一个token预测」方法有所不同，VAR重新定义了图像上的自回归学习，采用粗到细的「下一个尺度预测」或「...……更多

2024-12-12 09:41:00字节,获奖,北大,论文,清单,论文

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

豆包代码大模型，不小心给曝光了！在字节开源的代码大模型评估基准FullStack Bench里面，出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版，还并没有上线。它在多种编程语言上的性能表现如下，可以看到在闭源模...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

谷歌发布 FACTS Grounding 基准，AI 大语言

...布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用范围。数据集在数据集方面...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

...格排除任何已包含在PhysGame中的视频。团队遵循Self-instruct范式通过提示GPT-4o来构建PhysInstruct。PhysDPO:团队构建了偏好对齐数据集PhysDPO，以提供更可信和可靠的回答。如图3所示，团队将PhysInstruct 数据集中生成的答案视为prefer……更多

2024-12-07 09:53:00准确率,百分点,百分,模型,物理,视频