• 我的订阅
  • 头条热搜
关于LLM-as-a-judge范式,终于有综述讲明白了
...。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推动这一新兴领域的发展提供了深入的概述。我...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...ps://huggingface.co/spaces/LLM360/de-arena图 1 展示了这些基准测试范式之间的主要区别。Decentralized Arena 的核心理念是利用所有 LLM 的集体智能进行相互评估和比较。这形成了一个去中心化、民主化的系统,在该系统中,所有被评估的 L……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
首届大模型顶会COLM高分论文:偏好搜索算法让大模型评估更高效
...令跟随数据以及人类反馈强化学习(RLHF)。在 RLHF 训练范式中,奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。近日,第一届大模型顶会 COLM...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...可能性,有望重塑认知行为合作模式,开启科学研究的新范式,加速 AGI 的内在可持续、自我价值进化的到来。(我们团队首次在 2023 年做过大模型是否具备假设提出能力的验证[1],很初步,但是个有意思的尝试。)”此外,也...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...,以及检索增强生成(RAG)和宪法AI(Constitutional AI)等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此,模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外,通过在动态环境中持续评估和优化...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
...大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与图数据挖掘领域的深度合作。文本属性图Text-Attributed Graphs(TAGs)是一种在节点上有丰...……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...西12月6日消息,据TechCrunch报道,谷歌昨日发布了新一代AI模型PaliGemma 2,并宣称该模型具有情感识别的能力。谷歌表示,PaliGemma 2不仅能够分析图像并生成详细的图片描述,还能识别图像中人物的情感状态。据TechCrunch报道,要实...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...幅提升了其后训练方法的复杂度,具体包括采用多轮训练范式、使用人类数据 + 合成数据、使用多个训练算法和训练目标。也正因为此,这些模型的通用性能和专业能力都非常强。但遗憾的是,他们都没有透明地公开他们的训练...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...本文转自:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...地理解和表达复杂的概念。这种全模态的信息流对大模型范式转向通用人工智能也同等重要,研究人员开始尝试将大语言模型进行模态扩展,得到不仅能够处理语言,还可以理解并生成图像、音频、视频等多种信息的全模态模型...……更多
ChatGPT确实会看人下菜!OpenAI官方报告揭示大模型的刻板印象
...产生直接影响。 首先,OpenAI 评估了当用户姓名不同时,模型会给出怎样的不同的响应。我们知道,姓名通常暗含着文化、性别和种族关联,因此是一个研究偏见的常见元素 —— 尤其考虑到用户常常与 ChatGPT 分享他们的姓名,...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...能如此?在阅读了一些论文之后,作者决定创建新的提示范式,结合动态思维链、反思和语言强化,并通过实验来验证提示的效果。以下是编码和数学问题中所采用的prompt示例:Begin by enclosing all thoughts within tags, exploring multiple a……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身...……更多
智慧芽AI助手“芽仔”:你的智能研发专家,开启创新新范式
...面应用将大大提升智慧芽所有产品的差异化优势,以全新范式驱动客户和用户的生产力跃升。”图:智慧芽AI助手“芽仔”的AI技术问答功能示意AI助手重构研发创新工作新方式“芽仔”致力于把用户从琐碎的、高重复性的工作中...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...6 通过规划、纠错,o1能够解决世界上的新问题7 新的训练范式是一种全新的方法,可以将更多的算力投入到模型中8 o1编写代码时,当其输出要使用的代码时,需要通过单元测试接下来,具体来看下o1模型背后的故事。强化学习+...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...法在操作微调阶段需要更新投影层和整个 LLM。虽然这种范式可以赋予模型动作位姿预测能力,但它也破坏了 MLLM 的固有能力,并且需要大量的训练资源。为了解决这些挑战,我们提出了一种高效的微调策略,如图 3 所示。我们...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...推理的潜力,而不是使用自然语言,他们提出了一种新的范式——可持续思维链(Coconut)。他们利用 LLM 的最后一个隐藏状态来表示推理状态(称为“连续思维”)。他们没有将其解码为单词 token,而是将其反馈给 LLM,作为直...……更多
谷歌 AI 推出 CardBench 评估框架
...用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。最新的数据驱动方法试图在...……更多
NeurIPS 2024最佳论文开奖!北大字节NUS夺冠,Ilya连续三年获奖
...新高。获奖论文一:超越扩散,VAR开启视觉自回归模型新范式 论文地址:https://arxiv.org/abs/2404.02905与传统的光栅扫描「下一个token预测」方法有所不同,VAR重新定义了图像上的自回归学习,采用粗到细的「下一个尺度预测」或「...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版,还并没有上线。它在多种编程语言上的性能表现如下,可以看到在闭源模...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
...格排除任何已包含在PhysGame中的视频。团队遵循Self-instruct范式通过提示GPT-4o来构建PhysInstruct。PhysDPO:团队构建了偏好对齐数据集PhysDPO,以提供更可信和可靠的回答。如图3所示,团队将PhysInstruct 数据集中生成的答案视为prefer……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
...布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。数据集在数据集方面...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...且有用之前,基于规则的系统长期以来是语言模型的主导范式。顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单,但在某些特定领域却依然很有用处,尤其是那些安全特性至关重要...……更多
更多关于科技的资讯:
奇瑞车主在广西旅游用海水洗车 网友:看到车牌明白了
快科技2月4日消息,有网友发布视频显示,一位游客竟然在海边用海水洗车。视频中,这位奇瑞车主在广西防城港海边游玩时,一时兴起竟把车辆开到了海边
2025-02-04 09:41:00
GPU-Z升级正式支持RTX 50:最烫的热点温度消失了
快科技2月4日消息,RTX 5090/5080发布多日之后,GPU-Z终于升级了,最新的2.62.0版本已经完整支持新卡
2025-02-04 09:41:00
新春走基层 | 新年数码市场涌“新”潮
本文转自:人民网-广西频道人民网南宁2月4日电 (冯肖慧)年轻消费者拿着刚领到的红包来换新手机、给老人换购大屏手机、销售人员每天从早忙到闭店……这个春节
2025-02-04 09:57:00
黄仁勋喊话年轻人:学会用AI 才能更出色
快科技2月4日消息,据媒体报道,英伟达创始人兼CEO黄仁勋在近期的一次公开报道中向年轻人提出了明确建议。他指出:“如果我是学生
2025-02-04 10:11:00
全球第一台可扩展光量子计算机问世:35颗光子芯片、13公里光纤
快科技2月4日消息,量子计算机被视为计算的未来,各种突破也是接连不断。加拿大创业公司Xanadu就宣布,他们打造了全球第一台可扩展联网的
2025-02-04 10:11:00
免费绕过Win11系统要求:第三方工具Flyby11被微软视为潜在恶意软件
快科技2月4日消息,随着Windows 10系统即将在8个月后正式停止支持,许多用户面临升级到Windows 11的需求
2025-02-04 10:41:00
全球第一例!中国完成卫星超远程手术 拉萨-北京3000公里
快科技2月4日消息,近日,由中国人民解放军总医院肝胆胰外科医学部主任刘荣主刀,我国完成了全球第一例给予通信卫星的超远程手术
2025-02-04 11:11:00
告别复杂操作!微软PowerToys新增神技能:快捷转换视频和音频
快科技2月4消息,PowerToys是微软推出的一款免费的Windows辅助工具集,包含多种实用功能,如窗口布局调整、快速截图等
2025-02-04 11:11:00
印度将罚大众14亿美元 博主:非雁过拔毛、实雁过炖了!
快科技2月4日消息,去年11月就有海外媒体报道,印度已向大众汽车公司发出通知,指控其“故意”少缴奥迪、大众和斯柯达汽车零部件的进口税
2025-02-04 11:41:00
大摩为美国科技巨头打气:DeepSeek不会导致AI资本开支崩盘!
快科技2月4日消息,据媒体报道,摩根士丹利(大摩)全球定量研究主管Vishwanath Tirupattur近日对DeepSeek的突破发表了看法
2025-02-04 11:41:00
堵麻了!返程高峰杀到!网友:18个小时的车程 铁屁股已练成
快科技2月4日消息,据媒体报道,近日,随着春节假期结束,全国各地迎来了返程高峰,交通拥堵情况尤为严重。不少网友在社交媒体上纷纷晒出自己的返程经历
2025-02-04 12:41:00
OpenAI CEO表态:无意起诉DeepSeek 会继续打造优异产品
快科技2月4日消息,据媒体报道,OpenAI CEO Sam Altman在接受媒体采访时表示,OpenAI没有计划起诉DeepSeek
2025-02-04 12:41:00
香港维尔利科技集团宣布将在成都与山东设立医疗科技体验中心
香港维尔利科技集团今日正式宣布,将在中国内地的成都和山东两地设立医疗科技体验中心。这标志着维尔利集团在中国市场的进一步深耕
2025-02-04 15:08:00
RTX 5090太缺货!黄牛3倍价格倒卖
快科技2月4日消息,英伟达最新推出的RTX 50系列显卡,特别是RTX 5090,在全球范围内都是一卡难求,在中国台湾RTX 5090显卡同样也是供不应求
2025-02-04 20:11:00
传台积电将在台南建6座晶圆厂:3座1nm 3座0.7nm
据业内传闻称,台积电最先进的1nm制程晶圆厂将落户台南沙仑,预计规划打造可容纳六座12英寸生产线的超大型晶圆厂(Giga-Fab)
2025-02-04 20:11:00