• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。AI智能体,能否像人类一样有效地评估其他AI智能体?对于AI智能体来...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...有的数据、数据混合方法、配方、代码、基础设施和评估框架!模型:https://huggingface.co/allenai 技术报告:https://allenai.org/papers/tulu-3-report.pdf 数据集:https://huggingface……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
2223 万、电力(大模型)大单
...标工作。标包2:基于大模型的电力设备诊断与综合预测框架研究咨询服务。现有设备诊断存在依靠人工经验、多源多模态数据利用不充分、诊断准确度无法保证等技术难题。为解决上述问题,构建具备持续学习能力的电力设备...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购物相当复杂,主要痛点是:多任务性:在线购物中存在多样的实体(例如商品、属性、评论...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...异。目前OmniSearch在魔搭社区还有demo可玩。动态检索规划框架,打破传统mRAG局限传统mRAG方法遵循固定的检索流程,典型的步骤如下: 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...景,无论是针对工业生产目标,还是科学场景辅助需求,评估 LLM 在精细化维度上的能力都是至关重要的,例如:数学及其专门分支领域,如代数、几何、概率和微积分。 不同类型的推理能力,例如符号推理、类比推理、反事实...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
openai推出mle-bench新基准
...务中的能力。OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。获得5金即可评上"Grandmaster"特级大师,而o1-……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(...……更多
AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
...和卡内基梅隆大学,组建科研团队,合作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。心智理论心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...京大学一支团队迅速跟进,用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究,日前,该...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...h基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,...……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...踪一切」模型SOLAMI:首个端到端社交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...评估属性。任务定义任务属性RECIPE终身编辑方法总体模型框架如下:构造和更新知识检索仓库在第t个时间步,给定一个新的知识描述kt,则新知识表示通过编码器frm中的MLP层可以获得: 其中frm编码器将输出token表示的最大、最...……更多
全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
...能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL...……更多
openai发布多语言大规模多任务语言理解
...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架,用于测试传统上在NLP研究中代表性不足的语言模型,从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高增幅接近1/3。监督微调(SFT)等现有训练方法,尽管提升了...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...。随着技术的发展,越来越多复杂且动态的 LLM-as-a-judge 框架被开发出来,例如多智能体判断和 LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「图生视频...……更多
更多关于科技的资讯:
“我是一名肢残三级的残疾人,请问能享受哪些补贴?”输入文字,几秒钟过后,手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来
2025-12-06 10:21:00
河北日报讯(张晓超、李娜)11月19日,辛集市教育北路高架桥上空,一架搭载高清摄像头与专业传感器的无人机缓缓升空,按照预设航线开展桥梁日常检测
2025-12-05 14:56:00
烟台南山学院斩获省部级科技奖荣誉
近日,2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”
2025-12-05 15:00:00
盐城盐都:“芯”智散热赋能 科创驱动前行
江南时报讯 以科创破局散热赛道,以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮,盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势
2025-12-05 15:07:00
中新建电力集团发电产业:智慧电厂新蓝图
近日,中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级,上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划
2025-12-05 15:09:00
日前,建行河北省分行2025年“人工智能+”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛,经过严格的初审选拔
2025-12-05 15:09:00
全国首台套!助力煤矸石全量高值转化
12月1日,由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运
2025-12-05 15:10:00
如何“反内卷”?54.5%职场人将“优化薪酬激励机制”列为首选
什么是“好工作”?工作有哪些特质会让员工有“好”感受?日前,智联招聘通过问卷调研的方式,对平台用户展开调研,回收3525份有效样本
2025-12-05 15:26:00
国航举办“国航+”生态主题发布会
海外网北京12月5日电(记者严冰)12月5日,中国国际航空股份有限公司(以下简称“国航”)在北京举办“云端无界 凤启耀星河——‘国航+’生态主题发布会”
2025-12-05 15:33:00
乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业!
12月5日,国内仓储式品牌特卖开创者荟品仓,在房山区瑞来广场盛大开业,带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣
2025-12-05 15:55:00
易生支付“智慧分账”赋能安心鲜生 驱动社区零售全国布局
在社区零售数字化转型加速深化的背景下,易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力
2025-12-05 16:09:00
ED用药怎么选?金钢鸟领衔西地那非口崩片品牌阵营,购买渠道全解析
第91届全国药交会上,金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相,让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点
2025-12-05 16:09:00
苏州黄埭镇推动“产学研”深度融合
江南时报讯 日前,苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作,联合启动轮式双臂机器人研发项目,致力于推动创新成果向现实生产力加速转化
2025-12-05 16:13:00
近邻碰碰:以 “邻里经济”打造智慧社区消费新生态 —— 专访小门神传媒科技集团董事长付信中
鲁网12月4日讯“远亲不如近邻”,这句家喻户晓的俗语,如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备
2025-12-05 16:47:00
今年双十一,A4纸大小的巨型吊牌成为女装电商的“标配”。这种硬材质、高存在感的“防白嫖神器”,在社交平台引发热议,同时也揭露了线上服装行业的信任危机
2025-12-05 17:00:00