• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。AI智能体,能否像人类一样有效地评估其他AI智能体?对于AI智能体来...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...景,无论是针对工业生产目标,还是科学场景辅助需求,评估 LLM 在精细化维度上的能力都是至关重要的,例如:数学及其专门分支领域,如代数、几何、概率和微积分。 不同类型的推理能力,例如符号推理、类比推理、反事实...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
openai推出mle-bench新基准
...务中的能力。OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。获得5金即可评上\"Grandmaster\"特级大师,而o……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...京大学一支团队迅速跟进,用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究,日前,该...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...h基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...评估属性。任务定义任务属性RECIPE终身编辑方法总体模型框架如下:构造和更新知识检索仓库在第t个时间步,给定一个新的知识描述kt,则新知识表示通过编码器frm中的MLP层可以获得: 其中frm编码器将输出token表示的最大、最...……更多
openai发布多语言大规模多任务语言理解
...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架,用于测试传统上在NLP研究中代表性不足的语言模型,从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解,不仅可以显著增强用户对医疗大语言模型的信任,还能促进更高质量的医疗服务体验,确保医疗服务的全球化和个性化。 ……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:(i)随着数据量的增大,输入空间的拓扑结构变得越来越复杂(ii)随着数据量的增...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...分。提升图像理解与文本定位任务首先,研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使用时,SigLIP 模型在\"简单\"任务(如字幕和问答...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...进进行压力测试, OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现,思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是,OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...包括三个阶段:研究思路生成、实验实现和实验执行。该框架在多项机器学习任务中有效促进了研究进展。源代码链接:https://github.com/du-nlp-lab/MLR-Copilot 论文链接:https://arxiv.org/pdf/2408.14033 Demo 链接……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...作原理,从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址:https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要?要为给定任务找……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...对 AI 自我进化的重要性,并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne,其在 GAIA 基准上取得了第一名的成绩。论文标题:Long Term Memory : The Foundation of AI Self-Evolution 论文地址:https://arxiv.o……更多
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...了紧接着Claude「计算机使用」发布之后,微软就开源了AI框架OmniParser。假设你想要去布赖斯峡谷国家公园,不知是否需要订票入园,这时OmniParser可以带你查询。 它会解析屏幕后,自动点击「permits」按钮,然后再截屏找到「布...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...掘它们的能力。具体来讲,研究者提出了一种基于 LLM 的框架 GenSim,它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是,生成的任务表现出了极大的多样性,促进了机器人策略的任务级泛化。此外从概...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...世界场景中的性能。他们专门开发了一个新的高质量人类评估集,该评估集包含 1800 个提示,涵盖 12 种关键用例(征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多
更多关于科技的资讯:
华为首款百万级豪车尊界 S800定档5月底,首发六大核心智能化技术,包含三项全新技术
2月20日下午,华为召开鸿蒙智行尊界技术发布会,由华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东主持。发布会上
2025-02-20 18:30:00
2024年Q4爱奇艺海外业务收入同环比双增长 2025年将着力开拓中东、拉美等市场
2月18日,爱奇艺(NASDAQ:IQ)发布截至2024年12月31日未经审计的第四季度和全年财报。全年总收入292亿元人民币
2025-02-20 18:42:00
量子通讯技术来助力!亚冬会上的安徽力量
大皖新闻讯 2月14日晚,备受关注的第九届亚冬会在黑龙江省哈尔滨市圆满落下帷幕。选手们摘金夺银的背后有一群"幕后英雄"
2025-02-20 19:00:00
中新经纬2月20日电 (张芷菡)近段时间以来,茶饮咖啡品牌掀起做“副业”的热潮,继茶颜悦色与蜜雪冰城开起“小卖部”,近日
2025-02-20 19:08:00
锚定新赛道,长清网络视听产业“跑出”竞争力
鲁网2月20日讯(记者 李晓晨)近日,随着国产动画电影《哪吒2》的热映,其精湛的画面制作和深刻的文化内涵再次赢得了观众的广泛赞誉
2025-02-20 19:14:00
超瓷晶+再生玻璃,伯恩光学独供iPhone 16e玻璃盖板
2月20日,备受瞩目的iPhone16e正式发布,这款定位“性价比旗舰”的新机起售价4499元,成为A18芯片阵营中最亲民的机型
2025-02-20 19:21:00
冻干过程中工艺处方和预冻的解析
在实际冻干过程中,常常由于处方或冻干工艺设计不合理而出现各种各样的问题,今天欣谕冻干厂家简单介绍了药品冻干过程各关键环节的控制方法
2025-02-20 19:36:00
安源区:乘“巳”而上开启加速跑 全力以“复”冲刺开门红
江西手机报萍乡讯(习佳婕) 春启新岁,复工正当时。连日来,安源区各工业企业已奏响奋进交响曲,处处奔涌着实干争先的春潮。走进安源工业园
2025-02-20 19:39:00
响应普惠保险五年发展规划,泰康在线立足普惠守护大众幸福生活
保险向普惠靠拢是时代之需,国家金融监督管理总局在《关于推进普惠保险高质量发展的指导意见》中提到,未来五年,要基本建成高质量的普惠保险发展体系
2025-02-20 20:13:00
Aifeex自主研发Takwin系统,引领科技发展新浪潮
在AI技术持续发展并逐步深入生活的今天,Aifeex公司自主研发的Takwin计算系统,以其卓越的性能和高效的计算能力
2025-02-20 20:26:00
卡泰驰战略入股汽车之家,海尔加码汽车产业链布局
中国青岛,2月20日,海尔集团公司(海尔集团)旗下Cartech Holding Company(卡泰驰控股)与中国平安旗下Yun Chen Capital Cayman(云辰资本)达成协议
2025-02-20 20:28:00
北京时间2月20日(美东时间2月20日),哔哩哔哩(NASDAQ: BILI,HKEX:9626;以下简称“B站”)公布了截至2024年12月31日的第四季度和全年未经审计的财务报告
2025-02-20 20:28:00
电影《哪吒之魔童闹海》热映引消费热潮:盲盒断货、餐饮联动、票房大卖
自国产动画电影《哪吒之魔童闹海》(以下简称《哪吒2》)上映以来,其票房与衍生经济效应持续升温,不仅刷新全球动画电影票房纪录
2025-02-20 21:16:00
政企平台三方联动!看直播买家电享补贴!直播电商成以旧换新国补新渠道
“直播电商是近年来最重要的电商业态创新方向,也是网络零售交易增量的主要来源,促进消费和就业效应明显。”中国国际电子商务中心研究院院长李鸣涛表示
2025-02-20 22:01:00
让港口更智能!山东港口发布《人工智能(大模型)总体建设规划》
齐鲁晚报·齐鲁壹点 赵波 通讯员 李春颖2月19日,山东港口2025年度科技创新大会在青岛召开,正式发布《山东港口人工智能(大模型)总体建设规划》(以下简称《规划》)
2025-02-20 22:35:00