• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。AI智能体,能否像人类一样有效地评估其他AI智能体?对于AI智能体来...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购物相当复杂,主要痛点是:多任务性:在线购物中存在多样的实体(例如商品、属性、评论...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...景,无论是针对工业生产目标,还是科学场景辅助需求,评估 LLM 在精细化维度上的能力都是至关重要的,例如:数学及其专门分支领域,如代数、几何、概率和微积分。 不同类型的推理能力,例如符号推理、类比推理、反事实...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
openai推出mle-bench新基准
...务中的能力。OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。获得5金即可评上\"Grandmaster\"特级大师,而o……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...京大学一支团队迅速跟进,用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究,日前,该...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...h基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...评估属性。任务定义任务属性RECIPE终身编辑方法总体模型框架如下:构造和更新知识检索仓库在第t个时间步,给定一个新的知识描述kt,则新知识表示通过编码器frm中的MLP层可以获得: 其中frm编码器将输出token表示的最大、最...……更多
openai发布多语言大规模多任务语言理解
...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架,用于测试传统上在NLP研究中代表性不足的语言模型,从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解,不仅可以显著增强用户对医疗大语言模型的信任,还能促进更高质量的医疗服务体验,确保医疗服务的全球化和个性化。 ……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:(i)随着数据量的增大,输入空间的拓扑结构变得越来越复杂(ii)随着数据量的增...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...分。提升图像理解与文本定位任务首先,研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使用时,SigLIP 模型在\"简单\"任务(如字幕和问答...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...进进行压力测试, OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现,思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是,OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...包括三个阶段:研究思路生成、实验实现和实验执行。该框架在多项机器学习任务中有效促进了研究进展。源代码链接:https://github.com/du-nlp-lab/MLR-Copilot 论文链接:https://arxiv.org/pdf/2408.14033 Demo 链接……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...作原理,从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址:https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要?要为给定任务找……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...对 AI 自我进化的重要性,并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne,其在 GAIA 基准上取得了第一名的成绩。论文标题:Long Term Memory : The Foundation of AI Self-Evolution 论文地址:https://arxiv.o……更多
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...了紧接着Claude「计算机使用」发布之后,微软就开源了AI框架OmniParser。假设你想要去布赖斯峡谷国家公园,不知是否需要订票入园,这时OmniParser可以带你查询。 它会解析屏幕后,自动点击「permits」按钮,然后再截屏找到「布...……更多
更多关于科技的资讯:
俞敏洪对网暴不忍了!东方甄选:从未有人在任何场合辱骂董宇辉 将对造谣者追责
快科技1月8日消息,今日,东方甄选发布声明称,个别自媒体传播不实谣言称,东方甄选曾有人辱骂董宇辉,并且“将文稿和样品甩到宇辉脸上”
2025-01-08 16:49:00
5499元起 石头G30自清洁扫拖机器人发布:三线结构光避障
石头G30自清洁扫拖机器人今日正式发布,该款机器人支持三线结构光避障、行业首创底盘升降,售价5499元起。据悉,石头G30的智能组合避障系统还采用三线结构光设计
2025-01-08 16:49:00
双14寸120Hz OLED屏幕!联想新款YOGA Book 9i笔记本发布:1999美元
快科技1月8日消息,联想在CES 2025展会上发布了全新的YOGA Book 9i 14笔记本,搭载了双14英寸120Hz OLED触摸屏和诸多AI功能
2025-01-08 16:49:00
每年休假150多天!胖东来2024员工平均月薪9000余元 于东来发声
快科技1月8日消息,在许昌这个城市,员工月薪平均月薪9000余元,这已经相当可观了。于东来在社交平台发消息表示,“2024年
2025-01-08 17:19:00
i9-14900HX+RTX4070双强芯!微星泰坦18 Pro图赏
快科技1月8日消息,微星泰坦18 Pro笔记本新配置目前已经上架,采用i9-14900HX + RTX4070组合,售价为17999元
2025-01-08 17:19:00
快科技1月8日消息,据媒体报道,美国加利福尼亚州南部地区7日突发野火,火势在强风助推下迅速蔓延,周边地区约3万人被紧急疏散
2025-01-08 17:19:00
哪吒汽车回应官网异常事件:造谣抹黑的人已取证
快科技1月8日消息,近期,哪吒汽车官网因技术原因出现短暂无法访问的情况,引发部分自媒体及网友的广泛关注和讨论。有人认为造车新势力又倒闭一家
2025-01-08 17:49:00
微星推出特别版RTX 5090显卡:配备5个风扇!
快科技1月8日消息,在2025年CES展会上,MSI微星预告了两款特别版NVIDIA GeForce RTX 5090显卡
2025-01-08 17:49:00
友商都没搞定!真我率先落地7000mAh+百瓦闪充:一骑绝尘
快科技1月8日消息,博主数码闲聊站爆料,真我率先搞定了7000mAh+百瓦闪充方案,友商都没有做到。在大电池+闪充领域
2025-01-08 17:49:00
网友称百度搜索带上李彦宏秒变无广告版:官方回应
快科技1月8日消息,在你想要百度搜索的内容后面加上李彦宏,就可以变为纯净无广告版,真的这么神奇吗?近日,有网友称在百度搜索引擎进行搜索时
2025-01-08 17:49:00
小鹏高管发文暗示:本周将会有台“很厉害的车”
快科技1月8日消息,小鹏汽车品牌公关负责人在社交媒体上暗示,本周工信部公告将展示一款“很厉害的车”。这一操作引发网友和博主的期待和猜测
2025-01-08 17:49:00
机械革命苍龙16 Ultra拥抱AMD锐龙9 9955HX:搭档RTX 5090双烤高达280W
快科技1月8日消息,机械革命今年首次亮相CES展会,并且趁着Intel、AMD、NVIDIA同时发布新平台之际,带来了多款重磅新品
2025-01-08 18:19:00
95后小伙一天喝3瓶饮料双手畸形:痛风石变形如生姜
快科技1月8日消息,据报道,95后小伙蓝先生(化名)患痛风十五年,双手因痛风石变形如“生姜”,其发视频呼吁大家多喝水少喝奶茶饮料
2025-01-08 18:49:00
小机箱绝配!RTX 5090 SFF仅此一款
快科技1月8日消息,今年6月份,NVIDIA首次公布了“对小机箱友好”的SFF-Ready显卡规范,让玩家在组装小机箱主机时
2025-01-08 18:49:00
270W性能猛兽!雷神发布首款18寸游戏本ZERO 18:RTX 5090+两项行业首发
快科技1月8日消息,在CES 2025上,雷神将发布首款18寸游戏本ZERO 18,以及16寸的ZERO 16。核心配置方面
2025-01-08 18:49:00