• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。AI智能体,能否像人类一样有效地评估其他AI智能体?对于AI智能体来...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...有的数据、数据混合方法、配方、代码、基础设施和评估框架!模型:https://huggingface.co/allenai 技术报告:https://allenai.org/papers/tulu-3-report.pdf 数据集:https://huggingface……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购物相当复杂,主要痛点是:多任务性:在线购物中存在多样的实体(例如商品、属性、评论...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...异。目前OmniSearch在魔搭社区还有demo可玩。动态检索规划框架,打破传统mRAG局限传统mRAG方法遵循固定的检索流程,典型的步骤如下: 输入转化:接收多模态输入(例如图像+文本问题),将图像转化为描述性文本(例如通过image...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...景,无论是针对工业生产目标,还是科学场景辅助需求,评估 LLM 在精细化维度上的能力都是至关重要的,例如:数学及其专门分支领域,如代数、几何、概率和微积分。 不同类型的推理能力,例如符号推理、类比推理、反事实...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
openai推出mle-bench新基准
...务中的能力。OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。获得5金即可评上\"Grandmaster\"特级大师,而o……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...本间存在多对多问题,无法支持细粒度视频检索的训练与评估(图 1 (a)),因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题,该研究提出了细粒度 VCMR 场景,使用更精细的文本查询消除数据集中的多对多现象(...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...京大学一支团队迅速跟进,用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。 为进一步促进社区的多模态对齐研究,日前,该...……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...h基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...踪一切」模型SOLAMI:首个端到端社交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...评估属性。任务定义任务属性RECIPE终身编辑方法总体模型框架如下:构造和更新知识检索仓库在第t个时间步,给定一个新的知识描述kt,则新知识表示通过编码器frm中的MLP层可以获得: 其中frm编码器将输出token表示的最大、最...……更多
openai发布多语言大规模多任务语言理解
...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架,用于测试传统上在NLP研究中代表性不足的语言模型,从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高增幅接近1/3。监督微调(SFT)等现有训练方法,尽管提升了...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...。随着技术的发展,越来越多复杂且动态的 LLM-as-a-judge 框架被开发出来,例如多智能体判断和 LLM-as-a-examiner。在未来,一个有前景的研究方向是开发具有人类评判思维的大模型智能体;另外,开发一个基于大模型自适应难度的...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「图生视频...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...效率。 类生成:给定一个包含类级和方法级信息的代码框架,要求LLM生成类及其方法。 数据科学编程:给定数据科学任务的描述和部分代码片段,要求LLM完成代码片段以通过相应的测试。 文件级代码编辑:提供文件内容后,要...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解,不仅可以显著增强用户对医疗大语言模型的信任,还能促进更高质量的医疗服务体验,确保医疗服务的全球化和个性化。 ……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:(i)随着数据量的增大,输入空间的拓扑结构变得越来越复杂(ii)随着数据量的增...……更多
更多关于科技的资讯:
摘要:英语教育的质量与效果直接关系到学生未来的职业竞争力和综合素质。作为培养技术技能型人才的主要阵地,中等职业教育的英语教学更应注重实践性和应用性
2025-01-04 05:10:00
近年来,人工智能技术日益完善,被广泛应用在各行各业,图书档案管理领域也在其中。人工智能在档案管理中的应用研究同时被列入2023年度国家社会科学基金项目课题指南和国家档案局科技项目立项选题指南
2025-01-04 05:10:00
本文转自:人民日报张首刚时间,熟悉又抽象,看不见摸不着,又无处不在。从“立表见影,视影知时”的日晷到“弦轮密运,机巧精妙”的机械钟
2025-01-04 05:35:00
随着电力系统的现代化进程,智能变电站作为其中的关键组成部分,承载着电力监控、数据传输及设备控制等多重功能。然而,网络通信异常问题频繁出现
2025-01-04 05:10:00
先别买游戏本!RTX 50系显卡好像还不错
最近关于RTX50系显卡的消息越来越多,特别是移动版的跑分数据出现在网络上,对于现在要不要买游戏本这个问题,有很重要的作用
2025-01-03 20:15:00
雷军亲自出面 海底捞正式入驻小米科技园 全体员工88折
快科技1月3日消息,小米公司宣布,海底捞首家北京企业火锅店昨日在小米科技园落地开业!官方表示,把海底捞引入小米科技园,小米花了近三年时间
2025-01-03 20:15:00
499元超低价神机!Redmi 14C图赏
快科技1月3日消息,小米日前推出了爆款百元级——Redmi 14C,起售价仅499元,这价格真的无懈可击了。其前作Redmi 12C
2025-01-03 20:45:00
银川地震:烧鸡店阿姨折返回去关火
1月3日消息,据媒体报道,近日宁夏银川永宁县发生4.8级地震,一餐饮店后厨阿姨在地震瞬间跑出去后,又返回关火,事后店主安排现金红包奖励这位工作负责
2025-01-03 20:45:00
广东一SUV不减速撞翻货车 瞬间撞成碎片后续:司机已死亡 2人受伤
1月3日消息,据国内媒体报道称,广东河源桂山路口就发生了一起严重的事故,一辆闯红灯通过路口的SUV车速不减,直接怼上了正常行驶大货车的后部
2025-01-03 21:15:00
iQOO Z9 Turbo长续航版开卖:骁龙8s Gen3+6400mAh 1899元起
快科技1月3日消息,iQOO Z9 Turbo长续航版正式开卖,起售价是1899元。对比Z9 Turbo,长续航版本的电池增大至6400mAh
2025-01-03 21:45:00
合资性价比首选!2025款一汽-大众ID.4 CROZZ上市:一口价14.99万元起
快科技1月3日消息,一汽-大众ID.4 CROZZ的2025款已正式上市,价格区间为14.99-18.59万元。据悉,新款车型在设计
2025-01-03 21:45:00
只做豪华大型车!领克SPA Evo全新架构发布:首搭领克900
快科技1月3日消息,领克汽车销售有限公司副总经理穆军表示,领克900 EM-P将在相当长的一段时间内作为领克品牌的旗舰级产品
2025-01-03 21:45:00
2025年第一场流星雨来了 肉眼就能观测
快科技1月3日消息,2025年的第一场流星雨——象限仪座流星雨将于1月3日迎来极大,大家可在3日夜晚至4日黎明进行观测
2025-01-03 22:15:00
涛的饭店火了 老板发声:谢谢大家关注
1月3日消息,据媒体报道,河北一名网友发布视频,有一家位于河北临漳某处十字路口的饭店名叫“涛的饭店”,因其独特的名字走红网络
2025-01-03 23:15:00
英特尔锐炫B580挑战4K最高画质《燕云十六声》:流畅运行无压力
英特尔锐炫580上市以来销量喜人,虽然首发价定在了2000元以上,但是实际优惠价基本在1800-1900元附近,这个价格拿下一款2K分辨率流畅运行3A游戏
2025-01-03 23:15:00