框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌 AI 推出 CardBench 评估框架

...要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优...……更多

2024-09-04 09:48:00框架,评估,数据,模型,基准,查询

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响，包括攻击者的能力、预算、对抗性后缀长度，以及模型的大小、安全对齐情况、系统提示和模...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。AI智能体，能否像人类一样有效地评估其他AI智能体？对于AI智能体来...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...oTA」的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。为解决以上问题，来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

多样任务真实数据，大模型在线购物基准Shopping MML

...学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的能力与潜力。一直以来，想要完整建模在线购物相当复杂，主要痛点是：多任务性：在线购物中存在多样的实体（例如商品、属性、评论...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

让AI管理大型代码库，开发者福音 | 阿里/新加坡国立/西安

...中发挥了关键作⽤。真实应⽤场景⽰例基于ModelScope-Agent框架，CodexGraph的实际应⽤价值在多个场景中得到了体现，如：代码聊天助⼿（Code Chat）代码调试⼯具（Code Debugger）单元测试⽣成器（Code Unit tester）代码⽣成器（……更多

2024-08-12 09:49:00西安交大,新加坡,阿里,西安,开发者,福音

科学家建立新评价基准，助力评估大模型数据分析能力

...到处理模糊问题、私有代码库集成等多种模式，可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务，还设计了多选题任务，要求模型在代码执行后对结果进行理解、归纳和推理，提供有价值的观点。尽管...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

自动化、可复现，基于大语言模型群体智能的多维评估基准

...景，无论是针对工业生产目标，还是科学场景辅助需求，评估 LLM 在精细化维度上的能力都是至关重要的，例如：数学及其专门分支领域，如代数、几何、概率和微积分。不同类型的推理能力，例如符号推理、类比推理、反事实...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

全球AI安全评估测试有了新基准

...应用方面安全测试领域的空白，为业界提供了统一的测试框架和明确的测试方法，有助于提高人工智能系统安全性，促进技术负责任发展，增强公众信任。记者了解到，此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

openai推出mle-bench新基准

...务中的能力。OpenAI在MLE-bench上测试了多个AI模型和智能体框架，使用AIDE框架的o1-preview模型表现最佳，在16.9%的比赛中至少获得了一枚铜牌，该结果超越了Anthropic的Claude3.5Sonnet。获得5金即可评上\"Grandmaster\"特级大师，而o……更多

2024-10-12 20:06:00基准,机器,任务,学习,基准,自然语言

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...本间存在多对多问题，无法支持细粒度视频检索的训练与评估（图 1 (a)），因此有必要为细粒度 VCMR 建立一个合适的 benchmark。为解决此问题，该研究提出了细粒度 VCMR 场景，使用更精细的文本查询消除数据集中的多对多现象（...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

全模态对齐框架align-anything来啦：实现跨模态指

...京大学一支团队迅速跟进，用自研的全球首个全模态对齐框架「Align Anything」对 Llama 3.2 进行了微调，表现出了比 Meta 微调的 Llama-3.2-11B-Vision-Instruct 更强的对齐性与指令跟随性。为进一步促进社区的多模态对齐研究，日前，该...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...h基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\\\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24

...评估属性。任务定义任务属性RECIPE终身编辑方法总体模型框架如下：构造和更新知识检索仓库在第t个时间步，给定一个新的知识描述kt，则新知识表示通过编码器frm中的MLP层可以获得：其中frm编码器将输出token表示的最大、最...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

openai发布多语言大规模多任务语言理解

...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架，用于测试传统上在NLP研究中代表性不足的语言模型，从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多

2024-09-24 22:07:00多语,大规,大规模,任务,语言,语言

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...任务。下图展示了具身智能体的典型架构。具身智能体框架在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人—— 具身智能在物理世界中的硬件方案；（2）具身仿真平台—— 高效且安全地训练...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...hub.io/代码仓库：https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解，不仅可以显著增强用户对医疗大语言模型的信任，还能促进更高质量的医疗服务体验，确保医疗服务的全球化和个性化。 ……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

NeurIPS 2024 | FaceChain团队新作，开

...同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势，如图 1 与图 2 所示，并得到了以下三个新颖观测结论：（i）随着数据量的增大，输入空间的拓扑结构变得越来越复杂（ii）随着数据量的增...……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言，研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准，是因为团队发现：由机器学习 (ML) 模型从较大的数据集中自动...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...分。提升图像理解与文本定位任务首先，研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现，虽然 SigLIP 模型的少样本线性分类性能较差，但当在 PaLI-3 中使用时，SigLIP 模型在\"简单\"任务（如字幕和问答...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...包括三个阶段：研究思路生成、实验实现和实验执行。该框架在多项机器学习任务中有效促进了研究进展。源代码链接：https://github.com/du-nlp-lab/MLR-Copilot 论文链接：https://arxiv.org/pdf/2408.14033 Demo 链接……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

还在人工炼丹？自动提示工程指南来了，还带从头实现

...作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要？要为给定任务找……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...对 AI 自我进化的重要性，并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne，其在 GAIA 基准上取得了第一名的成绩。论文标题：Long Term Memory : The Foundation of AI Self-Evolution 论文地址：https://arxiv.o……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型