多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...群智慧）来实现更稳健且更少偏见的评估，同时使该过程自动化且可扩展到多维度能力比较，Maitrix.org 发布了 Decentralized Arena。原文地址: https://de-arena.maitrix.org Leaderboards: https://huggingface……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...实现更佳的性能。自动评估方法为了将人工评估的流程自动化，作者对LLM任务和评估标准进行了细致的定义。数据收集和领域内很多科技巨头的做法形成鲜明对比的是，DeepMind这篇论文不仅披露了使用的数据集列表，而且从数...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

下载次数破39万！CMU、Meta联合发布VQAScore文

...ImageReward和HPSv2等。然而，这些指标真的足够好吗？现有自动化指标的不足在评估两张图片的相似性（similarity）时，传统指标LPIPS等方法依靠预训练的图像编码器，将图像特征嵌入后再计算距离。然而，这类方法只能评估图像与...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，I

...助作者确保科学研究的严谨性，但可能不应作为一种完全自动化的审查工具来取代人工审查。」1. 清单助手有用吗？研究人员对作者们进行了问卷调查，以便了解他们对使用清单助手前后的期望和感受。调查共收到539份使用前问...……更多

2024-12-12 09:41:00字节,获奖,北大,论文,清单,论文

金融全周期数模管理体系：树立行业发展重要范本

...急处理模型、现金流智能预测与动态配置模型、业务流程自动化与效能优化模型、多维度市场趋势智能预测模型和全周期数字孪生可视化管理模型。这六维模型覆盖金融投资全生命周期的关键环节，通过数据驱动和算法优化，实...……更多

2025-07-28 20:36:00行业发展,范本,周期,管理体系,体系,金融

「学术版ChatGPT」登场！Ai2打造科研效率神器Open

...，性能可以优于专有系统，甚至媲美人类专家。为了方便自动化评估，团队还一道推出了全新的大规模基准ScholarQABench，覆盖了CS、生物、物理等多个学科，用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2...……更多

2024-11-27 13:33:00神器,文献,效率,科研,学术,模型

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...严格且周密的流程，确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段：1. 自动化构建阶段，主要包括五个步骤：（1）知识内容提取与过滤：我们从维基百科等多种知识领域中收集大量富含知识的文本内容，...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

限定120分钟科研挑战，o1和Claude表现超越人类

...由非营利研究机构METR推出，目的是搞清：当前AI智能体在自动化科研方面有多接近人类专家水平。注意看，一声令下之后，AI和50多位人类专家开始暗自较劲：前2小时，基于Claude 3.5 Sonnet和o1-preview构建的Agent（智能体）表现远超...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...确保机器人在与人类交互或执行任务时的安全性。工业自动化：在自动化生产线中，利用安全强化学习优化生产过程，同时避免事故发生。能源管理：在电网操作中应用安全强化学习，以优化能源分配，防止系统超载。未来挑...……更多

2024-10-09 09:51:00同济,学习方法,深度,理论,方法,应用

昆仑万维SkyReels团队正式发布并开源SkyReels-

...构建了SkyReels-Bench用于人类评估，并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。1. SkyReels-Bench评估SkyReels-Bench包含1020个文本提示词，系统性.……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...级任务进行内部评估时，深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。深度研究解锁了诸多新的能力，但目前仍处于早期阶段，存在一些局限性。根据内部评估，尽管其错误率显著低于现有的ChatGPT...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...级别的任务上达到了21%的准确率，即模型在常规科学任务自动化方面仍然有很大的改进空间。CORE-Bench 基准构造验证可重复性需要深度专业的领域知识，即使是对于经验丰富的研究人员来说，其过程可能也算是劳动密集型的任务...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

平安保险核保依托AI自主学习，扩展多维立体评估

...核保风控的健康循环,通过数据收集和分析,风险评估模型,自动化决策系统,保险公司不断改进核保流程和决策模型,以适应市场变化和新的风险挑战。传统的核保流程通常依赖于核保员的经验和业务规则,这种方式存在着一定的局限...……更多

2023-11-07 19:58:00平安保险,多维,平安,立体,评估,学习

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...内外最具代表性的11个开源/闭源多模态理解大模型，聚焦多维度能力评估，包括基础能力和应用能力两个大方向，以开放式问题形式对多模态大模型进行评估，涵盖了8个一级维度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...，大模型、智能体、人类作为评判者的示意图。 DevAI：自动化AI开发数据集另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。比如，HumanEval仅关注算法问题，而MBPP则处理简单的编程任务，但这两者都没...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...生成新的提示和响应。它们还可以实现数据生成工作流的自动化，减少或消除某些任务对人工干预的需求。论文中，作者提出了「生成式教学」的概念。这是说，使用合成数据进行后训练，特别是通过强大的模型创建数据，来教...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

两大AI模型性能提升登上国际榜单

...采用更全面和严格评估标准，对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力，通过搭配数据筛选机制等，在多个核心评测维度，该模型性能有了大幅提升。据公开报道，2023...……更多

2025-01-16 11:45:00模型,性能,国际,模型,多维度,伯克利分校

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...：（1）固定基座型机器人，如机械臂，常应用在实验室自动化合成、教育、工业等领域中；（2）轮式机器人，因高效的机动性而闻名，广泛应用于物流、仓储和安全检查；（3）履带机器人，具有强大的越野能力和机动性，在农...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...难以应对细粒度查询。为此，来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED，并基于此系统构建新的细粒度 VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG），以推动细粒度视频理解的发展。论文题目...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

首个自主机器学习AI工程师，刚问世就秒了o1，Kaggle

多智能体系统，可自动化整个 ML 工作流程，节省数千小时工时。Open AI 的推理模型 o1，这么快就被比下去了？本周五，AI 社区见证了又一项突破：一个完全自动化机器学习流程的 AI 工程师，能轻松获得 Kaggle 大师水平，在参与...……更多

2024-11-19 09:48:00机器,大师,工程师,工程,学习,学习

还在人工炼丹？自动提示工程指南来了，还带从头实现

...多个不同的提示词并对其进行测试，只不过是让整个过程自动化。后面我们会看到，这个过程非常类似于传统监督式机器学习中的自动超参数优化。本文将深度介绍 APE：首先将介绍原理、一些可用于生成提示词的策略以及其它...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...关重要，但由于视觉环境的复杂性和多变性，GUI 任务的自动化仍具有挑战性。现有的方法通常依赖于 GUI 的文本表示，这在通用性、效率和可扩展性方面带来了限制。在这项工作中，香港大学和 Salesforce 研究团队提出了一个可...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...决当前研究中的具体问题。为此，我们提出了 MLR-Copilot 自动化机器学习研究的研究平台 / 演示工具 (Demonstration)，利用大型语言模型（LLM）作为研究人员的 “副驾驶”，分析研究论文、提取研究问题，以提出新的研究思路和实验...……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...模型均取得了实质性进步The Browser Company：在使用该模型自动化网络工作流程时发现，Claude 3.5 Sonnet的表现超越了他们此前测试过的所有模型此外，在安全部署前，Claude 3.5 Sonnet已经在美国AI安全研究所（US AISI）和英国安全研究所...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

智能体首达Kaggle Grandmaster,华为结构化推

...识，从而解决各种复杂问题。这需要系统级的方法，需要自动化和优化来适应具体的任务目标。举个例子，在 Kaggle 数据科学竞赛中（如图 1 所示），数据科学家需要遵循一个结构化的工作流程：收集、清理、预处理和标准化数...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

数字员工、超级个体、具身智能，AI Agent未来发展十大研

...带来重大机遇。报告认为，随着人工智能向智能体演进，自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议，还将代表人类采取行动。人工智能将继续生成文本、图像和洞察，而AI Agent将自行决定如何处理这些信...……更多

2024-02-02 17:00:00研究方向,个体,方向,员工,数字,智能

“具身智能小镇”来了！机器人逛超市买菜满街跑，来自上海AI

...月，该团队还发布了具身多模态大模型Grounded 3D-LLM，能够自动化生成物体到局部区域的场景描述与具身对话数据，有效缓解了目前三维场景理解的局限性。论文地址：https://arxiv.org/abs/2407.10943GitHub地址：https://github.com/open……更多

2024-07-23 09:33:00满街,上海,机器人,小镇,机器,超市