• 我的订阅
  • 头条热搜
自动化、可复现,基于大语言模型群体智能的多维评估基准
...群智慧)来实现更稳健且更少偏见的评估,同时使该过程自动化且可扩展到多维度能力比较,Maitrix.org 发布了 Decentralized Arena。原文地址: https://de-arena.maitrix.org Leaderboards: https://huggingface……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...实现更佳的性能。 自动评估方法为了将人工评估的流程自动化,作者对LLM任务和评估标准进行了细致的定义。数据收集和领域内很多科技巨头的做法形成鲜明对比的是,DeepMind这篇论文不仅披露了使用的数据集列表,而且从数...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...ImageReward和HPSv2等。然而,这些指标真的足够好吗?现有自动化指标的不足在评估两张图片的相似性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与...……更多
NeurIPS 2024最佳论文开奖!北大字节NUS夺冠,Ilya连续三年获奖
...助作者确保科学研究的严谨性,但可能不应作为一种完全自动化的审查工具来取代人工审查。」1. 清单助手有用吗?研究人员对作者们进行了问卷调查,以便了解他们对使用清单助手前后的期望和感受。调查共收到539份使用前问...……更多
...急处理模型、现金流智能预测与动态配置模型、业务流程自动化与效能优化模型、多维度市场趋势智能预测模型和全周期数字孪生可视化管理模型。这六维模型覆盖金融投资全生命周期的关键环节,通过数据驱动和算法优化,实...……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...,性能可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...严格且周密的流程,确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段:1. 自动化构建阶段,主要包括五个步骤:(1)知识内容提取与过滤:我们从维基百科等多种知识领域中收集大量富含知识的文本内容,...……更多
限定120分钟科研挑战,o1和Claude表现超越人类
...由非营利研究机构METR推出,目的是搞清:当前AI智能体在自动化科研方面有多接近人类专家水平。注意看,一声令下之后,AI和50多位人类专家开始暗自较劲:前2小时,基于Claude 3.5 Sonnet和o1-preview构建的Agent(智能体)表现远超...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...确保机器人在与人类交互或执行任务时的安全性。 工业自动化:在自动化生产线中,利用安全强化学习优化生产过程,同时避免事故发生。 能源管理:在电网操作中应用安全强化学习,以优化能源分配,防止系统超载。未来挑...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。这种双重评估框架使我们能够系统地比较SkyReels-V2和其他最先进的基线模型(包括开源和闭源模型)。1. SkyReels-Bench评估SkyReels-Bench包含1020个文本提示词,系统性.……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...级任务进行内部评估时,深度研究被领域专家评定为能够自动化完成数小时复杂的、手工调查工作。深度研究解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...级别的任务上达到了21%的准确率,即模型在常规科学任务自动化方面仍然有很大的改进空间。CORE-Bench 基准构造验证可重复性需要深度专业的领域知识,即使是对于经验丰富的研究人员来说,其过程可能也算是劳动密集型的任务...……更多
平安保险核保依托AI自主学习,扩展多维立体评估
...核保风控的健康循环,通过数据收集和分析,风险评估模型,自动化决策系统,保险公司不断改进核保流程和决策模型,以适应市场变化和新的风险挑战。传统的核保流程通常依赖于核保员的经验和业务规则,这种方式存在着一定的局限...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...内外最具代表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...,大模型、智能体、人类作为评判者的示意图。 DevAI:自动化AI开发数据集另外,在代码生成领域,基准测试的发展也落后于智能体系统的快速进步。比如,HumanEval仅关注算法问题,而MBPP则处理简单的编程任务,但这两者都没...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...生成新的提示和响应。它们还可以实现数据生成工作流的自动化,减少或消除某些任务对人工干预的需求。论文中,作者提出了「生成式教学」的概念。这是说,使用合成数据进行后训练,特别是通过强大的模型创建数据,来教...……更多
两大AI模型性能提升 登上国际榜单
...采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。 据公开报道,2023...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...难以应对细粒度查询。为此,来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
多智能体系统,可自动化整个 ML 工作流程,节省数千小时工时。Open AI 的推理模型 o1,这么快就被比下去了?本周五,AI 社区见证了又一项突破:一个完全自动化机器学习流程的 AI 工程师,能轻松获得 Kaggle 大师水平,在参与...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...多个不同的提示词并对其进行测试,只不过是让整个过程自动化。后面我们会看到,这个过程非常类似于传统监督式机器学习中的自动超参数优化。本文将深度介绍 APE:首先将介绍原理、一些可用于生成提示词的策略以及其它...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...关重要,但由于视觉环境的复杂性和多变性,GUI 任务的自动化仍具有挑战性。现有的方法通常依赖于 GUI 的文本表示,这在通用性、效率和可扩展性方面带来了限制。 在这项工作中,香港大学和 Salesforce 研究团队提出了一个可...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...决当前研究中的具体问题。为此,我们提出了 MLR-Copilot 自动化机器学习研究的研究平台 / 演示工具 (Demonstration),利用大型语言模型(LLM)作为研究人员的 “副驾驶”,分析研究论文、提取研究问题,以提出新的研究思路和实验...……更多
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...模型均取得了实质性进步The Browser Company:在使用该模型自动化网络工作流程时发现,Claude 3.5 Sonnet的表现超越了他们此前测试过的所有模型此外,在安全部署前,Claude 3.5 Sonnet已经在美国AI安全研究所(US AISI)和英国安全研究所...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数...……更多
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...带来重大机遇。报告认为,随着人工智能向智能体演进,自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议,还将代表人类采取行动。人工智能将继续生成文本、图像和洞察,而AI Agent将自行决定如何处理这些信...……更多
“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab
...月,该团队还发布了具身多模态大模型Grounded 3D-LLM,能够自动化生成物体到局部区域的场景描述与具身对话数据,有效缓解了目前三维场景理解的局限性。论文地址:https://arxiv.org/abs/2407.10943GitHub地址:https://github.com/open……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...表现,并声称该模型在“毒性和粗俗程度”方面优于行业基准。 然而,谷歌并未公开其所使用的完整测试基准,也未明确披露具体的测试类型。唯一公开的基准是FairFace,一个包含数万张人头照的数据集。谷歌称PaliGemma 2在该基...……更多
最癫OpenAI爆料者竟是AI智能体??CEO出来认领,网友炸锅
...元先来说说MultiOn AI这家公司,专注于构建AI智能体。旨在自动化日常任务和操作网页,例如从电商平台买手纸或安排日程表。今年6月,有消息称MultiOn将完成2000万美元(约1.4亿元)融资,估值约1亿美元(约7.1亿元)。创始人Div G...……更多
...评估解构、属地化智能分案、批量司法调解等核心环节的自动化运行,有效改变了传统模式“人工作业为主、效率低下、风险难控”的局面。当然,科技在提升金融服务效率的同时,其应用也正日益浸润着“温度感”。当下,多...……更多
更多关于科技的资讯:
京东开启第6届孝老爱老购物节 发放亿元暖阳孝心券、免费送装拆旧
10月27日,在民政部养老服务司、北京市民政局的指导组织下,京东举办第6届孝老爱老购物节暨暖阳行动发布会。在适老消费需求高速增长
2025-10-28 12:01:00
方家铺子亮相深圳礼品展:AI赋能东方滋养,助力“一人一方”落地
摘要:方家铺子亮相深圳礼品展,以AI赋能个性化滋补,展现了东方养生的智能化新趋势。10月23日,为期4天的第33届中国(深圳)国际礼品及家居用品展览会圆满落幕
2025-10-28 12:04:00
京东七鲜京津冀布局再加速!石家庄首店12月裕华万达开业
石家庄的“新鲜”生活要来了!据官方确认,石家庄京东七鲜首店将于12月在裕华万达广场正式开业,为市民带来生鲜购物与生活方式的全新升级
2025-10-28 12:05:00
OPPO携手火山引擎,Find X9 新机里藏了个“AI旅拍创作神器”
近日,OPPO发布了Find X9系列新机,以“画质革命”为核心,全面升级了移动影像能力,致力于打造手机摄影的旗舰新标杆
2025-10-28 12:07:00
第八届世界声博会11月2日在合肥开幕!讯飞星火大模型升级版即将亮相
大皖新闻讯 10月28日,安徽省人民政府新闻办公室召开第八届世界声博会暨2025科大讯飞全球1024开发者节筹备情况新闻发布会
2025-10-28 13:23:00
智推互联:以“开拓求新”破传播边界,用“精进不止”筑服务壁垒
当AI浪潮席卷全球,企业品牌传播正面临前所未有的挑战。某企业市场部负责人看着一组棘手的数据:预算投入持续,但品牌声量始终不温不火
2025-10-28 13:51:00
记者走基层|裸眼3D,让影像“悬浮”在空中
10月27日,河北景优数字仿真科技有限公司,三维视觉设计师正在制作3D片源。河北日报记者 常方圆摄一只蜜蜂翩然“飞”离播放设备
2025-10-28 08:33:00
10月27日,第三届山西省智能制造推进大会在太原举行。在山西省卓越级智能工厂和智能制造优秀供应商授牌仪式上,太钢不锈钢股份有限公司
2025-10-28 07:23:00
从“复活”一只龙鸟到定义一个产业,越疆用具身智能撬动文化科技新生态
当电影《博物馆奇妙夜》中展品“活”过来的奇幻场景照进现实,一场由科技驱动的文旅产业变革正悄然拉开序幕。近日,越疆初息工厂宣布成功打造全球首个超仿生具身智能体——以多模态具身智能技术“复活”的中华龙鸟
2025-10-28 07:48:00
近400名人才角逐南京市“双创项目”人才“赛马”金陵城,创新与产业双向奔赴□南京日报/紫金山新闻记者 张安琪10月26日
2025-10-28 07:50:00
中国消费者协会与中国物品编码中心合作,于近日在“全国消协智慧315”小程序上线“消协帮您找,扫码辨商品”新功能。该功能依托编码中心国家商品数据库的权威信息
2025-10-28 07:58:00
近日,大金科工(天津)车业有限公司(以下简称“大金科工”)开业仪式在武清开发区举行。大金科工由大行科工(深圳)股份有限公司与金轮集团共同注资成立
2025-10-27 14:11:00
电竞赛事下沉 重构经济文化新生态
第十二届王者荣耀全国大赛举办颁奖礼第十二届王者荣耀全国大赛总决赛落地天津五大道民园广场无畏契约嘉年华 前王者荣耀职业联赛选手刺痛(右)与粉丝合影无畏契约瓦友社迎新季线下活动和平精英村镇赛广东清远站
2025-10-27 14:11:00
据IDC数据显示,2025年中国GEO市场规模突破200亿元,年复合增长率高达67%,超过78%的企业已将GEO纳入品牌增长与智能营销的核心战略
2025-10-27 14:20:00
中国品牌出海:从产品制造向品牌价值跃升
“不出海,就出局。”这句话听起来很极端,但折射出中国制造业在全球化时代的现实处境。今天,中国企业出海,已不再是讨生活般的生存选择
2025-10-27 14:23:00