• 我的订阅
  • 头条热搜
自动化、可复现,基于大语言模型群体智能的多维评估基准
...群智慧)来实现更稳健且更少偏见的评估,同时使该过程自动化且可扩展到多维度能力比较,Maitrix.org 发布了 Decentralized Arena。原文地址: https://de-arena.maitrix.org Leaderboards: https://huggingface……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...实现更佳的性能。 自动评估方法为了将人工评估的流程自动化,作者对LLM任务和评估标准进行了细致的定义。数据收集和领域内很多科技巨头的做法形成鲜明对比的是,DeepMind这篇论文不仅披露了使用的数据集列表,而且从数...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...ImageReward和HPSv2等。然而,这些指标真的足够好吗?现有自动化指标的不足在评估两张图片的相似性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...严格且周密的流程,确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段:1. 自动化构建阶段,主要包括五个步骤:(1)知识内容提取与过滤:我们从维基百科等多种知识领域中收集大量富含知识的文本内容,...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...确保机器人在与人类交互或执行任务时的安全性。 工业自动化:在自动化生产线中,利用安全强化学习优化生产过程,同时避免事故发生。 能源管理:在电网操作中应用安全强化学习,以优化能源分配,防止系统超载。未来挑...……更多
平安保险核保依托AI自主学习,扩展多维立体评估
...核保风控的健康循环,通过数据收集和分析,风险评估模型,自动化决策系统,保险公司不断改进核保流程和决策模型,以适应市场变化和新的风险挑战。传统的核保流程通常依赖于核保员的经验和业务规则,这种方式存在着一定的局限...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...级别的任务上达到了21%的准确率,即模型在常规科学任务自动化方面仍然有很大的改进空间。CORE-Bench 基准构造验证可重复性需要深度专业的领域知识,即使是对于经验丰富的研究人员来说,其过程可能也算是劳动密集型的任务...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...内外最具代表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...,大模型、智能体、人类作为评判者的示意图。 DevAI:自动化AI开发数据集另外,在代码生成领域,基准测试的发展也落后于智能体系统的快速进步。比如,HumanEval仅关注算法问题,而MBPP则处理简单的编程任务,但这两者都没...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...生成新的提示和响应。它们还可以实现数据生成工作流的自动化,减少或消除某些任务对人工干预的需求。论文中,作者提出了「生成式教学」的概念。这是说,使用合成数据进行后训练,特别是通过强大的模型创建数据,来教...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...难以应对细粒度查询。为此,来自清华大学的研究者提出自动化视频 - 文本细粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
多智能体系统,可自动化整个 ML 工作流程,节省数千小时工时。Open AI 的推理模型 o1,这么快就被比下去了?本周五,AI 社区见证了又一项突破:一个完全自动化机器学习流程的 AI 工程师,能轻松获得 Kaggle 大师水平,在参与...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...多个不同的提示词并对其进行测试,只不过是让整个过程自动化。后面我们会看到,这个过程非常类似于传统监督式机器学习中的自动超参数优化。本文将深度介绍 APE:首先将介绍原理、一些可用于生成提示词的策略以及其它...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...决当前研究中的具体问题。为此,我们提出了 MLR-Copilot 自动化机器学习研究的研究平台 / 演示工具 (Demonstration),利用大型语言模型(LLM)作为研究人员的 “副驾驶”,分析研究论文、提取研究问题,以提出新的研究思路和实验...……更多
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...模型均取得了实质性进步The Browser Company:在使用该模型自动化网络工作流程时发现,Claude 3.5 Sonnet的表现超越了他们此前测试过的所有模型此外,在安全部署前,Claude 3.5 Sonnet已经在美国AI安全研究所(US AISI)和英国安全研究所...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数...……更多
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...带来重大机遇。报告认为,随着人工智能向智能体演进,自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议,还将代表人类采取行动。人工智能将继续生成文本、图像和洞察,而AI Agent将自行决定如何处理这些信...……更多
“具身智能小镇”来了!机器人逛超市买菜满街跑,来自上海AI Lab
...月,该团队还发布了具身多模态大模型Grounded 3D-LLM,能够自动化生成物体到局部区域的场景描述与具身对话数据,有效缓解了目前三维场景理解的局限性。论文地址:https://arxiv.org/abs/2407.10943GitHub地址:https://github.com/open……更多
最癫OpenAI爆料者竟是AI智能体??CEO出来认领,网友炸锅
...元先来说说MultiOn AI这家公司,专注于构建AI智能体。旨在自动化日常任务和操作网页,例如从电商平台买手纸或安排日程表。今年6月,有消息称MultiOn将完成2000万美元(约1.4亿元)融资,估值约1亿美元(约7.1亿元)。创始人Div G...……更多
科学家研发AI睡眠模型,捕捉多导睡眠图数据特征,提升睡眠障碍
...为睡眠医疗提供降本增效的可能。与此同时,这种高效的自动化睡眠分析系统,也有望成为传统多导睡眠图人工手动标注的替代或补充。 预计基于本次开发的深度学习睡眠分析算法,有望应用于以下几个方面:其一,充当临床...……更多
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...歌正开发同类新项目「Project Jarvis」,能将Chrome网页任务自动化。谷歌「贾维斯」将由未来版Gemini 2.0驱动,预计在12月亮相。起这个名字,是为了向钢铁侠中的J.A.R.V.I.S致敬。无独有偶,微软团队悄悄放出的OmniParser,也在笃定AI...……更多
...每轮30万次的迭代训练,模拟设计师创作过程,实现高效自动化设计,大幅提升设计效率,降低成本至原来20%,解决设计师人才稀缺、成本高问题,推动蕾丝花型设计领域的智能化革新。8、基于大数据驱动的陶瓷产业数字化协同...……更多
江苏银行:聚数智之力,塑“微贷”之美
...、申请提交等操作步骤。客户在提交业务后,可快速获取自动化审批结果,并可通过江苏银行手机银行等渠道实现在线用款,按需用信、随借随还。目前,“微e融”产品实现全流程线上化办理,客户足不出户便可享受“一站式...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...战。6.关注实现AGI的路径,而非单一终点:正如通过一套自动化驾驶的标准体系会更有助于针对自动驾驶车辆相关的政策制定和进程推进一样,定义AGI在不同“水平”上的衡量标准是很有益的。AGI的发展就像是一次长途跋涉,终...……更多
谷歌 AI 推出 CardBench 评估框架
...之家 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的...……更多
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
...复问题或提升性能。现有研究多利用 LLMs 进行漏洞修复和自动化程序修复,但自适应系统中的自动化进化研究有限。LLMs 可以通过集体智能(如 metaGPT 自动化开发流程)以及自主学习(学习新技能以应对运行时的变化)实现自我...……更多
金税四期下,如何构建“内外兼修”的企业合规体系?
...据的交易凭证风险管理。 在开票环节,百望云系统支持自动化开票,提供发票方案分配、发票风险指标设置等能力,将开票风险前置,完成合规校验,同时重点支持逆向业务的监督与校验,即红冲发票的风险前置校验,保障开...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...之地。人们可以利用这种推理能力来构建强大的工作流程自动化,以解决IT、网络安全、汽车等各个领域的问题。组织可以使用较小的开源模型来替代GPT-4o等成本较高的模型,用于需要复杂推理能力来解决的任务。参考资料:http...……更多
更多关于科技的资讯:
冲泡即食、真材实料:海福盛冻干粥3.1元/杯大促
海福盛冻干粥5杯日常售价24.9元,今日下单可领6元优惠券,到手18.9元,包邮到家。购买链接:天猫(券后18.9元)下单赠送芙蓉鲜蔬汤一杯
2024-12-19 17:00:00
有效期3年:瑞慈全身体检套餐279元大促(立减800元)
天猫瑞慈体检旗舰店,成人全身体检套餐日常售价1079元,可领限量800元券,实付279元入手。全国66门店通用,有效期3年
2024-12-19 17:00:00
男子给已婚女同事发“么么哒”被辞退!法院判决:公司赔偿3万9
快科技12月19日消息,近日,据媒体报道,一则法院判决案例在网络流传,网文称安徽宣城一名“70后”男职工因给已婚女同事发“我想你”“么么哒”等聊天内容等原因遭到公司的辞退
2024-12-19 17:00:00
曝富士康已建立折叠屏iPhone测试线:厚度/重量尚未达到苹果标准
快科技12月19日消息,每年关于苹果的爆料,除了下一代iPhone之外,大家最熟悉的节目可能就是折叠屏iPhone了,年年都有传闻出现
2024-12-19 17:00:00
主人杀年猪 二哈偷吃猪肉被撑死:没有饱腹感、喂养需适量
12月19日消息,很多动物其实没有饱腹感,会一直进食,甚至有可能被撑死。近日在四川泸州,一户人家杀年猪,切好的肉放在桌子上
2024-12-19 17:00:00
中兴罕见涨停 股价创近一年来新高 夺A股成交冠军
快科技12月19日消息,作为A股硬科技领域的代表公司,中兴通讯今日盘中触及涨停板,股价创下近一年来的新高,总市值也重回1800亿元以上
2024-12-19 17:00:00
2024年,茅台悠蜜的美好遇见
营收连续5年蝉联第一。——在水果发酵酒领域,茅台悠蜜可谓是异军突起。12月18日,贵州茅台(集团)生态农业产业发展有限公司(以下简称“茅台生态农业公司”)2024年市场营销工作会议在贵阳市举行
2024-12-19 17:18:00
正安县中等职业学校:产教融合培育直播电商“新农人”
多彩贵州网讯 在当今数字化经济蓬勃发展的时代,直播电商作为一种新兴的商业模式,正以惊人的速度改变着人们的消费方式和市场格局
2024-12-19 17:19:00
远大医药获治疗干眼症的全球首创创新产品的独家开发及商业化权益
远大医药获得治疗干眼症的全球首创创新产品的独家开发及商业化权益OC-01和OC-02是两种高选择性的乙酰胆碱能受体激动剂
2024-12-19 17:21:00
@山东人:2024,你的钱都去哪了?参与调查赢奖品!
2024作为消费促进年,我国一系列促消费持续落地,有效释放了内需潜力,多数商品销售增势良好,升级类商品较快增长。根据国家统计局数据
2024-12-19 17:23:00
圣诞装蒂法3D模型分享:圣诞老人版“耶路撒泠”
随着圣诞节越来越近,“3D区”博主、模型渲染爱好者@DRAYQ今天在推特中分享了自己制作的圣诞装蒂法3D建模同人图。我们的“耶路撒冷”换上了圣诞老人短裙后像是要把衣服都要撑破了
2024-12-19 17:30:00
2026北京车展提前官宣:总面积超38万平米打破历史规模纪录
快科技12月19日消息,2026(第十九届)北京国际汽车展览会已正式定档。将于2026年4月24日至5月3日在北京中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)隆重举行
2024-12-19 17:30:00
余承东:很多车厂想和我们合作 抱歉 我手里没有那么多资源了
快科技12月19日消息,鸿蒙智行年度直播今日于海南三亚举办,余承东与四界老总相聚直播间,跟撒贝宁、尼格买提、陈伟鸿跨界对话
2024-12-19 17:30:00
鲜果酿造 口感纯正!云小耳黑莓果汁大促:48元券 6罐到手11.9元
云小耳黑莓果汁242ML*6罐日常售价为59.9元,下单领取48元优惠券,到手价为11.9元。购买链接:天猫(券后11
2024-12-19 17:30:00
商务部回应美方考虑禁售TP-Link路由器:别搞有罪推定
快科技12月19日消息,有报道称,美国商务部、国防部和司法部的调查人员以国安问题为由,已经对中国路由器品牌厂商TP-Link展开调查
2024-12-19 17:30:00