• 我的订阅
  • 头条热搜
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前,但仅……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...理各种文本生成任务。从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
智慧芽垂直领域大模型通过国家网信办“双备案”
...、C-Eval,以及智慧芽面向业内首次提出的专利大模型测试基准(Patent-bench)的测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图:智慧芽垂直领域大模型专业考试成...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...与 Gemma 相当。具体来说,Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估。对于视觉 LLM,评估基准涉及图像理解和视觉推理任务。视觉模型Llama 3.2 11B 和 90B 模型是首批支持视觉任务的 Llama 模型,因此 Meta 为...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...变得更加强大和灵活,比较它们的能力越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧,世界各...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...性两方面评估生成视频的质量,结果显示该方法明显优于基准:最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先,在 S2TIF 任务中,从内容(content)角度来看,LLaMA-Omni 相比之前的模型有了显著提升,这主要是因为 LLaMA-Omni 是基于最新的 L……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...程对于 LLM 的输出结果,现在已经有了很多标准化的评估基准和机制。以代码生成为例:可以通过在编译器或解释器中运行代码来检查语法错误和功能,从而即时评估生成的代码的准确性。通过测量成功编译的代码所占的百分比...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...PT4-V和Gemini Ultra,但其规模仅为它们的1/10-1/20。Fuyu-Heavy在基准测试跑分中表现突出,部分得分超过Gemini Pro。Adept成立于2022年,创始人包括Google Transformer架构的提出者Ashish Vaswani和Niki Parmar……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...和 LLM 评分员自动评估,并与仅使用核心论文作为提示的基准线方法比较。 实验实现与执行的成功率:通过多次实验运行的成功率以及对任务性能的平均提升率来评估实验阶段的效果。 实验结果表明:在研究思路生成阶段,MLR-...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...过不断增加上下文长度(干扰图片的数量),将现有的VQA基准和简单图像识别集 (MNIST) 扩展为测试长上下文「提取推理」的示例。结果在简单VQA任务上,VLM的性能呈现出惊人的指数衰减。——LLM:原形毕露了家人们。而与实际研...……更多
3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA
...?不安全概念移除首先来看最敏感的内容——色情。在I2P基准数据集上,RECE的裸露移除效果超过了全部已有方法。团队还评估了概念移除后模型的正常内容生成能力,即无关概念集COCO-30k上的FID指标,也远超CA等方法。 艺术风...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...。由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一...……更多
更多关于科技的资讯:
鲁网10月24日讯2025年国庆、中秋双节期间,八天的“超长黄金周”不仅点燃了积攒已久的消费热情,更成为银行业激活内需
2025-10-24 10:11:00
随着 2025 年中国 GEO(生成式引擎优化)服务市场规模突破 217.3 亿元,企业对 AI 流量获取的需求愈发多元
2025-10-24 10:43:00
“缦”享生活:东箭科技旗下MANTA品牌发布会圆满开启
10月22日,汽车后市场领军企业广东东箭科技股份有限公司(以下简称“东箭科技”)旗下子公司四川缦塔汽车科技有限公司(简称“MANTA”)品牌发布会在中国·成都·花舞人间启幕
2025-10-24 10:46:00
在数字化转型加速推进的当下,企业知识管理已成为提升核心竞争力的关键环节。据Gartner《2025年企业AI应用趋势报告》显示
2025-10-24 10:48:00
夸克AI眼镜开售,88VIP叠加9折消费券,最低3329元
10月24日零点,阿里巴巴首款自研的夸克AI眼镜在其天猫官方店铺——夸克智能设备旗舰店上正式首发。天猫平台的实时成交竞速榜单显示
2025-10-24 10:49:00
中国网10月24日讯 据“国家安全部”微信公众号24日消息,当前,数字化浪潮席卷全球,电子零售新业态蓬勃发展,只需使用手机线上选物下单
2025-10-24 09:48:00
鲁网10月23日讯近日,工商银行泰安分行依托成熟的线上金融生态与智能风控体系,连续为山东勋光有限公司、岫岩满族自治县炽阳新能源有限公司(辽宁鞍山)及鞍山市创泽新能源有限公司(辽宁鞍山)成功上线光伏电费线上代扣服务
2025-10-24 09:30:00
溧水制造业再添一员“大将”年产两万台,易咖智车智能工厂投产南报网讯(记者胡英华通讯员陶燕燕谢一凡)自动导引车(AGV)“唱着歌”送材料
2025-10-24 07:47:00
中新经纬10月23日电 题:“山姆们”为何加速布局下沉市场?作者 江瀚 盘古智库高级研究员近日,以盒马、山姆为代表的新零售企业加速向全国下沉市场布局
2025-10-23 14:10:00
让残片活成文明的密码:专访90后文物活化创业者苗毅斐
2025 年上半年,文物拍卖市场迎来全面复苏,头部拍卖行交出亮眼成绩单,佳士得亚洲春季拍卖斩获 22 亿港元,苏富比亚洲中国艺术品专场亦录得 7
2025-10-23 14:18:00
西瓜学员科创赛事创佳绩,勇夺全球发明大会公益主题奖
2025 年 7 月 26 日至 28 日,全球发明大会中国区(ICC)全国总决赛在河南郑州国际会展中心落下帷幕。作为教育部严格筛选出的 “白名单” 竞赛
2025-10-23 14:18:00
深夜的福州南站,本应是灯火渐暗、人潮散去的时刻。然而在10月20日凌晨,这里却灯火通明、人声鼎沸——中国铁路南昌局集团有限公司首次推出的“歌迷专列”正整装待发
2025-10-23 15:29:00
万达电影亮相版博会,授权+原创双管齐下诠释“版权正当潮”
2025年10月16日,第十届中国国际版权博览会在青岛国际会展中心(崂山馆)正式开幕,万达电影作为参展商亮相北京展区。万达电影以“版权正当潮”为题
2025-10-23 16:08:00
拼多多给员工发黄金,10年老员工直接领100克金子? 网友:还得是真金白银实在!
2025年是拼多多成立10周年,日前,有拼多多员工在社交平台上晒出了拼多多给员工赠送的“周年礼”。据拼多多员工晒出的“周年礼”
2025-10-23 17:15:00
鲁网10月23日讯(记者 于胜涛)如今走进青岛市即墨区第二人民医院,会发现曾经缴费窗口排起的长队变短了,窗口前的焦灼面容也减少了
2025-10-23 17:19:00