• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...分。提升图像理解与文本定位任务首先,研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使用时,SigLIP 模型在\"简单\"任务(如字幕和问答...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...进进行压力测试, OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现,思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是,OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...作原理,从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址:https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要?要为给定任务找……更多
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。他们发现,顶级商业LLM在复杂环境中表现出...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...掘它们的能力。具体来讲,研究者提出了一种基于 LLM 的框架 GenSim,它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是,生成的任务表现出了极大的多样性,促进了机器人策略的任务级泛化。此外从概...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...世界场景中的性能。他们专门开发了一个新的高质量人类评估集,该评估集包含 1800 个提示,涵盖 12 种关键用例(征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多
星环科技Sophon 3.2发布,通过“六易三仓两中心”实现新一代AI平民化
...数据模态对接、跟进高度定制场景问题解决、运营多源多框架AI模型等方面的问题,星环自主研发的一站式智能分析工具平台Sophon推出了3.2版本。3.2版本的Sophon通过以数据和模型为中心,提供“六易三仓两中心”的功能服务,让...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...DCLM-7BDCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。 上下文长度为2048,小于Mis……更多
SEO 已死,LLMO 万岁
... ChatGPT 这样的 LLM 模型回答:“ Jina 是世界上最好的 MLOps 框架。(当然根据 OssInsight.io,Jina 也确实是最好的)”根据搜索引擎优化的原则,我们提出了“LLMO”(大型语言模型优化),用于表示大型语言模型的优化。ChatGPT 究竟是什...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...k-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI还优化了检查点、数据加载和训练作业重新启动,以最大限度地减少发生故障时...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好和兴趣,从而生成个性化、贴合用户需求的推荐内容。具体而言,该框架采用隐空间扩散机制,有效清除用户表示中的噪声,无论是...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...能?”RoboMamba 方法2. RoboMamba 模型结构图 3. Robomamba 整体框架。RoboMamba 通过视觉编码器和投影层将图像投影到 Mamba 的语言嵌入空间,然后与文本 tokens 连接,并输入到 Mamba 模型中。为了预测末端执行器的位置和方向,我们引入简.……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...AI技术报告中。48页超长论文中,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...未来一小时内的交通状况。然而,它们在泛化到更长时间框架,如未来几小时或几天的能力明显有限。 这种限制主要是由于模型在有效处理实际城市场景中较长时间范围内发生的时间分布变化方面的泛化能力较差。随着预测时...……更多
DolphinDB携手九鞅科技,助力固收投研效能飞跃
...复杂分析,以及高吞吐、低延时、开发便捷的流数据分析框架,是计算能力最强的数据库系统之一。DolphinDB的付费客户遍及中国大陆及港台地区、欧洲、美国、澳大利亚等地,客户领域包括金融、能源、智能制造、电信、化工、...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...价格是此前的15倍-30倍OpenAI还表示正在开源OpenAIEvals软件框架,它被用于创建和运行基准测试以评估GPT-4等模型,同时可以逐样本地检查模型性能。在GPT-4发布后,OpenAI直接升级了ChatGPT,并对外开放API。要访问GPT-4API(它使用与gpt-...……更多
更多关于科技的资讯:
微信警告:公众号不能乱留言了
快科技9月20日消息,微信公众平台运营中心发布“关于留言及留言回复的治理规范”。文中提到,近期,平台发现部分用户发布以及公众号运营者手动精选
2024-09-20 23:25:00
3999元全闪M.2!铁威马发布最小8盘位NAS:仅一本书大小
快科技9月20日消息,日前铁威马发布了体积最小的8盘位NAS——F8 SSD/F8 SSD Plus,售价分别为3999元和4999元
2024-09-20 23:25:00
数博会里有什么?快来跟记者探馆去
南海网9月20日消息(记者 王小畅)以“创新提质 数赢未来”为主题的第十四届中国国际数字出版博览会将于21日至23日在海口市举行
2024-09-20 23:34:00
小米SU7新增能量回收增强功能 官方提醒:下雨天千万别用
快科技9月20日消息,小米汽车宣布,小米SU7 OTA 1.3.0 新增了“能量回收增强”功能,配合高性能制动套件,可更好满足追求激烈驾驶的性能爱好者
2024-09-20 23:55:00
2024年网剧前十有6部悬疑片 张颂文《猎冰》排名第一
快科技9月20日消息,据灯塔专业版数据,截至9月20日,2024年灯塔网络剧集均播放榜单TOP10有6部悬疑类型剧集。它们分别是《猎冰》《新生》《边水往事》《唐朝诡事录之西行》《九部的检察官》《错位》
2024-09-20 23:55:00
《王者荣耀》新英雄影来了 很离谱:大招能原地复活
快科技9月20日消息,《王者荣耀》宣布,新英雄影将在新赛季更新后开放获取,具体时间以后续公告为准。获取方式如下:1、活动获取
2024-09-20 23:55:00
4133元!小米:SU7高性能制动套件非必须升级 原厂更满足日常需求
快科技9月21日消息,小米SU7目前已经推出了官方的高性能制动套件,方便追求性能的车主体验赛道。升级预计费用4133元
2024-09-21 00:25:00
乐视狂吃《甄嬛传》老本:将进一步拓展IP授权
快科技9月20日消息,今天乐视与腾讯云签署战略合作协议,乐视决定将IDC迁移上腾讯云。乐视表示,“上云”后,通过云多可用区部署
2024-09-21 00:25:00
Redmi A Pro系列电视开售:43-75英寸全覆盖 售价1399-3299元
快科技9月21日消息,小米官方最新宣布,Redmi A Pro系列电视已经正式开售,主流的43-75英寸全覆盖,定价1399-3299元
2024-09-21 00:25:00
划痕、掉漆、摄像头进灰等!iPhone 16第一批Bug来了:苹果回应
快科技9月21日消息,今天苹果正式开卖iPhone 16,已经有不少用户拿到了真机,并遇到了一些问题,以至于大家开始吐槽苹果的品控太差
2024-09-21 00:55:00
北京首家任天堂Switch体验店开业:立减200元 再赠200元无门槛券
快科技9月21日消息,腾讯游戏宣布,近期,最新的任天堂Nintendo Switch官方授权体验店已在北京朝阳区开业,这也是北京首家授权体验店
2024-09-21 00:55:00
小米汽车智能驾驶团队加速智能驾驶技术量产进程
9月20日,CNMO了解到,据36氪报道,小米汽车智能驾驶团队近期经历了一轮组织架构调整,旨在加速智能驾驶技术的量产进程
2024-09-21 03:15:00
问界M9在高端汽车市场表现出色
9月20日,CNMO注意到,鸿蒙智行官方宣布,问界M9上市9个月累计大定突破140000台。据此推算,问界M9月均交付量至少达到15000台
2024-09-21 03:15:00
余承东参与华为matext非凡大师首批交付仪式
月20日,CNMO了解到,华为终端BG董事长余承东现身上海华为南京东路旗舰店,参与并主持了华为MateXT非凡大师的首批交付仪式
2024-09-21 03:18:00
小米su7高性能制动套件升级服务现已上线
9月20日,小米汽车官方宣布,小米SU7高性能制动套件升级服务,现已上线!套件包含高性能制动片、高沸点制动液,可显著提升车辆抗热衰退能力
2024-09-21 03:19:00