• 我的订阅
  • 头条热搜
谷歌 AI 推出 CardBench 评估框架
...要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...oTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...中发挥了关键作⽤。 真实应⽤场景⽰例基于ModelScope-Agent框架 ,CodexGraph的实际应⽤价值在多个场景中得到了体现,如:代码聊天助⼿(Code Chat) 代码调试⼯具(Code Debugger) 单元测试⽣成器(Code Unit tester) 代码⽣成器(……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...到处理模糊问题、私有代码库集成等多种模式,可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务,还设计了多选题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管...……更多
全球AI安全评估测试有了新基准
...应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高人工智能系统安全性,促进技术负责任发展,增强公众信任。记者了解到,此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...任务。下图展示了具身智能体的典型架构。 具身智能体框架在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...hub.io/代码仓库:https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后,...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准,是因为团队发现:由机器学习 (ML) 模型从较大的数据集中自动...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...分。提升图像理解与文本定位任务首先,研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使用时,SigLIP 模型在\"简单\"任务(如字幕和问答...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...掘它们的能力。具体来讲,研究者提出了一种基于 LLM 的框架 GenSim,它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是,生成的任务表现出了极大的多样性,促进了机器人策略的任务级泛化。此外从概...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...世界场景中的性能。他们专门开发了一个新的高质量人类评估集,该评估集包含 1800 个提示,涵盖 12 种关键用例(征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...DCLM-7BDCLM-7B同样采用了decoder-only的架构,使用PyTorch和OpenLM框架进行预训练。总共4T token的DCLM-baseline数据集来自于总量240T的DCLM,DCLM-7B模型又进一步过滤出其中的2.5T用于训练。 上下文长度为2048,小于Mis……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...k-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI还优化了检查点、数据加载和训练作业重新启动,以最大限度地减少发生故障时...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好和兴趣,从而生成个性化、贴合用户需求的推荐内容。具体而言,该框架采用隐空间扩散机制,有效清除用户表示中的噪声,无论是...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...能?”RoboMamba 方法2. RoboMamba 模型结构图 3. Robomamba 整体框架。RoboMamba 通过视觉编码器和投影层将图像投影到 Mamba 的语言嵌入空间,然后与文本 tokens 连接,并输入到 Mamba 模型中。为了预测末端执行器的位置和方向,我们引入简.……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...AI技术报告中。48页超长论文中,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...未来一小时内的交通状况。然而,它们在泛化到更长时间框架,如未来几小时或几天的能力明显有限。 这种限制主要是由于模型在有效处理实际城市场景中较长时间范围内发生的时间分布变化方面的泛化能力较差。随着预测时...……更多
DolphinDB携手九鞅科技,助力固收投研效能飞跃
...复杂分析,以及高吞吐、低延时、开发便捷的流数据分析框架,是计算能力最强的数据库系统之一。DolphinDB的付费客户遍及中国大陆及港台地区、欧洲、美国、澳大利亚等地,客户领域包括金融、能源、智能制造、电信、化工、...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...们可以根据已有数据进行推断。AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes,它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops,但这是在服务器模式下运行的……更多
国际组织WDTA首次就大模型安全发布国际标准,蚂蚁集团、OpenAI、科大讯飞等参编
...。该标准为测试和验证生成式AI应用的安全性提供了一个框架,特别是那些使用大语言模型(LLM)构建的应用程序。它定义了人工智能应用程序架构每一层的测试和验证范围,包括基础模型选择、嵌入和矢量数据库、RAG或检索增...……更多
“3D视频版Sora”来了!
...Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来...……更多
浪潮KaiwuDB论文被数据库国际顶会ICDE2024录用
...战。本篇论文提出了一种基于深度强化学习的查询优化新框架——FOSS。FOSS的行为类似一个诊疗查询计划的医生,它从传统优化器生成的原始计划开始优化,发现其中的性能问题,并通过一系列优化动作逐步改进计划中的次优节...……更多
错误率从10%降至0.01%,领英全面分享LLM应用落地经验
...那么令人头疼。在短短几天内,我们就建立并运行了基本框架: 路由:决定查询是否在范围内,以及将其转发给哪个 AI 智能体。检索:面向 recall 的步骤,AI 智能体决定调用哪些服务以及如何调用(例如 LinkedIn 人物搜索、Bing A...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题都作...……更多
更多关于科技的资讯:
京东工业携手浙江维派 共建包装机械设备行业数智供应链标杆
近日,京东工业与国内头部包装机械设备品牌浙江维派达成战略合作,浙江维派总经理周柯胜与京东工业相关负责人出席签约仪式并进行座谈交流
2025-01-17 20:28:00
• 秉持"以人为本"理念,江森自控凭借在人力资源战略和实践方面的出色表现,再次赢得杰出雇主调研机构的肯定1月16日,杰出雇主调研机构 (Top Employers Institute) 正式发布"中国杰出雇主2025"榜单
2025-01-17 20:36:00
全球知名专家学者齐聚深圳,国际给药趋势研讨会释放哪些讯息?
1月17日,由全球雾化科技龙头企业思摩尔旗下MOYAL岚至主办的“跨界视野下未来给药技术趋势研讨会”在深圳召开。本次会议深入探讨了未来给药的行业趋势与技术路径
2025-01-17 20:56:00
新突破!中国首套年产50万吨新一代瓶片装置投产
快科技1月17日消息,据报道,我国首套采用聚酯中黏工艺技术建设的50万吨/年瓶级切片装置在中国石化仪征化纤公司成功投产
2025-01-17 21:27:00
趵突泉锦鲤胖的跟猪一样 园区:再喂就噶了!
快科技1月17日消息,据媒体综合报道,近日,济南趵突泉的锦鲤要减肥冲上了热搜。据报道,在趵突泉景区海豹池,一个印有“锦鲤减肥中心”的指示牌被放置在了池内
2025-01-17 21:27:00
纯黑外观+铝合金背板!傲世ODYSSEY征途锐炫B570显卡图赏
快科技1月17日消息,Intel近期推出了其第二代锐炫独立显卡系列,首波亮相的型号为B580与B570。其中,B580已率先上市
2025-01-17 21:27:00
自主研制!东方风电120米海上风电叶片顺利完成测试
快科技1月17日消息,据“东方电气”官微发文,东方电气集团所属东方风电公司自主研发的120米海上风电叶片,凭借完全自主知识产权
2025-01-17 21:27:00
男子23.5万买捷豹新车却无法提车 4S店:合格证被押银行了
快科技1月17日消息,据报道,曹先生上个月在杭州运通和乔4s店买了一辆捷豹,车价23万5千元。曹先生介绍,4S店称预计1月10日交车
2025-01-17 21:27:00
颜值感受下!美国空姐发机舱内跳舞视频被开除引热议 才刚结束试用期
1月17日消息,近日,一段关于美国一名空姐因在机舱内跳舞而被开除的事件在网络上持续发酵。1月16日,这名空姐发布了一段众筹视频
2025-01-17 21:27:00
马斯克:加州莫斯兰丁发电站起火事故与特斯拉无关 Megapack运行良好
快科技1月17日消息,据报道,特斯拉CEO马斯克在社交平台发文称,美国加利福尼亚州莫斯兰丁发电站起火事故与特斯拉无关,其Megapack储能电池模块运行良好
2025-01-17 21:27:00
华为加大产能!Mate 70系列基本不加价卖了
快科技1月17日消息,上市已经有段时间的Mate 70系列,随着产能的增加,溢价率也在慢慢消失。现在,有数码博主曝光了华为Mate 70系列部分机型的渠道价格
2025-01-17 21:27:00
保护人体健康的防线!人体最大免疫器官竟是肠道
快科技1月17日消息,据了解,肠道是人体最大的免疫器官,它不仅仅是机体消化吸收的地方,而且时刻抵挡着大量的病菌的侵入。肠道黏膜面积超过400平方米
2025-01-17 21:27:00
“重庆特色伴手礼”点赞首日 这些品牌人气高
1月17日9时,重庆特色伴手礼品牌认定进入点赞第一天。100个候选当日哪些品牌人气高?快手、上游新闻分别发布首日“龙虎榜”——点赞排名前10品牌(截止时间为17日18时),一起来
2025-01-17 21:35:00
丰田子公司日野汽车同意就排放造假认罪:与美国达成117亿元和解协议
快科技1月17日消息,据报道,当地时间1月16日消息,丰田子公司日野汽车与美国政府,就发动机排放数据造假达成一项总额约16亿美元(约合人民币117亿元)的和解协议
2025-01-17 16:27:00
阿里巴巴内部调整:天猫精灵硬件团队与夸克融合 瞄准AI眼镜市场
快科技1月17日消息,天猫精灵硬件团队与夸克产品团队正在进行融合,这一举措预示着双方将共同探索包括AI眼镜在内的新兴硬件领域
2025-01-17 16:27:00