• 我的订阅
  • 科技

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

类别:科技 发布时间:2025-09-26 16:48:00 来源:海外网

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

责编:秦雅楠、王瑞景

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-09-27 05:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型和杭州智诊科技的WiseDiag分列第二
2025-03-04 10:34:00
11月7日,蚂蚁集团CEO韩歆毅发布全员信,并宣布升级组织架构:原“数字医疗健康事业部”正式升级为“健康事业群”,并将加速推动医疗健康业务成为蚂蚁的战略支柱板块。据悉,这是蚂蚁集
2025-11-07 14:08:00
联合国AI for Good峰会发布优秀案例:蚂蚁AI健康管家AQ获选
...期间,官方正式公布2025“人工智能向善”创新案例集,蚂蚁集团旗下AI健康应用AQ获选“优秀案例奖”, 来自阿里巴巴达摩院、GE(美国通用)、华为等相关项目一同入围。该峰会由
2025-07-11 13:01:00
...的是,基地2025年度重大成果之一、由省卫生健康委联合蚂蚁集团共同打造的“安诊儿”医疗智能体,已重磅升级至3.0版本:全新上线医生端服务,全面升级患者端服务。医生端致力于成为
2025-12-21 08:22:00
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
备受瞩目的蚂蚁金融大模型揭开面纱。9月8日,蚂蚁集团在外滩大会上正式发布金融大模型,其主要基于蚂蚁基础大模型,针对金融产业深度定制,底层算力集群可达到万卡规模。据悉,目前,蚂蚁金
2023-09-08 23:01:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
...的形式,揭秘人工智能产业进阶的底层逻辑。在对谈中,蚂蚁集团副总裁、数字医疗健康事业部总经理张俊杰表示: AI 时代的到来会给医疗行业换引擎,以前可能是汽车引擎,现在可能直接装
2025-08-03 06:45:00
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可
2023-11-06 15:25:00
全球AI安全评估测试有了新基准
...内免受威胁和漏洞侵害。《大语言模型安全测试方法》以蚂蚁集团为牵头单位,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型安全风险分类、攻击
2024-04-25 04:00:00
蚂蚁医疗大模型解决方案正式发布!医院、医生、用户三大产品体系升级
快科技3月21日消息,蚂蚁集团正加码AI医疗产业布局,对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医
2025-03-21 20:59:00
更多关于科技的资讯:
新春福利来袭!上纵览领顺丰福利券,燕赵家乡年味寄回家
新春将至年味漫卷街巷牵挂亦随团圆脚步愈发浓烈纵览新闻客户端携手顺丰速运重磅打造“年味传情,顺丰到家”新春寄递专属福利以实在优惠为每份心意添力即日起至3月3日打开纵览新闻客户端点击
2026-01-30 21:20:00
深耕快消品设计领域,北京博创设计以国际水准铸就品牌视觉力量
在国内高端品牌设计领域,北京博创设计公司(Bofly Design)凭借近二十年的深耕积淀,以专业的全链路服务能力、众多国际奖项背书及标杆级客户案例
2026-01-30 22:14:00
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00
日前,中国消费者协会将2026年消费维权年主题定为“提升消费品质”。这一主题旨在构建起“供给提质、维权提效、环境优化”的全链条治理体系
2026-01-30 17:47:00
中国消费者报报道(记者施本允)面对日均667件的海量消费投诉涌来,如何更准确有效地进行分流、处置?如何聚焦高风险业态进行预警
2026-01-30 17:47:00
中国消费者报上海讯(记者刘浩)上海市虹口区消费者权益保护委员会近日发布的宠物经济消费调查结果显示,90后、00后成为宠物消费主力
2026-01-30 18:17:00
省科学技术奖,锡山+6!
为激励企业自主创新、开放合作,更好地服务国家重大战略,推进江苏高质量发展,近期江苏省政府发布了《关于2024年度江苏省科学技术奖励的决定》
2026-01-30 18:20:00
今年春运期间,中国铁路南昌局南昌西动车组运用所的智能检修机器人将发挥重要作用,这款集成多重智能技术的“检修尖兵”,实现了动车组车厢底部全自动
2026-01-30 18:23:00
日前,中新经纬研究院与国家广告研究院联合发布报告《医药出海新图景》(下称《报告》)。这是双方推出的2025中国品牌出海系列报告第9期
2026-01-30 18:44:00
一口喜旺味,岁岁皆安康,解锁新年团圆仪式感
节庆馈赠的品质选择,源自对风险管控与生产闭环的极致追求。喜旺凭借其贯穿全链路的“风险驱动+全过程控制”体系,将“安心”转化为可测量
2026-01-30 14:53:00
新消费时代植物医生的 “空间重构”:从货架到生命场的 “实体进化”
“虚拟世界缺乏信任的最终载体,如果产品有问题,顾客可以找到你。这是线下店最根本的力量。”2026年1月初,在深圳举办年会时
2026-01-30 15:11:00
章丘首店!三联家电入驻世茂广场,2月6日盛大启幕!
鲁网1月29日讯三联家电,扎根齐鲁四十一载,“买家电,到三联,三联家电,保修终生”,这句话承载着几代人的回忆,随着家电市场的不断变迁
2026-01-30 15:31:00
娇韵诗撤下彩妆代言人金晨置顶微博
大皖新闻讯 1月30日下午,大皖新闻记者注意到,娇韵诗官方微博撤下彩妆代言人金晨相关的置顶内容。目前该微博账号置顶微博为迪丽热巴相关内容
2026-01-30 15:51:00
在经济全球化深入推进的背景下,跨境贸易已成为推动经济增长的重要引擎,而高效、安全的外汇服务则是保障跨境贸易顺畅开展的关键支撑
2026-01-30 16:02:00