• 我的订阅
  • 科技

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

类别:科技 发布时间:2025-09-26 16:48:00 来源:海外网

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

责编:秦雅楠、王瑞景

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-09-27 05:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型和杭州智诊科技的WiseDiag分列第二
2025-03-04 10:34:00
联合国AI for Good峰会发布优秀案例:蚂蚁AI健康管家AQ获选
...期间,官方正式公布2025“人工智能向善”创新案例集,蚂蚁集团旗下AI健康应用AQ获选“优秀案例奖”, 来自阿里巴巴达摩院、GE(美国通用)、华为等相关项目一同入围。该峰会由
2025-07-11 13:01:00
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
备受瞩目的蚂蚁金融大模型揭开面纱。9月8日,蚂蚁集团在外滩大会上正式发布金融大模型,其主要基于蚂蚁基础大模型,针对金融产业深度定制,底层算力集群可达到万卡规模。据悉,目前,蚂蚁金
2023-09-08 23:01:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
...的形式,揭秘人工智能产业进阶的底层逻辑。在对谈中,蚂蚁集团副总裁、数字医疗健康事业部总经理张俊杰表示: AI 时代的到来会给医疗行业换引擎,以前可能是汽车引擎,现在可能直接装
2025-08-03 06:45:00
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可
2023-11-06 15:25:00
全球AI安全评估测试有了新基准
...内免受威胁和漏洞侵害。《大语言模型安全测试方法》以蚂蚁集团为牵头单位,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型安全风险分类、攻击
2024-04-25 04:00:00
蚂蚁医疗大模型解决方案正式发布!医院、医生、用户三大产品体系升级
快科技3月21日消息,蚂蚁集团正加码AI医疗产业布局,对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医
2025-03-21 20:59:00
...营方——微医控股的微医医疗大模型以总分94.7分,力压蚂蚁医疗大模型和WiseDiag等知名大模型成为榜首。不仅如此
2025-03-11 19:42:00
9月8日,在上海举办的外滩大会上,蚂蚁集团正式发布金融大模型。据了解,蚂蚁金融大模型基于蚂蚁自研基础大模型,针对金融产业深度定制,底层算力集群达到万卡规模。目前蚂蚁金融大模型已通
2023-09-08 20:34:00
更多关于科技的资讯:
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00