• 我的订阅
  • 科技

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

类别:科技 发布时间:2025-09-26 16:48:00 来源:海外网

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

责编:秦雅楠、王瑞景

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-09-27 05:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型和杭州智诊科技的WiseDiag分列第二
2025-03-04 10:34:00
11月7日,蚂蚁集团CEO韩歆毅发布全员信,并宣布升级组织架构:原“数字医疗健康事业部”正式升级为“健康事业群”,并将加速推动医疗健康业务成为蚂蚁的战略支柱板块。据悉,这是蚂蚁集
2025-11-07 14:08:00
联合国AI for Good峰会发布优秀案例:蚂蚁AI健康管家AQ获选
...期间,官方正式公布2025“人工智能向善”创新案例集,蚂蚁集团旗下AI健康应用AQ获选“优秀案例奖”, 来自阿里巴巴达摩院、GE(美国通用)、华为等相关项目一同入围。该峰会由
2025-07-11 13:01:00
...的是,基地2025年度重大成果之一、由省卫生健康委联合蚂蚁集团共同打造的“安诊儿”医疗智能体,已重磅升级至3.0版本:全新上线医生端服务,全面升级患者端服务。医生端致力于成为
2025-12-21 08:22:00
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
备受瞩目的蚂蚁金融大模型揭开面纱。9月8日,蚂蚁集团在外滩大会上正式发布金融大模型,其主要基于蚂蚁基础大模型,针对金融产业深度定制,底层算力集群可达到万卡规模。据悉,目前,蚂蚁金
2023-09-08 23:01:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
...的形式,揭秘人工智能产业进阶的底层逻辑。在对谈中,蚂蚁集团副总裁、数字医疗健康事业部总经理张俊杰表示: AI 时代的到来会给医疗行业换引擎,以前可能是汽车引擎,现在可能直接装
2025-08-03 06:45:00
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可
2023-11-06 15:25:00
全球AI安全评估测试有了新基准
...内免受威胁和漏洞侵害。《大语言模型安全测试方法》以蚂蚁集团为牵头单位,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型安全风险分类、攻击
2024-04-25 04:00:00
蚂蚁医疗大模型解决方案正式发布!医院、医生、用户三大产品体系升级
快科技3月21日消息,蚂蚁集团正加码AI医疗产业布局,对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医
2025-03-21 20:59:00
更多关于科技的资讯:
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00