• 我的订阅
  • 科技

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

类别:科技 发布时间:2025-09-26 16:48:00 来源:海外网

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

责编:秦雅楠、王瑞景

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-09-27 05:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型和杭州智诊科技的WiseDiag分列第二
2025-03-04 10:34:00
11月7日,蚂蚁集团CEO韩歆毅发布全员信,并宣布升级组织架构:原“数字医疗健康事业部”正式升级为“健康事业群”,并将加速推动医疗健康业务成为蚂蚁的战略支柱板块。据悉,这是蚂蚁集
2025-11-07 14:08:00
联合国AI for Good峰会发布优秀案例:蚂蚁AI健康管家AQ获选
...期间,官方正式公布2025“人工智能向善”创新案例集,蚂蚁集团旗下AI健康应用AQ获选“优秀案例奖”, 来自阿里巴巴达摩院、GE(美国通用)、华为等相关项目一同入围。该峰会由
2025-07-11 13:01:00
蚂蚁集团开源“灵波”四款模型,开启具身智能基座开源新时代,海外开发者反响热烈
...域,中国科技企业已率先迈出了更具开放意义的一步——蚂蚁集团旗下蚂蚁灵波(LingBot)团队连续开源发布了包含具LingBot-VLA具身大模型和LingBot-World世界模型在内的四款核心模型
2026-01-30 16:30:00
...的是,基地2025年度重大成果之一、由省卫生健康委联合蚂蚁集团共同打造的“安诊儿”医疗智能体,已重磅升级至3.0版本:全新上线医生端服务,全面升级患者端服务。医生端致力于成为
2025-12-21 08:22:00
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
备受瞩目的蚂蚁金融大模型揭开面纱。9月8日,蚂蚁集团在外滩大会上正式发布金融大模型,其主要基于蚂蚁基础大模型,针对金融产业深度定制,底层算力集群可达到万卡规模。据悉,目前,蚂蚁金
2023-09-08 23:01:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
...的形式,揭秘人工智能产业进阶的底层逻辑。在对谈中,蚂蚁集团副总裁、数字医疗健康事业部总经理张俊杰表示: AI 时代的到来会给医疗行业换引擎,以前可能是汽车引擎,现在可能直接装
2025-08-03 06:45:00
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可
2023-11-06 15:25:00
全球AI安全评估测试有了新基准
...内免受威胁和漏洞侵害。《大语言模型安全测试方法》以蚂蚁集团为牵头单位,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型安全风险分类、攻击
2024-04-25 04:00:00
更多关于科技的资讯:
中国科大提出常温常压绿氨合成的标准化方案
大皖新闻讯 3月14日,大皖新闻记者从中国科学技术大学获悉,该校熊宇杰教授团队提出基于等离子体和电催化耦合的绿氨合成技术的标准化实验方案
2026-03-14 21:31:00
优秀人才薪资上不封顶!“起跑春天”杭州盛会:机器人岗位受热捧
3月14日,2026“起跑春天”杭州青年人才交流大会在杭州大会展中心举办。现场很是热闹,一边是手拿简历的青年求职者,一边是求贤若渴的单位
2026-03-14 14:58:00
AWE探展|别卷参数了!容声大冰象这台“大长腿”冰箱太圈粉
鲁网3月14日讯“这台‘大长腿’冰箱太好看了!”“冷冻30天的三文鱼竟能生食!”3月12日,伴随着AWE2026开幕,不少参展者发现
2026-03-14 15:37:00
海信璀璨650U8冰箱亮相AWE:AI真空磁场保鲜引领储鲜新趋势
鲁网3月14日讯3月12日,2026年中国家电及消费电子博览会(AWE2026)正式拉开帷幕,此前于3月5日重磅发布的世界杯定制产品——海信璀璨650U8真空头等舱冰箱
2026-03-14 15:39:00
诚信为基,科技赋能!中国太保寿险以数智化让保险更安心
鲁网3月14日讯保险业正从规模扩张加速迈向以客户需求为导向,以产品、服务、队伍质量为核心的发展新阶段。在高质量发展的转型升级进程中
2026-03-14 12:03:00
合肥又添一座“AI驱动型OPC社区”
大皖新闻讯 近日,AI“养龙虾”成为全网热点。对此,多地发文支持OpenClaw&OPC发展。OPC全称One Person Company
2026-03-14 12:20:00
高校开学第一课解锁AI正确打开方式
荆楚网(湖北日报网)讯(记者唐天琪 通讯员邵国超)“如果用财务管理的指标评估你的恋爱关系,你觉得这笔‘投资’的回报率是多少
2026-03-14 12:34:00
“三天我只睡了七八个小时,其他时间都在和‘龙虾’聊天。”这是孙艾艾见到记者后说的第一句话,作为大厂后台工程师,她从“龙虾”爆火之初就沉迷于这项技术
2026-03-14 06:51:00
想一站式淘遍全球尖货、体验未来科技、邂逅国潮新品?机会来了!以“共享大市场·出口中国”为主题的“浙里买全球·消费启杭”活动
2026-03-14 06:52:00
上班的地铁上,放眼望去,尽是抱着手机刷屏的年轻人;回到家,孩子或许正在iPad上看着动画片……我们正在进入AI数字化时代
2026-03-14 07:22:00
想体验一把“小龙虾”,结果光安装就花了四五个小时。今年1月底,当一个红色龙虾图标的AI智能体OpenClaw在硅谷极客圈开始发酵时
2026-03-14 07:22:00
三联家电章丘世茂店盛大开业:抢抓“春日经济”,助力市民“焕新家”
鲁网3月13日讯春风送暖,万象更新。在这生机盎然的春日里,三联家电章丘世茂店于3月13日盛大开业。正值“春日经济”消费热潮
2026-03-13 17:40:00
一场对话 “对”出了什么?
鲁网3月13日讯“我们依托 AI 工具实现了内容快速生产,但算力成本高、高端人才缺,政策层面有什么支持?”“有支持的,我们推出了‘算力券’政策
2026-03-13 18:14:00
新华保险河北分公司以高品质服务守护千家万户
近年来,新华保险河北分公司持续推动服务升级,以高品质服务守护千家万户。在今年3·15国际消费者权益日到来之际,新华保险河北分公司党委书记
2026-03-13 20:25:00
中新经纬3月13日电 据国家金融监管总局13日消息,近日,针对互联网助贷业务问题,金融监管总局对分期乐、奇富借条、你我贷借款
2026-03-13 21:29:00