• 我的订阅
  • 科技

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

类别:科技 发布时间:2025-09-26 16:48:00 来源:海外网

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

责编:秦雅楠、王瑞景

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-09-27 05:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型和杭州智诊科技的WiseDiag分列第二
2025-03-04 10:34:00
联合国AI for Good峰会发布优秀案例:蚂蚁AI健康管家AQ获选
...期间,官方正式公布2025“人工智能向善”创新案例集,蚂蚁集团旗下AI健康应用AQ获选“优秀案例奖”, 来自阿里巴巴达摩院、GE(美国通用)、华为等相关项目一同入围。该峰会由
2025-07-11 13:01:00
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
备受瞩目的蚂蚁金融大模型揭开面纱。9月8日,蚂蚁集团在外滩大会上正式发布金融大模型,其主要基于蚂蚁基础大模型,针对金融产业深度定制,底层算力集群可达到万卡规模。据悉,目前,蚂蚁金
2023-09-08 23:01:00
对话蚂蚁集团张俊杰:AI 如何重塑医疗健康产业?
...的形式,揭秘人工智能产业进阶的底层逻辑。在对谈中,蚂蚁集团副总裁、数字医疗健康事业部总经理张俊杰表示: AI 时代的到来会给医疗行业换引擎,以前可能是汽车引擎,现在可能直接装
2025-08-03 06:45:00
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...4B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可
2023-11-06 15:25:00
全球AI安全评估测试有了新基准
...内免受威胁和漏洞侵害。《大语言模型安全测试方法》以蚂蚁集团为牵头单位,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。它提出了大语言模型安全风险分类、攻击
2024-04-25 04:00:00
蚂蚁医疗大模型解决方案正式发布!医院、医生、用户三大产品体系升级
快科技3月21日消息,蚂蚁集团正加码AI医疗产业布局,对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,蚂蚁联合华为医疗卫生军团、阿里云等推出“蚂蚁医
2025-03-21 20:59:00
...营方——微医控股的微医医疗大模型以总分94.7分,力压蚂蚁医疗大模型和WiseDiag等知名大模型成为榜首。不仅如此
2025-03-11 19:42:00
...性、语义相关性与多平台适配三大挑战。根据第三方权威评测机构的量化报告,行业评估主要从四个维度展开:技术实力(40%):包括自研算法成熟度、响应速度、语义匹配与合规能力平台覆盖
2025-10-27 14:20:00
更多关于科技的资讯:
武汉智博会:三翼鸟小场景蕴含大智慧
随着技术变革与消费升级的交织演进,智能家居领域逐渐从单品智能向全屋智能加速升级。在这一过程中,面对越来越多的设备数量,纷繁复杂的产品功能
2025-11-05 21:22:00
家电院评测:海尔智家APP获评“数字孪生3D智慧家庭”
智慧家能被完整“搬”进手机吗?答案是肯定的。日前,海尔智家APP正式上线“3D智慧家庭视图”功能,将平面的APP操控变成3D立体化的可视家
2025-11-05 21:24:00
禾蛙以AI智能体+定向顾问筛选,助力新能源出海项目顺利交付
当前新能源行业蓬勃发展,企业出海已成新常态。然而,海外人才招聘却成为许多企业面临的共同难题——既要精准匹配行业经验与资质
2025-11-05 21:25:00
在武汉智博会,看见三翼鸟智慧家庭的3个进阶
当2025国际(武汉)智能建造产业博览会以前沿科技叩问居住未来时,三翼鸟在核心展区的呈现,正在印证行业的一个关键转变:智能家居的竞争
2025-11-05 21:25:00
在快节奏的现代餐饮业中,商用炒菜机器人以其高效、稳定、卫生的特点,逐渐成为各大餐厅、食堂后厨的得力助手。今天,我们特别推荐包括鸿博智成在内的10款商用炒菜机器人
2025-11-05 21:26:00
中国东航×MSC邮轮首推“航空+邮轮”梦旅计划
记者从中国东航获悉,2025年11月5日起,中国东航将与全球著名邮轮品牌MSC地中海邮轮正式启动国内首个“航空+邮轮”联合会员计划——“东方航空MSC地中海邮轮联合会员”
2025-11-05 15:29:00
海工核心装备自主化取得新突破全国首台(套)船用SCV模块化装置成功交付南报网讯(通讯员张正平记者张希)近日,由江宁高新区企业中圣科技集团旗下中圣高科公司自主研发的全国首台(套)应
2025-11-05 08:17:00
□南京日报/紫金山新闻记者余梦娇通讯员彭蓉10月31日,在“向栖霞·享未来”2025年栖霞区秋季引才校园行南京财经大学站专场招聘会上
2025-11-05 09:56:00
智艺共生:AI赋能传播设计研究生作品展开幕
展览开幕历经三十余载积淀与发展,中国传媒大学广告与品牌学院以教学、科研与创意实践的融合创新,持续引领设计教育的前沿进程
2025-11-05 10:56:00
大皖新闻讯 11月5日,威马汽车在其官方微信号发布消息称,“我们很高兴地宣布,小威随行APP于2025年11月5日重新上线iOS和Android平台
2025-11-05 11:00:00
钉钉AI表格支持千万热行,超复杂实时计算真实可用
11月5日,钉钉AI表格宣布成为业内首个单表容量支持1000万热行的智能表格,目前已率先应用于“老字号”餐饮德香苑烤鸭等多家连锁零售
2025-11-05 11:23:00
沂南农商银行:助力科技企业打造新领域标杆
鲁网11月5日讯一根摩丝仅比头发丝略粗一点,但中间却是空的,这款膜组件直径36毫米,里面装了2000多根摩丝,直径最大的膜组件超过600毫米
2025-11-05 11:44:00
科技为骨,情感为魂:米连科技如何用温度重塑品牌连接
在竞争激烈的市场中,技术和服务是骨架,而品牌情感则是血肉。米连科技的过人之处,在于它成功地将“帮助用户获得爱与归属感”这一企业使命
2025-11-05 13:58:00
2025留学机构推荐:高口碑中介综合评测
在当前全球教育交流日益频繁的趋势下,越来越多的学生选择出国深造,出国留学中介机构因此承担起连接国内外教育资源的重要角色
2025-11-05 11:09:00
在线许愿,“听劝”的Leader统帅成了年轻人最想@的家电品牌
一条评论区里的留言,一次产品论坛里的建议,甚至是一段短视频下的“许愿”……这些散落在互联网角落的零散声音,正被统帅仔细收集起来
2025-11-05 11:07:00