• 我的订阅
  • 科技

两大AI模型性能提升 登上国际榜单

类别:科技 发布时间:2025-01-16 11:45:00 来源:爱云资讯

近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCLLeaderboard总榜单第一。

两大AI模型性能提升 登上国际榜单

据悉,榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o领先11分,比排名第十的Gemini-1.5-Pro领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B模型位列OpenLLMLeaderBoardv2榜单第一。OpenLLMLeaderboardV2是由HuggingFace维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

两大AI模型性能提升 登上国际榜单

据公开报道,2023年初,盛大集团宣布AllinAI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-16 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...的机器人应用提供了重要支持。SergeyLevine,来自加州大学伯克利分校。他专注于将深度学习与机器人技术相结合,使得机器人能够通过视觉感知和动作执行来完成复杂的任务,为工
2024-03-24 08:39:00
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...何呢?近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力
2023-08-18 12:00:00
...面表现优异,在英文方面表现同样不俗。由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学等高校联合打造的全球性大规模多任务语言理解评测基准MMLU,在集合了科学、工程、数学、人
2023-09-02 14:12:00
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...度缩短)。 华人一作这项研究由来自Meta FAIR、加州大学伯克利分校、纽约大学的研究人员共同提出。论文一作为华人学者Tianhao Wu
2024-10-29 09:58:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...an Scaling Model Parameters)[2]。论文作者包括:美国加州大学伯克利分校博士研究生查理·斯内尔(Charlie Snell)
2024-09-20 13:33:00
马云再次现身引热议!DeepSeek爆火,阿里巴巴能否借势AI?
...美元的云计算费用训练出一种新的推理模型。而加州大学伯克利分校Pan Jiayi团队也以30美元的低成本复刻了DeepSeek R1-Zero的核心功能值得一提的是
2025-02-11 23:33:00
阿里推出全新推理模型:仅1/21参数媲美DeepSeek R1
...nch、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中
2025-03-06 07:42:00
...中时期,他在中国的一所学校就读,本科毕业于加州大学伯克利分校。加入OpenAI前,他曾在Meta和Instagram工作过
2024-02-28 10:40:00
...100 GPU仅进行26分钟训练便达成目标。美国加利福尼亚大学伯克利分校研究团队最近也开发出一款名为TinyZero的精简AI模型
2025-02-27 05:08:00
更多关于科技的资讯:
智慧助老,温暖相伴!龙岩联通开展线下“联通客户日”活动
东南网龙岩1月29日讯(通讯员 曹可煊)1月,龙岩联通新罗分公司、漳平分公司在营业厅如期举行“联通客户日”专属活动。作为每月常态化的客户互动专场
2026-01-29 21:07:00
一颗播州辣椒的全球之旅
多彩贵州网讯 在黔北播州的绵延青山之间,一颗颗红彤彤的辣椒经过烘烤后,被集中送往位于石板镇国际辣椒产业园的遵义中椒生物科技有限公司
2026-01-29 17:49:00
科力装备携手华为云深化智能制造,打造汽车零部件行业数智化升级标杆
日前,工业和信息化部、教育部、市场监管总局、国家数据局四部门联合印发《汽车行业数字化转型实施方案》(以下简称《实施方案》)
2026-01-29 18:25:00
随着AI(人工智能)技术飞速发展,一种被称为OPC(One Person Company,一人公司)的新型创业形态正在兴起
2026-01-29 18:59:00
“咪咕阅读”正式升级为“咪咕悦看”,以文剧融合新生态践行数字文化发展使命
从追求流量到追求质量,微短剧行业正迈向精品化与主流化的升级之路,拥有大量好内容的网络文学是微短剧发展的重要推动力。咪咕阅读率先以“文剧融合”为抓手
2026-01-29 14:24:00
星聚会KTV中国香港双店同开
2026年1月27日,星聚会KTV(以下简称星聚会)正式官宣,中国香港铜锣湾V Point店与兰桂坊加州大厦店双店同步盛大启幕
2026-01-29 14:34:00
星巴克中国发布一季度财报 营收连续五个季度增长
1月28日晚,星巴克发布2026财年第一季度业绩报告,营收实现双位数增长,同店销售额连续三个季度正增长。营收连续五个季度增长
2026-01-29 15:24:00
五大优化精准惠民,2026年郯城县以旧换新再发力
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:44:00
惠民2800余万元!郯城县以旧换新释放消费新动能
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:46:00
注意力差、上课走神、做事拖拉磨蹭?这可能是学习能力需要“专业锻炼”的信号
鲁网1月29日讯学习困难是儿童成长过程中常见的问题,严重影响孩子的学业成绩和心理健康。因此,建立科学的筛查和干预机制,对于早期发现和解决学习困难问题至关重要
2026-01-29 15:35:00
科学探秘 巧手求真 观湖社区伯努利实验点亮青少年科学梦
“原来流动的空气真的有力量!”“乒乓球居然能悬浮在空中不掉下来!”近日,苏州工业园区唯亭街道观湖社区阿里博士实验室内欢呼声此起彼伏
2026-01-29 11:28:00
大皖新闻讯 1月28日晚间,星巴克发布2026财年第一季度业绩报告,中国市场延续强劲增长势头,营收实现双位数增长,同店销售额连续三个季度正增长
2026-01-29 12:51:00
京东携机器人亮相乡村舞台 光明村首届“村晚”科技感拉满
当智能机器人遇上“村晚”,科技与年味会碰撞出怎样的精彩?1月28日,江苏宿迁来龙镇光明村热闹非凡,由京东打造的首届“村晚”正式上演
2026-01-29 13:13:00
“溪山模式+溪有物种实践”赋能科创:从商业航天到核聚变
2026年1月22日,NSE2026第四届新物种进化大会暨2026溪山天使年会在北京大北农凤凰国际创新园隆重举行。这场由溪山天使汇
2026-01-29 13:14:00
爱喏与宅智造达成战略合作:融合产品体系与服务网络,打造高效家装新平台
近日,融合产品设计与实用美学的健康水生态品牌“爱喏”与国内领先的一站式建材服务商“宅智造”建材超市正式签署战略合作协议
2026-01-29 13:16:00