• 我的订阅
  • 科技

两大AI模型性能提升 登上国际榜单

类别:科技 发布时间:2025-01-16 11:45:00 来源:爱云资讯

近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCLLeaderboard总榜单第一。

两大AI模型性能提升 登上国际榜单

据悉,榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o领先11分,比排名第十的Gemini-1.5-Pro领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B模型位列OpenLLMLeaderBoardv2榜单第一。OpenLLMLeaderboardV2是由HuggingFace维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

两大AI模型性能提升 登上国际榜单

据公开报道,2023年初,盛大集团宣布AllinAI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-16 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...的机器人应用提供了重要支持。SergeyLevine,来自加州大学伯克利分校。他专注于将深度学习与机器人技术相结合,使得机器人能够通过视觉感知和动作执行来完成复杂的任务,为工
2024-03-24 08:39:00
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...何呢?近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力
2023-08-18 12:00:00
...面表现优异,在英文方面表现同样不俗。由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学等高校联合打造的全球性大规模多任务语言理解评测基准MMLU,在集合了科学、工程、数学、人
2023-09-02 14:12:00
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...度缩短)。 华人一作这项研究由来自Meta FAIR、加州大学伯克利分校、纽约大学的研究人员共同提出。论文一作为华人学者Tianhao Wu
2024-10-29 09:58:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...an Scaling Model Parameters)[2]。论文作者包括:美国加州大学伯克利分校博士研究生查理·斯内尔(Charlie Snell)
2024-09-20 13:33:00
马云再次现身引热议!DeepSeek爆火,阿里巴巴能否借势AI?
...美元的云计算费用训练出一种新的推理模型。而加州大学伯克利分校Pan Jiayi团队也以30美元的低成本复刻了DeepSeek R1-Zero的核心功能值得一提的是
2025-02-11 23:33:00
阿里推出全新推理模型:仅1/21参数媲美DeepSeek R1
...nch、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中
2025-03-06 07:42:00
...中时期,他在中国的一所学校就读,本科毕业于加州大学伯克利分校。加入OpenAI前,他曾在Meta和Instagram工作过
2024-02-28 10:40:00
...100 GPU仅进行26分钟训练便达成目标。美国加利福尼亚大学伯克利分校研究团队最近也开发出一款名为TinyZero的精简AI模型
2025-02-27 05:08:00
更多关于科技的资讯:
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00
日前,中国消费者协会将2026年消费维权年主题定为“提升消费品质”。这一主题旨在构建起“供给提质、维权提效、环境优化”的全链条治理体系
2026-01-30 17:47:00
中国消费者报报道(记者施本允)面对日均667件的海量消费投诉涌来,如何更准确有效地进行分流、处置?如何聚焦高风险业态进行预警
2026-01-30 17:47:00
中国消费者报上海讯(记者刘浩)上海市虹口区消费者权益保护委员会近日发布的宠物经济消费调查结果显示,90后、00后成为宠物消费主力
2026-01-30 18:17:00
省科学技术奖,锡山+6!
为激励企业自主创新、开放合作,更好地服务国家重大战略,推进江苏高质量发展,近期江苏省政府发布了《关于2024年度江苏省科学技术奖励的决定》
2026-01-30 18:20:00
今年春运期间,中国铁路南昌局南昌西动车组运用所的智能检修机器人将发挥重要作用,这款集成多重智能技术的“检修尖兵”,实现了动车组车厢底部全自动
2026-01-30 18:23:00
日前,中新经纬研究院与国家广告研究院联合发布报告《医药出海新图景》(下称《报告》)。这是双方推出的2025中国品牌出海系列报告第9期
2026-01-30 18:44:00
一口喜旺味,岁岁皆安康,解锁新年团圆仪式感
节庆馈赠的品质选择,源自对风险管控与生产闭环的极致追求。喜旺凭借其贯穿全链路的“风险驱动+全过程控制”体系,将“安心”转化为可测量
2026-01-30 14:53:00
新消费时代植物医生的 “空间重构”:从货架到生命场的 “实体进化”
“虚拟世界缺乏信任的最终载体,如果产品有问题,顾客可以找到你。这是线下店最根本的力量。”2026年1月初,在深圳举办年会时
2026-01-30 15:11:00
章丘首店!三联家电入驻世茂广场,2月6日盛大启幕!
鲁网1月29日讯三联家电,扎根齐鲁四十一载,“买家电,到三联,三联家电,保修终生”,这句话承载着几代人的回忆,随着家电市场的不断变迁
2026-01-30 15:31:00
娇韵诗撤下彩妆代言人金晨置顶微博
大皖新闻讯 1月30日下午,大皖新闻记者注意到,娇韵诗官方微博撤下彩妆代言人金晨相关的置顶内容。目前该微博账号置顶微博为迪丽热巴相关内容
2026-01-30 15:51:00
在经济全球化深入推进的背景下,跨境贸易已成为推动经济增长的重要引擎,而高效、安全的外汇服务则是保障跨境贸易顺畅开展的关键支撑
2026-01-30 16:02:00
沂水农商银行绘就“异业联盟”新图景
鲁网1月30日讯在数字化转型与民生服务升级的双重浪潮下,沂水农商银行立足县域金融服务本源,推出“异业联盟生活圈平台”,直面发展痛点
2026-01-30 16:04:00
黄河三角洲商业再升级!大润发东营首店开业,打造 \
鲁网1月30日讯 (记者 王娟)2026 年 1 月 30 日,黄河三角洲中心城市东营迎来商业发展重要节点 ——大润发东营首店正式亮相东城万达广场
2026-01-30 16:05:00