• 我的订阅
  • 科技

两大AI模型性能提升 登上国际榜单

类别:科技 发布时间:2025-01-16 11:45:00 来源:爱云资讯

近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCLLeaderboard总榜单第一。

两大AI模型性能提升 登上国际榜单

据悉,榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o领先11分,比排名第十的Gemini-1.5-Pro领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B模型位列OpenLLMLeaderBoardv2榜单第一。OpenLLMLeaderboardV2是由HuggingFace维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

两大AI模型性能提升 登上国际榜单

据公开报道,2023年初,盛大集团宣布AllinAI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-16 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...的机器人应用提供了重要支持。SergeyLevine,来自加州大学伯克利分校。他专注于将深度学习与机器人技术相结合,使得机器人能够通过视觉感知和动作执行来完成复杂的任务,为工
2024-03-24 08:39:00
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...何呢?近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力
2023-08-18 12:00:00
...面表现优异,在英文方面表现同样不俗。由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学等高校联合打造的全球性大规模多任务语言理解评测基准MMLU,在集合了科学、工程、数学、人
2023-09-02 14:12:00
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...度缩短)。 华人一作这项研究由来自Meta FAIR、加州大学伯克利分校、纽约大学的研究人员共同提出。论文一作为华人学者Tianhao Wu
2024-10-29 09:58:00
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...an Scaling Model Parameters)[2]。论文作者包括:美国加州大学伯克利分校博士研究生查理·斯内尔(Charlie Snell)
2024-09-20 13:33:00
马云再次现身引热议!DeepSeek爆火,阿里巴巴能否借势AI?
...美元的云计算费用训练出一种新的推理模型。而加州大学伯克利分校Pan Jiayi团队也以30美元的低成本复刻了DeepSeek R1-Zero的核心功能值得一提的是
2025-02-11 23:33:00
阿里推出全新推理模型:仅1/21参数媲美DeepSeek R1
...nch、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中
2025-03-06 07:42:00
...中时期,他在中国的一所学校就读,本科毕业于加州大学伯克利分校。加入OpenAI前,他曾在Meta和Instagram工作过
2024-02-28 10:40:00
...100 GPU仅进行26分钟训练便达成目标。美国加利福尼亚大学伯克利分校研究团队最近也开发出一款名为TinyZero的精简AI模型
2025-02-27 05:08:00
更多关于科技的资讯:
“跨界玩家”涌现,追觅、MOVA、TCL正用AI重划家电版图|硬氪直击IFA2025
编者按:2025年IFA(柏林国际电子消费品展览会),中国厂商又一次攻占会场。坐拥全球最完善、复杂的供应链,储备下数量最多
2025-09-07 10:05:00
8月26日,太原重工股份有限公司发布《2025年半年度报告》。上半年,太原重工实现营业收入47.59亿元,同比增长30
2025-09-07 08:20:00
海信IFA再亮相,海信棉花糖Ultra全家筒首次登上国际舞台
9月5日,全球顶级消费电子盛会——德国柏林国际电子消费品展览会(IFA2025)迎来海信的重磅动作:海信正式官宣成为2026 FIFA世界杯官方合作伙伴
2025-09-07 12:18:00
petgugu亮相IFA 2025:冲水式智能猫马桶引爆全球智能养宠新潮流
IFA柏林国际电子消费品展览会是全球最具影响力的消费科技盛会之一,与CES、MWC并列为行业三大展会。作为全球创新风向标
2025-09-07 18:45:00
三年研发获专利341项!乖宝宠物自有品牌业务达35亿
齐鲁晚报·齐鲁壹点 陶春燕乖宝宠物食品集团股份有限公司成立于2006年,专注于宠物犬猫食品研发、生产和销售,提供符合犬猫天性的全生命周期营养解决方案
2025-09-07 21:43:00
日销25万只!莘县新立信“立信烤鸡”全国销量领先
齐鲁晚报·齐鲁壹点 陶春燕莘县新立信食品科技有限公司是一家专业鸡肉调理品生产企业,公司有完善的质量管控体系、食品安全检验检测体系
2025-09-07 21:45:00
围标串标!理工光科被3年禁入网络空间部队采购
近日,军队采购网发布关于对武汉理工光科股份有限公司失信处理公告。经调查核实,武汉理工光科股份有限公司在参加项目编号:2024-JC20-F1111采购活动中
2025-09-07 21:45:00
2025中国国际时装周(秋季)在京开幕,首秀数量超140场
中国青年报客户端讯(实习生 蔡熙妍 中青报·中青网记者 张敏)中国传统文化与当代时尚服饰结合,北京再次化身时尚之都。9月5日
2025-09-07 22:44:00
●厦门日报全媒体记者 吴君宁在今年投洽会上,当投资者走进厦门国际会展中心B1馆,将感受到一场精心编排的资本“芭蕾”:展馆划分出中央舞台
2025-09-07 08:49:00
威马汽车官宣9月复产 温州市场部门7月曾发布信息:组建汽车产业复工复产服务专班
大皖新闻讯 9月6日,停更两年多后,威马汽车官方微信号发布《致供应商白皮书》,透露出复工复产的希望,让这家曾在两年多前不断传出负面消息的造车新势力车企
2025-09-07 11:17:00
四个90后拼出一条亿元产业链
9月3日,贵州镇宁产业园。27岁的姚秉忠坐在办公室里一边查看订单,一边算账。在他身后的仓库里,几十名工人正将国家地理标志产品——镇宁小黄姜装入印有“黔货云仓”的定制纸箱
2025-09-07 11:56:00
双奖全球见证:海信洗衣机获IFA官方创新与科技价值双重认证
2025年9月5日,柏林国际电子消费品展览会(IFA2025)现场,当海信三筒洗衣机——棉花糖Ultra全家筒荣获IFA官方颁发的“最佳设计奖”时
2025-09-07 13:24:00
“组团作战”研发一种高品质汽车用钢创新联合体,解汽车制造业“痛点”日前,一个好消息从长城汽车股份有限公司传来:一种新研发的纯锌镀层热成形钢
2025-09-07 07:50:00
第六届金芦苇工业设计奖精品展开幕汇聚13个国家及地区的500余件佳作河北日报讯(见习记者李畅)9月1日,由雄安新区未来工业设计研究院主办
2025-09-06 08:32:00