• 我的订阅
  • 科技

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

类别:科技 发布时间:2024-12-06 09:50:00 来源:量子位

豆包代码大模型,不小心给曝光了!

在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。

不过目前还只是Preview版,还并没有上线。

它在多种编程语言上的性能表现如下,可以看到在闭源模型中排名第五。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

今年6月,字节还发布了AI编程助手豆包MarsCode。据传即由Doubao-Coder模型支撑。

目前,豆包MarsCode每月为用户贡献百万量级代码。

而回到这个评估基准,据介绍FullStack Bench是目前最全面的代码评估数据集。

团队还同步开源了可随时测评代码大模型的沙盒执行环境SandBox Fusion,单服务器即可部署,也可直接在线体验。

全新代码大模型评估基准FullStack Bench

既然如此,那就先来了解一下这个最新评估基准。

有一说一,现在代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级~

代码评估基准可以帮助代码大模型不断优化。不过,当前的主流基准越来越难以反映代码大模型的真实水平了。

主要体现在题目类型相对单调,覆盖的应用领域和编程语言少,模型即便在考试中拿了高分,现实中可能还是难以应对复杂的编程问题。

为了更真实地评估AI编程水平,字节豆包大模型团队联合M-A-P社区,开源了全新代码大模型评估基准FullStack Bench。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

这是一个专注于全栈编程和多语言编程的代码评估数据集,它首次囊括了编程全栈技术中超过11类真实场景,覆盖16种编程语言,包含3374个问题。

FullStack Bench的应用领域抽取自全球最大的程序员技术问答社区Stack Overflow,相比HumanEval等基准覆盖的编程领域扩大了一倍以上。

此前业界基准难以反映真实世界代码开发的多样性和复杂性。

例如,HumanEval和MBPP中近80%数据只聚焦于基础编程和高级编程问题;DS-1000中超过95%数据集中于数据分析和机器学习,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域;McEval和MDEval扩展了支持的编程语言,但应用领域仍局限于基础编程和高级编程,未涉及更广泛的场景。

为模拟全栈开发的实际应用场景,字节豆包大模型和M-A-P研究团队分析了全球最大的程序员技术问答社区Stack Overflow上的问题分布,从中提炼出常见的真实编程应用领域。

团队从Stack Overflow上随机抽取了50万个问题,并使用大模型为每个问题标注应用领域类型。

研究团队筛选出占总问题数前88.1%的主要应用领域,其余领域归类为“其他”。再通过对领域分布做适当调整来保证鲁棒性,最终形成了FullStack Bench关注的超过11种应用场景及分布比例。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

FullStack Bench包含3374个问题(中文及英文问题各占一半),每个问题均包括题目描述、参考解决方案、单元测试用例及标签,总计15168个单元测试。

为保证评估准确性,每个问题内容均由相关领域的编程专家设计,并经AI和人工验证进行质量复核。例如,数据分析相关问题,由数据工程专家提出并把关配套内容。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

在初始数据集构建后,团队根据主流代码大模型测试结果,按问题难度、模糊性和可解性对数据质量进行了交叉评估和进一步完善。

FullStack Bench数据构成情况如下图所示。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

为方便开发者对大模型代码能力进行系统性测试,豆包大模型团队还开源了一款高效的代码沙盒执行工具——SandboxFusion,用于评估来自不同语言的不同编程任务。

除了FullStack Bench,SandboxFusion还兼容超过10种广泛使用的代码评估数据集,支持23种编程语言。开发者在单服务器上即可轻松部署SandboxFusion,也可直接在GitHub上进行体验。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

评测结果:解决难题,闭源模型仍优于开源模型

发布评测基准及沙盒的同时,研究团队也基于FullStack Bench测评了全球20余款代码大模型及语言大模型的编程表现。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等开源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等闭源模型。对于开源模型,根据模型大小,分为五个组别:1B+、6B+、13B+、20B+和70B+。

跨领域表现:数学编程领域差异最大

得益于强大的推理能力,OpenAI o1-preview不出所料地领先。

不过,一些开源模型也有不错的表现。如DeepSeekCoderv2-Instruct,在AP(高级编程)、OS(操作系统)和其他类别中得到高分,拉开了与其他开源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自开源组别中拔得头筹,并超越了一些更高参数级别的模型。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

为了全面评估现有大语言模型在不同场景下的表现,研究团队可视化了模型在FullStack Bench各领域的表现。

在BP(基础编程)、AP(高级编程)、MA(数学编程)、ML(机器学习)和MM(多媒体)等领域中,模型表现差异显著,其中以MA领域的差距最大。

MA最佳表现者为OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。数学编程要求模型同时具备数学和编程能力,那些在高度专业化代码语料库上训练的模型,在MA领域往往表现较差。

这一结果进一步证明,FullStack Bench能够更全面地评估模型的综合编程能力。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

跨语言表现:C++、C和Ruby上存较大差异

研究团队对不同模型在多种编程语言上的性能表现进行了分析。

大多数模型在Bash编程任务中表现良好。然而,在C++、C和Ruby的表现上存在较大差异,这表明模型设计者可能在训练语料库中对这些语言进行了选择性采样。部分1B+的小型模型在D、R和Scala语言上的表现较差,其通过率低于10%,这表明它们的多语言处理能力都较弱。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

由于SandboxFusion提供了来自编译器的反馈,研究人员评估了模型在部分编程语言上的编译通过率。实验结果表明,编译通过率与测试通过率之间存在正相关关系,但编译通过并不意味着测试一定通过。同时,研究还探讨了中英文表达对模型性能的影响。

解决难题,闭源模型普遍优于开源模型

不同模型在不同难度问题上的表现存在明显差异。总体而言,1B+模型和CodeLlama系列在所有难度级别上的表现均不尽如人意。其余模型在解决简单问题时表现相似,但在中等难度问题上存在一定差距。对于难度较大的问题,闭源模型普遍优于开源模型。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

使用SandboxFusion,可提升模型表现

研究人员对比了“反思策略(Reflection)”和“N次推断策略(BoN)”两种策略。在Reflection策略中,通过利用SandboxFusion的反馈上下文对答案进行N次精炼,复现了自我精炼策略 [Madaan et al., 2024]。而在BoN策略中,仅进行N次推断以获得结果。

结果如图所示,“Reflection”策略明显优于“BoN”,这表明SandboxFusion提供的反馈上下文具有较高的有效性。

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

了解这篇研究的详情,可见文内Arxiv链接,或关注「豆包大模型团队」公众号,查阅更详细解读。

参考链接:[1]论文链接:https://arxiv.org/pdf/2412.00535v2[2]数据集开源地址:https://huggingface.co/datasets/ByteDance/FullStackBench[3]沙盒开源地址:https://github.com/bytedance/SandboxFusion[4]沙盒体验入口:https://bytedance.github.io/SandboxFusion/playground/datasets

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-06 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节跳动发布“豆包 MarsCode”AI 代码工具:国内开发者免费
字节跳动昨日在北京发布了 AI 开发工具 —— 豆包 MarsCode ,面向国内开发者免费开放。豆包 MarsCode 编程助手
2024-06-27 09:42:00
...索功能小米浏览器宣布已升级“AI搜索”功能,通过接入豆包大模型及火山方舟高代码智能体产品,进一步提升了AI搜索的效率与服务丰富度。同时,小米应用商店接入火山引擎扣子,用户通过
2025-08-04 19:12:00
字节跳动向大模型大乱斗扔出一个豆包
...首个大模型独立 App 今天上线,是一个 AI 对话产品,叫 " 豆包 "。不知道豆包是不是 "dou bot" 的谐音
2023-08-18 23:01:00
年轻人的「AI自由」,是它给的
...国内用户规模最大的,可能是字节跳动旗下的AI产品——豆包。据QuestMobile统计,2024年3月,豆包App月活用户2328
2024-07-13 14:45:00
豆包大模型1.5 Pro正式发布:比GPT-4o更强
快科技1月22日消息,今天,豆包大模型1.5 Pro版本正式发布。目前,该大模型已在豆包APP灰度上线,开发者也可在火山引擎直接调用API。字节跳动表示,豆包大模型1.5 Pro
2025-01-22 15:01:00
字节发布豆包1.5深度思考模型:“实拍级”图像生成
...,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,
2025-04-17 11:54:00
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...ts。2023年12月底,Coze就低调地先在海外上线了,这也是继豆包之后,字节在国内正式推出的第二款AI对话应用
2024-02-05 11:37:00
字节跳动为企业提供极具性价比的多模态大模型能力
...,在今天举办的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘
2024-12-18 17:35:00
字节扣子模型广场,给AI大模型搭了一座擂台
...用最广泛的智能应用形态,具有代表性的是ChatGPT、字节豆包、文心一言。(图源:字节扣子)大模型将重构人机交互方式,应用的终极形态可能不一定再是基于触控点按GUI(图形交互
2024-06-14 11:40:00
更多关于科技的资讯:
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00