• 我的订阅
  • 科技

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

类别:科技 发布时间:2024-10-30 09:52:00 来源:机器之心Pro

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

D-FINE 的作者均来自中国科学技术大学。第一作者为中科大在读博士生彭岩松 (https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN),其研究方向为实时目标检测以及神经形态视觉,已在 AAAI、ICCV、CVPR 等国际顶级会议上以第一作者身份发表多篇论文。本文由吴枫教授、孙晓艳教授和张越一副研究员共同指导,其他作者包括中科大博士生李和倍及硕士生吴沛熹。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。

为了打破这一瓶颈,来自中科大的研究团队提出了 D-FINE,重新定义了边界框回归任务。不同于传统的固定坐标预测,D-FINE 创新了两种方法:细粒度分布优化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。通过将回归任务转化为细粒度的分布优化任务,D-FINE 不仅显著简化了优化难度,还能够更精确地建模每条边界的不确定性。此外,D-FINE 将定位知识 (Localization Knowledge) 融入到模型输出,通过高效的自蒸馏策略在各层共享这些知识,因而在不增加额外训练成本的前提下,实现了性能的进一步显著提升。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

论文标题: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement 论文地址: https://arxiv.org/abs/2410.13842 项目地址: https://github.com/Peterande/D-FINE

凭借这些创新,D-FINE 在 COCO 数据集上以 78 FPS 的速度取得了 59.3% 的平均精度 (AP),远超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等竞争对手,成为实时目标检测领域新的领跑者。目前,D-FINE 的所有代码、权重以及工具已开源,包含了详细的预训练教程和自定义数据集处理指南。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

视频链接:https://mp.weixin.qq.com/s/olVR2MoznWwhKM5QwonlgA

研究团队分别使用 D-FINE 和 YOLO11 对 YouTube 上的一段复杂街景视频进行了目标检测。尽管存在逆光、虚化模糊和密集遮挡等不利因素,D-FINE-X 依然成功检测出几乎所有目标,包括背包、自行车和信号灯等难以察觉的小目标,其置信度、以及模糊边缘的定位准确度明显高于 YOLO11x。

细粒度分布优化 (FDR)

FDR (Fine-grained Distribution Refinement) 将检测框的生成过程分解为:

1.初始框预测:与传统 DETR 方法类似,D-FINE 的解码器会在第一层将 Object Queries 转换为若干个初始边界框。这些边界框只用于初始化,不需要特别精确。

2.细粒度的分布优化:与传统方法不同,D-FINE 的解码层不会直接预测新的边界框,而是基于初始边界框生成四组概率分布,并通过逐层优化对其进行调整。这些概率分布本质上是检测框的一种「细粒度中间表征」。D-FINE 可以通过微调这些表征,不同幅度地独立调整各边缘。

具体流程如图所示:

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

将边界框回归任务重新定义为 FDR 有以下优点:

1.过程简化:在传统 L1 损失和 IoU 损失进行优化的基础上,模型还通过标签和预测结果之间的「残差」进一步约束这些中间态的概率分布。这使得每个解码层能够更有效地关注当前的定位误差。随着层数增加,优化的目标变得更加简单,从而简化了整体的优化过程。

2.对复杂场景的鲁棒性更强:FDR 中概率的高低本质上反应了模型对边界微调的自信程度。这使得 D-FINE 能够在不同网络深度下对每条边的不确定性独立建模,从而使模型真正地理解定位的好坏。在遮挡、运动模糊和低光照等复杂的实际场景下,D-FINE 表现出了更强的鲁棒性,相比直接回归四个固定值的方法要更为稳健。

3.灵活的优化机制:D-FINE 通过加权求和将概率分布转化为最终的边界框偏移值。指数型加权函数 W (n) 保证了能够在初始框准确时进行细微调整,在必要时提供大幅度修正。

4.可扩展性:FDR 通过将回归任务定义为同分类任务一致的概率分布预测问题,这使得目标检测模型可以更好地受益于知识蒸馏、多任务学习和分布优化等更多领域的创新,从而更有效地适应和整合新的技术,突破传统方法的局限。

全局最优定位自蒸馏机制 GO-LSD

GO-LSD (Global Optimal Localization Self-Distillation) 可以将知识蒸馏无痛应用到 FDR 框架检测器。

基于 FDR 框架的目标检测器既可以实现知识传递,又可以保持一致的优化目标。

新任诺贝尔物理学奖得主 Geoffrey Hinton 在《Distilling the Knowledge in a Neural Network》一文中提到:概率即 「知识」。FDR 将概率分布变成了网络输出,并搭载了定位知识 (Localization Knowledge)。因此,仅计算 KL 散度损失就能将这些「知识」从深层传递到浅层。由于 FDR 架构中每一个解码层都共享一个共同目标,即减少初始边界框与真实边界框之间的残差。因此最后一层生成的精确概率分布可以作为前面每一层的最终目标,并通过蒸馏引导前几层。

由于 FDR 架构中每一个解码层都共享一个共同目标:减少初始边界框与真实边界框之间的残差;因此最后一层生成的精确概率分布可以作为前面每一层的最终目标,并通过蒸馏引导前几层。

研究团队在 FDR 的框架上进一步提出了全局最优定位自蒸馏 GO-LSD,在网络层间实现了定位知识蒸馏,进一步扩展了 D-FINE 的能力,具体流程如图:

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

FDR 与GO-LSD 产生了一种双赢的「合力」:随着训练的进行,最后一层的预测将变得越来越准确,其生成的软标签也能够更好地帮助前几层提高预测准确性。反过来,前几层将更快地定位到准确位置。这相当于深层的优化任务得到了简化,从而进一步提高了整体准确性。

实验结果

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

在 COCO 数据集上,D-FINE-L 和 D-FINE-X 分别以 8.07 ms (124 FPS)和 12.89 ms (78 FPS)的时延取得了 54.0%和 55.8%的 AP,远超其余所有实时目标检测器,打败了 YOLOv10 (53.2%,54.4%)、YOLO11 (53.4%,54.7%) 及 RT-DETRv2 (53.4%,54.6%)。

在 Objects365 上进行了简单的有监督预训练后,D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和性能都远超其他方法,取得了 Top1 的成绩。

相比 baseline RT-DETR,D-FINE-L 和 D-FINE-X 大幅降低了参数量和计算复杂度。在推理速度显著提升的同时,分别取得了 1.8% 和 3.2% 的显著性能提升。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

更轻量化的 D-FINE-S 和 D-FINE-M 在 T4 GPU 上分别以 3.49 ms (287 FPS) 和 5.62 ms (178 FPS) 的时延下取得了 48.5% 和 52.3% 的 AP,超过 YOLOv10 (46.3%,51.1%)、YOLO11 (46.6%,51.2%) 及 RT-DETRv2 (48.1%,49.9%)。预训练后,D-FINE-S 和 D-FINE-M 分别取得了 50.7% 和 55.1% 的 AP。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

虽然 FDR 和 GO-LSD 能够显著提高性能,但不会直接让网络更快或更轻。为了解决这个问题,研究团队对 DETR 架构进行了轻量化处理。这些调整不可避免地让性能有所下降,但 D-FINE 方法最终实现了速度、参数、计算量与性能的平衡。下表展示了从 baseline 到 D-FINE 的逐步修改过程。每一步都含展示了模型在 AP 、参数量、时延以及 FLOPs 上的变化。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

研究团队对一系列非实时的 DETR 检测模型应用了 FDR 和 GO-LSD。实验证明,在几乎没有额外参数量和算力的情况下,最高提升了 5.3% 的 AP,证明了方法的鲁棒性和泛化性。

根据消融实验,含有 FDR 的检测器和原始检测器在速度、参数量和计算复杂度上几乎没有区别,可以实现无缝替换。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

研究团队分析了训练成本,发现额外的时间和显存消耗主要来自生成用于监督分布的 FGL Loss 标签。通过对 D-FINE 进行的进一步优化,这些额外的训练时间和显存占用被控制在 6% 和 2% 以内,对整体影响很小。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

D-FINE 预测的可视化

以下是 D-FINE 在各种复杂检测场景中的预测结果。这些场景包括遮挡、低光照、运动模糊、景深效果和密集场景。可以看出,面对这些具有挑战性的场景,D-FINE 能够产生准确的定位结果。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

下图展示了第一层和最后一层的预测结果、对应四条边的分布、以及加权后的分布。可以看出,预测框的定位会随着分布的优化而变得更加精准。

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务

总结和局限

D-FINE 将边界框回归转化为逐层优化的概率分布预测,显著提升了模型在多任务场景中的兼容性。D-FINE 为目标检测模型的设计提供了一条新思路,后续可以考虑进一步挖掘 D-FINE 在跨任务学习和模型轻量化方面的潜力。

D-FINE 也有一些局限:相比于大模型, D-FINE 的轻量化版本对于性能提升不太明显。这可能是因为浅层解码器的预测精度不高,无法有效将定位信息传递给前几层。

未来的研究可以考虑在提高轻量化模型定位能力的同时,避免增加推理延迟。一种思路是继续改进架构设计,尝试在训练时引入额外的异构解码层,在推理时丢弃这些层,保持模型的轻量化。如果训练资源足够,还可以直接用大模型对小模型进行蒸馏,而不是依赖自蒸馏。

思考和展望

2024 年,实时目标检测领域经历了多次版本迭代,YOLO 系列先后推出了 YOLOv9、YOLOv10,以及 YOLO11。而 DETR 系列则在 RT-DETR 之后,陆续推出了 LW-DETR、RT-DETRv2 和 RT-DETRv3。

这两类模型的重要突破,实质上得益于相互借鉴和融合。RT-DETR 引入了 YOLO 的 RepNCSP 模块,以替代冗余的多尺度自注意力层,通过重新设计轻量化的混合编码器,实现了实时 DETR;而 YOLOv10 借鉴了 DETR 的匹配策略,通过训练额外的一对一检测头,对密集 anchor 预测进行自动筛选,避免了 NMS 后处理,显著提升了速度。此外,YOLOv10 和 YOLO11 也引入了自注意力机制,进一步增强了大尺度目标的检测性能。

尽管这些改进取得了显著的效果,但社区对未来的发展方向产生了疑问:在两类模型趋于一致的背景下,实时目标检测的下一步将如何发展?可以预见,在目标检测这一竞争激烈的领域,继续进行模块替换的收益将逐渐减少,可能很快遇到瓶颈。

而基于传统框架的训练策略改进,或许对一些旧的网络(如常用的 Deformable DETR)有效,但应用于最新的 SOTA 网络时,往往难以取得明显的提升,甚至可能产生负面影响。特别是对于计算资源有限的小型团队,即使是精妙的训练策略,若缺乏大规模的超参数搜索,也难以取得预期的效果。

D-FINE 的出现,为目标检测带来了全新的思路。通过引入 FDR 和 GO-LSD,D-FINE 重新定义了目标检测中的边界框回归任务。这种创新有望突破当前的瓶颈,为实时目标检测领域提供新的发展方向。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...似于文档对象模型(DOM),以及一个叠加潜在可交互元素边界框的屏幕截图。可交互区域检测(Interactable Region Detection)从用户界面屏幕中识别出「可交互区域」非常关键
2024-10-28 09:51:00
中国科大提出视觉与波动特征融合的异常检测框架
...学获悉,地下异常探测的核心挑战在于如何从结构复杂、边界模糊的物理成像数据中,准确识别异常的位置与类型,该校陈欢欢、周熙人团队,针对这一问题,提出了一种全新的地下异常检测框架—
2025-12-20 11:05:00
...超执法部门开展联合治超执法行动,实现了株洲区域湘赣边界治超全覆盖,形成了区域治超合力,取得了明显成效。联合治理机制完善。两市紧扣《湘赣边区域治理货物运输车辆超限超载合作协议》
2024-09-02 17:33:00
本文转自:人民网-安徽频道为进一步推动城镇开发边界划定成果精准落地,优化统筹县域协调发展格局,实施高效能空间治理,根据安徽省自然资源厅关于印发《安徽省城镇开发边界局部优化工作方案
2025-03-27 10:36:00
...了广泛共鸣。调侃背后却是一个不容忽视的现实:教育的边界变得越来越模糊,家长正被推向“半个老师”的位置。这种现象其实是家校协同的异化,表面上是家庭教育的积极参与,实则是学校教育
2025-11-13 12:06:00
...。这些规范的具体要求是什么?在学术写作中,AI使用的边界在哪儿?AI参与学术论文写作已非常普遍如今,AI工具越来越丰富,也越来越“智慧”,AI参与学术论文写作已非常普遍。今年
2024-12-03 16:24:00
工信部:驾驶员未规范使用驾驶辅助功能的 车辆应具备禁止激活限制策略
...指南》中明确提出,企业应明确行车辅助功能的明确系统边界,包括道路类型、道路基础设施、天气条件、对其他道路使用者行为的响应能力等,验证智能网联汽车产品具有探测和响应系统边界的能
2025-02-28 19:07:00
AI用于写毕业论文,边界在哪儿?多所高校发文规范
...确标注所有使用AI工具的部分。毕业论文(设计)使用AI边界在哪里?伴随着AI的大范围普及,有媒体调查显示,84%的国内大学生使用过AI工具,“一刀切”禁用人工智能的使用已经不
2024-05-16 14:36:00
...新之路,逐风而行。相信只要不断用创新精神拓展技术新边界,我们一定能在科技强国的道路上书写出新篇章,铸造出更多大国重器。 《 人民日报 》( 2025年01月09日 06 版)
2025-01-09 06:18:00
更多关于科技的资讯:
具身智能企业融资近 20 亿元每日商报讯 马年春节假期前后,杭州企业上市与融资进程持续提速,资本市场“新春忙” 态势凸显
2026-02-25 07:20:00
河北新闻网讯(王闯、徐贵旺)近日,在开滦集团唐山矿业公司(简称“开滦山矿公司”)大井绞车提升作业现场,一项不起眼的小改造引发了员工们的热议
2026-02-24 20:46:00
河北新闻网讯(任蕊)近日,在开滦股份吕家坨矿综采一队的会议室里,采掘电钳工李彭超正通过手机反复观看一段微视频。视频中,“技术大拿”叶春海正在讲解如何查验智能化设备的数据包丢失率
2026-02-24 20:51:00
春节假期高速充电需求迎高峰 安徽交控“小程序+移动电站”护航绿色出行
大皖新闻讯 马年春节假期落幕,在春运返乡返程的车流高峰中,新能源汽车的“补能”问题成为社会关注焦点。记者从安徽交控资源公司所属交控能源公司获悉
2026-02-24 21:28:00
2月24日,粉笔(02469.HK)发布业绩预告,截至2025年12月31日,公司预计录得不少于人民币26.56亿元营收
2026-02-24 21:46:00
江南时报讯 春节期间,常州市紧扣“促消费、保供应、守安全”三条主线,提前谋划、高效落实,全力保障节日市场繁荣有序、平稳运行
2026-02-24 22:47:00
大皖新闻讯 2月24日下午,马年春节后首个工作日,合肥市科技创新引领新质生产力发展大会召开。会上,合肥市创新创业综合服务平台“创享合肥”正式发布
2026-02-24 22:03:00
出海的隐性分水岭:中小企业开始直面“品牌能力”的考验
过去几年,中国中小企业的出海进程明显提速。从新能源、智能制造到各类工业技术与解决方案型企业,越来越多公司完成了将产品推向海外市场的第一步
2026-02-24 17:15:00
服务人次958万,云迹科技机器人服务智能体全力保障春节
2026年春节期间,人工智能与具身智能技术深度融入大众节日生活,展现出从“可选项”向“必需品”转变的显著趋势。在酒店、景区
2026-02-24 17:18:00
海辰储能山东一体化零碳产业园将于二季度试生产— 一场瞄准AI时代的能源“卡位战”
鲁网2月24日讯除夕夜,黄宣田在菏泽学会了包饺子。作为厦门海辰储能科技股份有限公司(以下简称“海辰储能”)菏泽制造基地负责人
2026-02-24 17:28:00
25000㎡、300+品牌、20000+买家:亚洲户外烧烤展5月定档广州,打造全球户外生活商贸枢纽
随着露营经济等消费趋势兴起,消费者对高品质、体验式户外生活的需求日益增长,全球掀起一股烧烤热潮。从家庭聚会到户外派对,烧烤不再只是厨房的延伸
2026-02-24 17:51:00
庙会上的科技范儿
科技庙会上机器人在给市民免费送年货。机器人“店小二”在售卖饮品。机器人在和小朋友“智对诗章”。机器人舞狮表演吸引众多游客围观
2026-02-24 14:56:00
新春之际,年货市场掀起新潮流。AI眼镜、陪伴机器人、无弦吉他成为抢手货,3D打印机现做生肖模型、智能书法台挥毫送福成新景
2026-02-24 14:56:00
大麦娱乐灯塔研究院春节档洞察:总票房57.52亿,三四线城市票房近53%
2月24日,大麦娱乐旗下灯塔研究院发布《2026年春节档电影市场洞察报告》。报告显示,2026年春节档总票房达57.52亿
2026-02-24 14:58:00
理解“长途优先”背后的平衡智慧
这两天,“长途有票、短途无票”的话题在网络上引发了不少讨论。不少旅客感到困惑:明明同一趟车,为什么长途票能买到短途票却显示“无票”
2026-02-24 15:11:00