我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
8月17日消息,英伟达公司联合Meta公司发布了最新的Llama-3.1-Minitron4BAI模型,主要通过结构化权重剪枝、知识提炼等尖端技术,成功蒸馏(Distill)出40亿参数的“小而强”模型。

图源:英伟达
Llama-3.1-Minitron4B模型在Llama-3.1-Minitron8B基础上蒸馏而来,英伟达在深度和宽度方向上使用了结构化剪枝技术。
IT之家注:剪枝是一种删除网络中不那么重要的层或神经元的技术,保留其性能的情况下,目的是减小模型的大小和复杂度。
英伟达通过从模型中删除16层来进行深度剪枝,并将其从8B模型缩减为4B模型,此外还部署另一种技术,通过修剪嵌入维度和MLP中间层来进行宽度剪枝。
除了剪枝,Nvidia还采用了经典蒸馏技术来提高Llama-3.1-Minitron4B的效率。
知识蒸馏是一个过程,在这个过程中,一个较小的模型(即学生)会被训练成模仿一个更大、更复杂的模型(即教师)的行为。通过这种方式,较小模型中保留了原始模型的大部分预测能力,但速度更快,资源更节省。

英伟达将此与蒸馏技术和剪枝技术相结合,确保重新训练的4B模型性能优异,并在更大的模型中得到很好的应用。
。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-08-18 08:45:05
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: