• 我的订阅
  • 科技

zyphra推出zamba2-mini1.2b模型

类别:科技 发布时间:2024-08-30 05:47:00 来源:浅语科技

8月29日消息,Zyphra于8月27日发布博文,宣布推出Zamba2-mini1.2B模型,共有12亿参数,声称是端侧SOTA小语言模型,在4bit量化下内存占用低于700MB。

IT之家注:SOTA全称为state-of-the-art,并不是特指某个具体的模型,而是指在该项研究任务中,目前最好/最先进的模型。

zyphra推出zamba2-mini1.2b模型

Zamba2-mini1.2B虽然尺寸不大,但媲美包括谷歌Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B和微软的Phi-1.5等更大模型。

在推理任务中,Zamba2-mini的卓越性能尤为显著,与Phi3-3.8B等模型相比,Zamba2-mini的首次令牌时间(从输入到输出第一个token的延迟)是此前的二分之一,内存占用减少了27%。

Zamba2-mini1.2B主要通过高度优化的架构实现,融合了不同神经网络设计的优势,既能保持大型密集变压器的高质量输出,又能以更小模型的计算和内存效率运行。

zyphra推出zamba2-mini1.2b模型

与前代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。

这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyphra致力于在模型设计中进行渐进而有影响力的改进。

Zamba2-mini是在一个包含三万亿个token的海量数据集上进行预训练的,该数据集来自Zyda和其他公开来源。

zyphra推出zamba2-mini1.2b模型

这个庞大的数据集经过了严格的过滤和重复处理,以确保获得最高质量的训练数据,并在退火(annealing)阶段对其进一步完善,其中包括在1000亿个质量极高的tokens上进行训练。

Zyphra已承诺使Zamba2-mini成为Apache2.0许可下的开源模型。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-30 08:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经
2024-08-09 09:37:00
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1
2023-02-15 15:47:00
...人 、新加坡国立大学校长青年教授尤洋发表了题为《大模型训练的关键技术》的主题演讲。尤洋指出,庞大的AI模型规模对模型训练提出了挑战,现有的硬件设备已无法满足训练所需的大量计算
2023-05-28 18:37:00
chatgpt低成本复现流程来了
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1
2023-02-17 14:37:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力
2024-10-10 09:56:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美
2024-08-14 09:43:00
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院
2024-07-11 16:45:00
更多关于科技的资讯: