我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

zyphra推出zamba2-mini1.2b模型

类别：科技发布时间：2024-08-30 05:47:00 来源：浅语科技

8月29日消息，Zyphra于8月27日发布博文，宣布推出Zamba2-mini1.2B模型，共有12亿参数，声称是端侧SOTA小语言模型，在4bit量化下内存占用低于700MB。

IT之家注：SOTA全称为state-of-the-art，并不是特指某个具体的模型，而是指在该项研究任务中，目前最好/最先进的模型。

Zamba2-mini1.2B虽然尺寸不大，但媲美包括谷歌Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B和微软的Phi-1.5等更大模型。

在推理任务中，Zamba2-mini的卓越性能尤为显著，与Phi3-3.8B等模型相比，Zamba2-mini的首次令牌时间（从输入到输出第一个token的延迟）是此前的二分之一，内存占用减少了27%。

Zamba2-mini1.2B主要通过高度优化的架构实现，融合了不同神经网络设计的优势，既能保持大型密集变压器的高质量输出，又能以更小模型的计算和内存效率运行。

与前代Zamba1相比，Zamba2-mini的关键进步之一是集成了两个共享注意力层（attentionlayers）。

这种双层方法增强了模型在不同深度保持信息的能力，从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能，这表明Zyphra致力于在模型设计中进行渐进而有影响力的改进。

Zamba2-mini是在一个包含三万亿个token的海量数据集上进行预训练的，该数据集来自Zyda和其他公开来源。

这个庞大的数据集经过了严格的过滤和重复处理，以确保获得最高质量的训练数据，并在退火（annealing）阶段对其进一步完善，其中包括在1000亿个质量极高的tokens上进行训练。

Zyphra已承诺使Zamba2-mini成为Apache2.0许可下的开源模型。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-30 08:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,模型,数据,内存,性能,训练的资讯：

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合

2024-11-04 16:00:00

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经

2024-08-09 09:37:00

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1

2023-02-15 15:47:00

潞晨科技创始人尤洋：大模型训练的关键技术｜WISE2023颠

...人、新加坡国立大学校长青年教授尤洋发表了题为《大模型训练的关键技术》的主题演讲。尤洋指出，庞大的AI模型规模对模型训练提出了挑战，现有的硬件设备已无法满足训练所需的大量计算

2023-05-28 18:37:00

chatgpt低成本复现流程来了

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需 1

2023-02-17 14:37:00

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，

2024-08-22 09:51:00

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...Alignment。3. 黄灿：厦门大学数学系副教授随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力

2024-10-10 09:56:00

Mamba再次挑战霸主Transformer！首个通用Mam

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美

2024-08-14 09:43:00

CPU,正在被AI时代抛弃？

...对话可以通过语音识别技术被录入到病例系统中，随后大模型AI推理技术辅助进行智能总结和诊断，医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间，也保护了患者隐私；在法院

2024-07-11 16:45:00

更多关于科技的资讯：

苹果官网上架USB-C转3.5毫米音频线：329元

2025-03-25 00:02:00

转存教程！巧用AI让英语单词轻松“刻”进大脑

2025-03-25 00:11:00

欢迎来博鳌｜机器人上岗迎宾啦！跳舞、讲解……“整活儿”多多

2025-03-25 00:16:00

小折叠之王！moto razr 60 Ultra入网

2025-03-25 00:32:00

AirPods Max的含金量在上升：4月更新将带来无损音频

2025-03-25 00:32:00

雷军被夸逆生长自曝减肥初衷：英语不好已让母校蒙羞不能形象欠

2025-03-25 00:32:00

我在博鳌vlog | 我们离“零碳”有多远？看塑料水瓶在博鳌

2025-03-25 01:25:00

国产家电成“顶流” AI傍身站“C位”

2025-03-25 04:51:00

《辞海》网络版4.0上线

2025-03-25 05:51:00

黑科技何以加速“变现”（快评）

2025-03-25 05:52:00

中国家电品牌在日本受青睐

2025-03-25 05:57:00

商务部部长王文涛会见高通公司安蒙！高通对中国未来充满信心持

2025-03-25 07:02:00

头条订阅服务

zyphra推出zamba2-mini1.2b模型