• 我的订阅
  • 科技

zyphra推出zamba2-mini1.2b模型

类别:科技 发布时间:2024-08-30 05:47:00 来源:浅语科技

8月29日消息,Zyphra于8月27日发布博文,宣布推出Zamba2-mini1.2B模型,共有12亿参数,声称是端侧SOTA小语言模型,在4bit量化下内存占用低于700MB。

IT之家注:SOTA全称为state-of-the-art,并不是特指某个具体的模型,而是指在该项研究任务中,目前最好/最先进的模型。

zyphra推出zamba2-mini1.2b模型

Zamba2-mini1.2B虽然尺寸不大,但媲美包括谷歌Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B和微软的Phi-1.5等更大模型。

在推理任务中,Zamba2-mini的卓越性能尤为显著,与Phi3-3.8B等模型相比,Zamba2-mini的首次令牌时间(从输入到输出第一个token的延迟)是此前的二分之一,内存占用减少了27%。

Zamba2-mini1.2B主要通过高度优化的架构实现,融合了不同神经网络设计的优势,既能保持大型密集变压器的高质量输出,又能以更小模型的计算和内存效率运行。

zyphra推出zamba2-mini1.2b模型

与前代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。

这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyphra致力于在模型设计中进行渐进而有影响力的改进。

Zamba2-mini是在一个包含三万亿个token的海量数据集上进行预训练的,该数据集来自Zyda和其他公开来源。

zyphra推出zamba2-mini1.2b模型

这个庞大的数据集经过了严格的过滤和重复处理,以确保获得最高质量的训练数据,并在退火(annealing)阶段对其进一步完善,其中包括在1000亿个质量极高的tokens上进行训练。

Zyphra已承诺使Zamba2-mini成为Apache2.0许可下的开源模型。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-30 08:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经
2024-08-09 09:37:00
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1
2023-02-15 15:47:00
...人 、新加坡国立大学校长青年教授尤洋发表了题为《大模型训练的关键技术》的主题演讲。尤洋指出,庞大的AI模型规模对模型训练提出了挑战,现有的硬件设备已无法满足训练所需的大量计算
2023-05-28 18:37:00
chatgpt低成本复现流程来了
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1
2023-02-17 14:37:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美
2024-08-14 09:43:00
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力
2024-10-10 09:56:00
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院
2024-07-11 16:45:00
更多关于科技的资讯:
京东集团宣布成立京东美术馆,以艺术与科技链接世界
1月20日,京东集团正式宣布成立京东美术馆(JD Museum)。京东美术馆是一所当代视觉、表演艺术及文化机构,坐落于深圳湾超级总部基地
2026-01-20 13:34:00
2026 EIM 西南电子智能制造大会圆满举办
2026年1月16日,由深圳市终端电子制造产业协会、广东省电子学会SMT专委会主办,华友(重庆)企业管理咨询有限公司、EIM西南电子智能制造服务中心承办的“2026 EIM 西南
2026-01-20 11:02:00
AI赋能千行百业一线故事(二十):全程可追溯,鸡蛋有了“数字身份证”
全程可追溯,鸡蛋有了“数字身份证”——AI赋能千行百业一线故事(二十)1月16日,在邯郸百瑞可蛋品供应链管理有限公司数字蛋品交易服务中心
2026-01-20 08:20:00
山东移动以AI赋能零售,开启24小时智慧经营新时代
深夜,济宁“润佳便利店”却依旧亮着灯光,为百姓提供服务,成为一道温暖的风景线。一名刚下夜班的年轻人扫码推门,从货架间挑选饮品与零食
2026-01-20 09:48:00
任丘“链齿云”推动四百余家企业组团发展
1月14日,在任丘市的河北冀超龙传动机械公司,工作人员在“链齿云”数字化赋能平台查看公司订单。河北日报记者 戴绍志摄河北日报讯(记者戴绍志)任丘市积极探索数字化转型新路径
2026-01-20 08:18:00
张家口算力资源引来AI微短剧行业新秀
1月12日,张家口数字文创产业基地,北动漫(河北)网络科技有限公司员工在讨论人工智能项目细节。 河北日报记者 耿辉摄1月8日
2026-01-20 08:22:00
厦门网讯(厦门日报记者 李晓平)昨日,《2025胡润中国人工智能企业50强》榜单发布,聚焦全球AI(人工智能)产业创新浪潮中的中国标杆企业
2026-01-20 08:07:00
“最早来杭州是1998年,那时我还是个博士生。”白马湖畔,北京航空航天大学杭州创新研究院院长王俊的回忆闸门打开,叙述充满画面感
2026-01-20 07:09:00
中国网1月20日讯 据国家安全部消息,近期,境外一家购物中心的户外大型数字广告牌突然异常,引发业界对公共场所数字显示屏等公共数字设备潜在风险的重视
2026-01-20 07:31:00
董佳琳摘要:随着数字技术的广泛应用,数字经济已成为推动金融行业转型升级的核心引擎,尤其在金融科技创新方面,数字经济为其提供了持续的内生动力
2026-01-20 06:52:00
2026年米兰冬奥会的脚步越来越近,绍兴乾雍纺织有限公司总经理萧兴水期待着米兰来的消息。“这次咱们中国队赛时制服面料全部用数码打印而成
2026-01-19 23:33:00
河北新闻网讯(任蕊)“以前插接一根四分钢丝绳,费时费力。现在用上自制装置,效率翻番!”1月11日,在开滦股份吕家坨矿负950五采回风石门掘进现场
2026-01-19 20:15:00
一家皖企跻身胡润中国人工智能企业10强榜
大皖新闻讯 1月19日,胡润研究院发布《2025胡润中国人工智能企业50强》排行榜,中国科大校友陈天石创立的寒武纪蝉联榜首
2026-01-19 22:42:00
河北新闻网讯(田坤)近日,在开滦集团钱家营矿业公司(简称“开滦钱矿公司”)机采科检修车间,一台自主研发的“液压钻车负载敏感阀试验台装置”成功完成首次测试
2026-01-19 20:03:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿顺利完成井下排水泵房的智能化改造,传统人工巡检模式被远程集中监控替代
2026-01-19 20:04:00