• 我的订阅
  • 科技

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

类别:科技 发布时间:2024-07-23 09:33:00 来源:量子位

苹果最新杀入开源大模型战场,而且比其他公司更开放。

推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:

许多声称开源的AI模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。

而苹果这次竟然来真的!!

就连NLP科学家、AutoAWQ创建者也发出惊叹:

Apple发布了一个击败Mistral 7B的模型,但更棒的是他们完全开源了所有内容,包括预训练数据集

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

也引来网友在线调侃:

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

至于这次开源的意义,有热心网友也帮忙总结了:

对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

当然,除了OpenAI和苹果,上周Mistral AI联合英伟达也发布了一个12B参数小模型。

HuggingFace创始人表示,「小模型周」来了!

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

卷!继续卷!所以苹果这次发布的小模型究竟有多能打?

效果直逼Llama 3 8B

有多能打先不说,先来看Hugging Face技术主管刚“拆箱”的模型基础配置。

总结下来就是:

7B基础模型,在开放数据集上使用2.5T tokens进行训练 主要是英文数据,拥有2048tokens上下文窗口 数据集包括DCLM-BASELINE、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。

之所以提出这一基准,是因为团队发现:

由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。

因此,团队使用DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。

其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

基于上述思路,团队构建了一个高质量数据集DCLM-BASELINE,并用它从头训练了一个7B参数模型——DCLM-7B。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

DCLM-7B具体表现如何呢?

结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

最后,为了测试新数据集效果,有业内人士用卡帕西的llm.c训练了GPT-2 1.5B,来比较DCLM-Baseline与FineWeb-Edu这两个数据集。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

结果显示DCLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

“小”模型成新趋势

回到开头,“小”模型最近已成新趋势。

先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型号模型。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

它们在广泛的推理和常识基准上优于类似大小的模型。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

然后OpenAI突然发布了GPT-4o mini,不仅能力接近GPT-4,而且价格大幅下降。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

就在GPT-4o mini发布同日,Mistral AI联合英伟达发布了12B参数小模型——Mistral NeMo。

从整体性能上看,Mistral NeMo在多项基准测试中,击败了Gemma 2 9B和Llama 3 8B。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

所以,为啥大家都开始卷小模型了?

原因嘛可能正如smol AI创始人提醒的,虽然模型变小了,但在能力相近的情况下,小模型大大降低了成本。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

就像他提供的这张图,以GPT-4o mini为代表的小模型整体比右侧价格更低。

苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果

对此,我等吃瓜群众be like:

所以,你更看好哪家呢?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-23 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果放弃造车,车圈松了一口气
...)则指出,苹果的退出让特斯拉及传统汽车制造商“松了一口气”,在当下竞争激烈又存在诸多不确定性的市场中,苹果的撤离意味着少了一个需要担心的竞争对手,且能为市场提供一大批可能因此
2024-02-29 07:25:00
云计算一哥终于搞多模态了:一口气6个大模型,还有个3nm芯片!
...布自家新款AI多模态系列大模型,名曰Amazon Nova。而且是一口气涵盖文本对话、图片生成、视频生成,甚至直接吐露一个小目标
2024-12-05 09:45:00
起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
起猛了,GPT-4o被谷歌新模型超越了!历时一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次夺得lmsys竞技场第一
2024-08-05 09:36:00
腾讯混元一口气开源5个3D生成模型:最快30秒生成!
快科技3月19日消息,腾讯最新公告,一口气开源5个3D生成模型,通过腾讯混元3D官网即可体验。据介绍,这5个开源模型均基于Hunyuan3D-2
2025-03-19 00:26:00
长安汽车 一口气买了1500000个激光雷达
长安一口气,下了150万个激光雷达订单。又是一个智能化的大动作。这家老牌央企,在转型路上走得越来越快了:深蓝阿维塔销量强势,首搭自研智驾的启源E07也量产落地,智能化上拥抱华为,
2024-12-06 23:41:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
智东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线
文 | 周鑫雨编辑 | 苏建勋2023年4月,成立于纽约的Runway AI发布了一段用AI生成的视频:模糊卡顿、物体扭曲
2024-02-18 06:20:00
字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
...字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成
2024-09-26 13:45:00
OpenAI造芯计划曝光!拟自研AI芯片 英伟达强敌来了
...,可以运行超过120万亿个连接的神经网络。今年Cerebras还一口气开源了7个GPT模型,参数量分别达到1.11亿
2023-10-07 20:55:00
更多关于科技的资讯:
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00
第十季炒股大赛冠军诞生:光伏逆变器行业龙头涨幅登顶
在《大众证券报》读者俱乐部第十季炒股比赛中,选手“馨小憩”以159.84元/股推荐的阳光电源(300274),荐股涨幅19
2025-11-01 11:00:00
近日,国内首款真空高压铸造人形机器人腿部骨骼零部件在中信戴卡股份有限公司研制成功并生产下线,首批20件量产产品已发往国内客户
2025-11-01 11:10:00
视频制作:陈希河北新闻网讯(记者 李春炜)随着AI技术飞速发展,在今年的双十一期间,AI笔记本也成为爆款产品。近日,记者走进安徽合肥的联想PC设备研发和制造基地
2025-11-01 15:39:00
10月30日,“版权强企燕赵行”活动走进保定市高阳县。活动通过进企问需、校企对接、版权法律法规科普、版权服务平台及版权区块链平台推介等方式
2025-11-01 15:47:00
10月30日,在由盖世汽车主办的2025第七届“金辑奖”颁奖盛典上,东软集团凭借在智能汽车互联领域持续的产品创新与卓越的全球化实践
2025-11-01 16:16:00
钻戒定制怎么选?2025五大宝藏品牌全解析,一篇避坑
准备结婚选钻戒,却被天然钻的高价劝退?想入手培育钻戒,又怕遇到“参数虚标”“售后无保障”的问题?2025年培育钻石市场规模突破300亿元
2025-11-01 16:17:00
第三十七届中国仿真大会在合肥市庐阳区召开
大皖新闻讯 11月1日,第三十七届中国仿真大会在合肥市庐阳区召开,大会以“数智仿真、新质发展”为主题,吸引全国约千名学者与业界代表
2025-11-02 00:04:00
“科大讯飞1024科博展”亮点抢先看!现场黑科技拉满,免费开放
大皖新闻讯 想让AI陪你对弈吗?想穿越时空与孙悟空来场“智慧交锋”吗?第八届世界声博会暨2025科大讯飞全球1024开发者节科博展将于11月2日至6日在合肥体育中心启幕
2025-11-02 00:04:00
出海再提速!锦江酒店(中国区)宣布旗下7天酒店出海,同日签约10个项目
锦江酒店(中国区)规模化出海再次迎来关键节点。10月31日,其于深圳正式宣布,国民品牌7天酒店将进军东南亚市场。这是继今年8月底
2025-11-01 10:02:00
10月28日,亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚
2025-11-01 07:03:00
正式发布!视源股份牵头制定《娱乐用车载显示系统图像质量技术规范》团体标准
2025年10月23日,在全国音频、视频及多媒体系统与设备标准化技术委员会(SAC/TC 242)商用显示标准研究组第六次全会暨标准研讨会上
2025-10-31 08:20:00
中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展,以系统性创新重塑矿山作业安全
在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上,中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注
2025-10-31 08:51:00
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲
2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&
2025-10-31 08:51:00