国内国际社会时尚情感人文汽车健康

头条订阅服务

体育娱乐财经军事科技游戏教育育儿

三国以色列人工智能AI ChatGPT 数字经济

我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

类别：科技发布时间：2024-07-25 09:20:00 来源：差评XPIN

三个月过去了，当初的 “开源落后论” 再一次被打脸。

而打脸的人，仍然是上次那位，元宇宙倡导者，前半职业拳击手，潜伏在硅谷的纯正蜥蜴人，扎克伯格。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

好吧不卖关子了，简单来说就是，开源 AI 界扛把子 Meta AI ，昨晚更新他们最新最强的大模型， Llama3.1 。

这玩意跟上次 Llama3 一样也是三个版本，除了同参数量的 80 亿和 700 亿，这次最亮眼的是他们的超大杯，在老黄数万显卡的供应下，小扎的新模型用了足足 4050 亿参数！

而它的性能，也号称已经完全追上 ChatGPT4o 和 Claude3.5-Sonnet ，像长文本和数学这些方面甚至超过他俩。这回啊，是开源的胜利！

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

硅谷的其他大佬也对这个模型相当看好，斯坦福大学计算机教授、谷歌 AI 负责人 Andrew Ng 感慨道， Meta 的这次更新，对所有人来说都是超赞的礼物。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

英伟达科学家， AI 实验室负责人 Jim Fan 甚至认为，比肩 GPT-4 的力量已经发送到大家手中了，这是个历史性时刻！

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

不少媒体也跟着炸裂，宣称 AGI 之路近在眼前了，不过世超我还是先泼一盆冷水，劝大家先别急着狂热了，因为人家 Meta AI 官方这次，也放出了Llama3.1 的详细论文，足足 90 页。

这个版本究竟改进了什么地方，是不是真有吹的这么神，那论文里其实都写上了。

咱们也花了一个下午，研究了一番，发现这篇论文涵盖了预处理、生成训练、推理训练、退火迭代、多模态评估等流程，但核心其实说的就是两件事，一是大量的训练，二是训练里做了些优化。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

首先咱就说训练这方面，他们就下了大功夫，做了算力和数据的扩充。

毕竟人家用了 1.6 万台 H100 跑了 3930 万 GPU 小时（相当于单块 GPU3930 万个小时的计算量）。运算规模比 Llama2 翻了 50 倍，还填了包括多种语言的 15 万亿 Tokens ，相当于 7500 亿单词进去，而上代版本只有 1.8 万亿 Tokens 。模型上下文窗口也从 8K 增加到 128K ，扩展了 16 倍。

数据和运算规模上去了，能力肯定也就上来了，突出一个力大砖飞。毕竟这么多东西，要咱学大概率摆烂学不动，但人家 AI 是真学啊。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

其次，除了填鸭式训练，训练内容里的优化和微调也挺重要的，这也是他们能快速进步的另一个原因。比如说在刚开始处理训练信息的时候，他们就用了一些算法，来清理重复内容和垃圾信息，提高训练数据的质量。

你可别说这操作不重要，上回某知名 AI 就在中文垃圾信息上翻车了，成了贻笑大方的典型。

这里他们描述了重复数据删除和启发式过滤两个算法的步骤

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

而在模型结构上，为了照顾这么大量的数据训练， Meta 也做了不少改进，像是把训练数据由 16 位精度降低到 8 位，这样不但能节省储存空间还方便计算，并且有利于在移动端部署。

不过这个办法别的厂家也不是没想到，只不过降低精度有可能会增加误差，导致大模型性能降低，而 Meta 在这个过程中则是通过 “ 行级量化 ” 等世超听都没听过的算法，来拿捏这个误差的度，尽量做到两全其美。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

除以之外，他们还放弃了用传统的强化学习算法来进行模型后处理，而是选择靠测试员的标注和监督，边反馈边迭代。

这么搞虽然比较费人，但能增加 Llama3.1 的可扩展性，也就是像后续要增加的图像、语音、视频识别等功能，生成的结果也会更加自然，跟人类认知对齐。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

而其他厂商看到 Llama3.1 的开源大旗，也纷纷来投，尽管月活超 7 亿的厂家还得先申请，但到现在已经有 25 家企业都官宣要出基于 Llama3.1 的新模型。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

这里面不但有亚马逊、戴尔这些大厂和 Grop 这样的新锐小厂，还有位居 AI 大幕背后的英伟达。。。

对，老黄也全面拥抱开源了，要把 Llama3.1 用到他家 AI Foundry 服务里。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

说这么多，那这个进击的羊驼用起来是不是真这么牛逼哄哄呢？我们上手试了试，发现有些地方它做得确实可以，有些地方则也会翻车。

比如，在长文本阅读这个领域它有时候表现的就还可以，我们测试了让它回答十几轮问题之前的概念，发现它的确能在回答里反馈到当时给出的信息。

但面临没提供过的信息，他也会胡说八道。比如当我们提问他自己哪年发布的时候他也说不准，因为它的训练数据是截止去年年底的。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

而在经典弱智吧训练方面， Llama3.1 也会出现抽象的情况，这方面表现的真不如隔壁 Gemini 。

上图为 Llama3.1 ，下图为 Gemini

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

数据推理上，像用前几天考倒了众多 AI 的 9.11 和 9.9 谁大问题，他也搞不定。

Llama3.1 的表现跟 GPT-4o 相比不能说云泥之别也只能说难兄难弟，甚至还装模作样的硬给解释他们的错误答案。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

而隔壁 Claude3-Sunnet 就薄纱了这哥俩，瞧瞧人家这推理，怪不得人家这块比你俩得分高。

左边为 Claude3-Sunnet ，右边为 GPT-4o-mini

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

那是不是这个 Llama3.1 啥啥都不行呢？话也不能这么说，虽然上面展示了一些翻车案例，但这倒也不能代表 Llama3.1 的真实实力就这样。

主要官方给的这个模型版本，相当于一个完全没优化的基本型号，毛坯房。而它的优势在于后期用户可以在它里面安排各种定制化操作，相当于把毛坯房翻修出花来，到时候才会展现这玩意的真正功力。

也就是说， Llama 的意义在于开源后创作者们的调教和微操，这才是这类开源模型的独到之处。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

不过这也不意味着 Meta 这波就一下翻身了，比 OpenAI 牛逼了。虽然开源的 Llama3.1 拓展性会很强，但毕竟它的底子其实也没有跟 ChatGPT4o 拉开太大差距。

而且 Meta 发力的时候人家 OpenAI 肯定也没闲着， ChatGPT5 大概率会带来新的领先优势。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

说到底，开源和闭源各有优势，但谁一定会颠覆谁那倒真不一定。

从 Llama2 到 3 到 3.1 ，的确是开源党的节节胜利，但后续是不是跟扎克伯格在昨天访谈里说的一样， Llama 会变成 AI 时代的 Linux ，目前来说其实很难定论，也有可能会变成 iOS 之于安卓这种并存的关系。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

至于 AGI 之路是不是能靠开源的 LLM 模型走到，扎克伯格是挺看好的，但 AI 圈里的老熟人杨乐坤还是认为犹未可知。

不过对于这次 Llama3.1 取得的进步，他却表示：虽然成不了 AGI ，但这玩意确实有用啊。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-25 12:45:05

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,训练,模型,伯格,数据,扎克的资讯：

李彦宏称开源赶不上闭源？Meta发布最强开源模型，马斯克评价“还不错”

李彦宏称开源赶不上闭源？Meta发布最强开源模型，马斯克评价

...家坚持开源的社交巨头，又默默放出了最新一代的开源大模型Llama3。美当地时间4月18日，Meta在官网上发布了两款开源大模型

2024-04-20 11:00:00

黄仁勋对话扎克伯格：下一波AI浪潮是机器人，开源大模型将赢得胜利？

黄仁勋对话扎克伯格：下一波AI浪潮是机器人，开源大模型将赢得

...绕生成式AI、开源技术等内容展开对话，并强调了开源大模型在推动AI发展中的重要性。对话下半场，他们围AR/VR计算平台和机器人浪潮等展开了讨论，指出下一波AI浪潮是机器人，而

2024-07-31 13:51:00

Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

...争已久，现在或许已经达到了一个新的高潮。说到开源大模型，Llama 系列自诞生以来就是典型代表，其优秀的性能与开源特点让人工智能技术的应用性和可访问性大大提升。任何研究人员和

2024-07-25 09:32:00

扎克伯格这一举动，将让中国90%大模型公司快速死亡

扎克伯格这一举动，将让中国90%大模型公司快速死亡

什么才是正确的AI创业创新姿势?答案好像不是做大模型的。吃过见过，和王兴一起创立了万亿美团帝国的王慧文，大模型创业弄了一半，抑郁了，早早就退出了人工智能内卷，他或许提前看到了什么

2023-07-21 15:26:00

马斯克AI领域动作频频：规划“算力超级工厂” 与扎克伯格又杠上了

马斯克AI领域动作频频：规划“算力超级工厂” 与扎克伯格又杠

...ter.ai展开了早期的讨论，主要涉及研究层面的合作，例如模型开发和预训练。Meta此前曾表示，正在整合AI人物聊天机器人到旗下Facebook

2024-05-26 03:52:00

靠生成式人工智能赚钱？扎克伯格：再等几年吧

靠生成式人工智能赚钱？扎克伯格：再等几年吧

...共推出两个24K GPU集群（共有49152块H100），用于训练Llama 3模型。当下人工智能少不了大模型作为支持

2024-04-26 23:00:00

黄仁勋对话扎克伯格：新款芯片样品本周发送，AI行业还有5年产品创新期

黄仁勋对话扎克伯格：新款芯片样品本周发送，AI行业还有5年产

...扎克伯格表示，AI基础研究“正在加速”，基于目前的AI模型技术，行业还有五年的产品创新空间。在谈话开始前，黄仁勋已经在大会上展示了该公司的一系列最新产品，并宣布“英伟达本周将

2024-07-30 11:08:00

股价年内涨超四成，小扎身家暴涨561亿美元，AI浪潮中Meta做对了什么

股价年内涨超四成，小扎身家暴涨561亿美元，AI浪潮中Met

Meta 视觉中国资料图专注于开源大模型的社交媒体巨头Meta在全球AI（人工智能）热潮中收获颇丰，带动扎克伯格身价大涨

2024-04-09 12:01:00

扎克伯格又爱上了AI ，脸书会更名为“MetAI”吗？

扎克伯格又爱上了AI ，脸书会更名为“MetAI”吗？

...在购买大量英伟达芯片，这些芯片用于训练新的生成式AI模型，每颗售价约为1万美元。AI行业高管伊马德·莫斯塔克(Emad Mostaque)上周五在推特上写道

2023-04-25 13:00:00

更多关于科技的资讯：

出海再提速！锦江酒店（中国区）宣布旗下7天酒店出海，同日签约10个项目

出海再提速！锦江酒店（中国区）宣布旗下7天酒店出海，同日签约

锦江酒店（中国区）规模化出海再次迎来关键节点。10月31日，其于深圳正式宣布，国民品牌7天酒店将进军东南亚市场。这是继今年8月底

2025-11-01 10:02:00

拓宽合作渠道深化技术创新山西电机亮相亚洲国际展会

10月28日，亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚

2025-11-01 07:03:00

正式发布！视源股份牵头制定《娱乐用车载显示系统图像质量技术规范》团体标准

正式发布！视源股份牵头制定《娱乐用车载显示系统图像质量技术规

2025年10月23日，在全国音频、视频及多媒体系统与设备标准化技术委员会（SAC/TC 242）商用显示标准研究组第六次全会暨标准研讨会上

2025-10-31 08:20:00

中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展，以系统性创新重塑矿山作业安全

中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展，以系统性

在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上，中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注

2025-10-31 08:51:00

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰

2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&

2025-10-31 08:51:00

知与行｜推进县域特色产业数字化转型

■加快构建覆盖全域、经济适用、安全可靠的数字技术支撑体系，着力打通数据壁垒与业务断点，促进产业链各环节融通发展■建立功能完善

2025-10-31 09:05:00

世说新语丨AI时代，图书馆如何更“聪明”

在数字化、网络化、智能化的当下，图书馆的角色和功能正在发生深刻变化。究竟什么样的图书馆更“聪明”？近日，第五届长三角公共图书馆发展论坛在上海举行

2025-10-31 09:05:00

Mutual妙趣艺：全球战略+资源整合，打造文娱IP数字资产化标杆

Mutual妙趣艺：全球战略+资源整合，打造文娱IP数字资产

Mutual妙趣艺于2020年成立于美国加州，专注于文娱IP（知识产权）数字资产化领域。公司的核心定位是打造“数字资产领域的AWS”

2025-10-31 10:57:00

临沂联通获全国百城重点区域移动网络质量综合大奖

鲁网10月31日讯近日，“2025年第四届移动网络高质量发展论坛”在北京盛大启幕。在本次论坛上，工业和信息化部委托中国信通院权威发布了2024年“全国百城重点区域移动网络质量专项评测结果”

2025-10-31 11:43:00

当担保遇上AI：一场成长的“双向奔赴”

人工智能（AI）是新一轮科技革命和产业变革的重要驱动力量，广西聚焦国家所需、广西所能、东盟所盼，正加快构建一条“北上广研发+广西集成+东盟应用”的特色发展路径

2025-10-31 11:46:00

aigo国民好物成为第32届WCGC全球总决赛官方唯一翻译类供应商——以中国智造共铸无界对话的全球盛事

aigo国民好物成为第32届WCGC全球总决赛官方唯一翻译类

上海，2025年10月 —— 备受瞩目的第32届世界企业高尔夫挑战赛（WCGC）全球总决赛于2025年10月19日至23日在上海东庄海岸高尔夫俱乐部隆重举行

2025-10-31 11:52:00

让检测全面拥抱AI！科学指南针2025产品服务发布会举行

让检测全面拥抱AI！科学指南针2025产品服务发布会举行

让检测全面拥抱AI！10月30日，科学指南针2025年度产品服务发布会在杭州举办，来自高校院所、企业、分析测试中心等多方行业代表到场参会

2025-10-31 11:52:00

培育钻定制哪个品牌好？2025最新测评出炉，国产珠宝高性价比领跑榜单

培育钻定制哪个品牌好？2025最新测评出炉，国产珠宝高性价比

曾几何时，钻石承载着“钻石恒久远，一颗永流传”的爱情神话，而天然钻石的稀缺性更被赋予了极高的市场价值。然而，随着实验室培育钻石技术的突破性进展

2025-10-31 12:14:00

2025年商旅平台选型指南：从合规能力到生态整合的全景评估

在企业商旅管理从“费用管控”向“全流程智能管理”演进的关键时期，平台竞争力已不再局限于单一的预订功能，而是延伸至合规风控

2025-10-31 12:16:00

拓竹荣膺《时代》最佳发明，3D打印技术步入主流创新支撑体系

拓竹荣膺《时代》最佳发明，3D打印技术步入主流创新支撑体系

近期，《时代》周刊公布2025年度最佳发明榜单，揭示一个耐人寻味的现象：在300项突破性发明中，仅有4项被明确标注为3D打印创新

2025-10-31 12:19:00