• 我的订阅
  • 头条热搜
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
随着 AI 模型的参数量越来越大,对算力的需求也水涨船高。比如最近,Llama-3.1 登上了最强开源大模型的宝座,但超大杯 405B 版本的内存就高达 900 多 GB,这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛,...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。只不过他们使用的是 LSTM,而不是Transforme...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源
...,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文,结果。真实数据稀缺可能不再是问题...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们。而且更狠的是,Meta还“杀人诛心”,虽然这模型目前和Sora一样还没对外开放,但它把新模型的95页技...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常“神奇”。...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。有的人提到,...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
技术:大模型发展呈现“规模定律”,Transformer为技术基座1.1 大模型“大力出奇迹”的背后:Scaling Law大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...球科技公司Yandex推出了YaFSDP,这是一种用于训练大型语言模型(LLM)的开源方法。据介绍,YaFSDP是目前在大型语言模型训练中增强图形处理器(GPU)通信并减少内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量...……更多
更多关于科技的资讯:
倒计时3天!三联家电“11.11提前抢” 三重补贴撬动山东家电消费
鲁网10月21日讯伴随 “双 11” 消费季临近,山东家电市场迎来年度消费热潮。作为本土家电零售领军企业,三联家电于10月24日至26日率先启动 “11
2025-10-21 17:09:00
“只剩最后500单!”“3、2、1,上链接!”近日,某直播平台上,一名美妆主播正卖力推销一款“限量”粉底液,评论区不断涌现“已拍”“再加点货吧”等留言
2025-10-21 16:44:00
近日,滨海新区知识产权保护中心(以下简称滨海保护中心)通过专业预审服务,高效护航天津医科大学眼科医院科研团队自主研发的“干细胞内囊泡制备与应用”系列专利技术
2025-10-21 15:54:00
驼奶粉行业峰会召开:京东超市与头部企业携手共建“安心驼奶粉”验证方案
10月20日,京东2025驼奶粉行业峰会在京召开,大会以“品质溯源、产业共生”为主题,聚焦行业痛点与机遇,通过多方联动促进产业链健康发展
2025-10-21 11:11:00
江西10家企业入选“中国VR50强企业”
本报讯(全媒体记者左阳天)10月19日,“2025中国VR50强企业”名单正式发布,这是“中国VR50强企业”名单连续第七年发布
2025-10-21 05:52:00
校地专场对接会上,我市一批“钢铁新农人”集中显身手“火眼金睛”识熟果 自动采摘不伤花□南京日报/紫金山新闻记者徐宁果园里
2025-10-21 07:44:00
青春华章 | 南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道
南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道共聚“微”光,好“剧”有戏□南京日报/紫金山新闻记者鲁舒婷近260家相关企业
2025-10-21 07:45:00
培育产业向“新”力 2025厦门国际时尚周圆满落幕
2025厦门国际时尚周在中山路举行,精彩活动吸引众多市民游客。“九球天后”潘晓婷亮相2025厦门国际时尚周。厦门国际时尚周助力首发经济
2025-10-20 08:56:00
总台文创“月兔趣集”数字资产盲盒上线乐数通
中秋佳节,为推动中华优秀传统文化在数字时代实现创造性转化与创新性发展,浙江文化产权交易所(以下简称 “浙江文交所”)携手中央广播电视总台“总台文创”
2025-10-20 14:50:00
向“新”求质 | 潍柴雷沃智慧农业领航智能农机加速出海
鲁网10月20日讯10月17日-10月18日,潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛举行。25款明星机型组成的“全矩阵”智能装备军团震撼列阵
2025-10-20 16:39:00
鸢都家电狂欢“三联家电10.25海信来了”引爆金秋消费季
鲁网10月20日讯 金秋消费季迎来重磅炸弹!三联家电宣布将于10月24日至26日启动年度促销活动——“10.25海信来了”
2025-10-20 16:46:00
战略协同 产品赋能 运营提效丨潍柴雷沃智慧农业2025年全球合作伙伴发展大会召开
鲁网10月20日讯10月17日-18日,以“战略协同·产品赋能·运营提效”为主题的潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛召开
2025-10-20 16:47:00
日前,中国联通、中国移动、中国电信相继宣布,已获得工信部批复,在全国范围开展eSIM手机业务商用试验。这标志着,移动手机彻底告别实体SIM卡的时代正在从愿景走向现实
2025-10-20 17:37:00
从山海通信到智慧出行: OPPO携多项技术创新成果亮相中国移动全球合作伙伴大会
日前,以“碳硅共生 合创AI+时代”为主题的2025中国移动全球合作伙伴大会在广州隆重举办。作为中国移动的重要合作伙伴
2025-10-20 20:00:00
从“黑色黄金”到“智慧矿藏”山东移动“海陆空”一体化擘画智慧油田新蓝图
在国家坚定不移推进能源安全新战略的时代背景下,我国能源行业的数字化转型正加速驶入深水区。在渤海之滨的东营,山东移动围绕胜利油田的智能化需求
2025-10-20 20:25:00