• 我的订阅
  • 头条热搜
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
随着 AI 模型的参数量越来越大,对算力的需求也水涨船高。比如最近,Llama-3.1 登上了最强开源大模型的宝座,但超大杯 405B 版本的内存就高达 900 多 GB,这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛,...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。只不过他们使用的是 LSTM,而不是Transforme...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源
...,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文,结果。真实数据稀缺可能不再是问题...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们。而且更狠的是,Meta还“杀人诛心”,虽然这模型目前和Sora一样还没对外开放,但它把新模型的95页技...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常“神奇”。...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。有的人提到,...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
技术:大模型发展呈现“规模定律”,Transformer为技术基座1.1 大模型“大力出奇迹”的背后:Scaling Law大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...球科技公司Yandex推出了YaFSDP,这是一种用于训练大型语言模型(LLM)的开源方法。据介绍,YaFSDP是目前在大型语言模型训练中增强图形处理器(GPU)通信并减少内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿,可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP,用户可在 AI 应用中的「AI 视频」板块申请试用。腾讯...……更多
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00
“中国脑机谷”落户新奥新智感知产业园 政企研协同构建脑机接口产业新生态
河北新闻网讯(张新)9月26日,脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上,由新奥集团旗下的天津新智感知科技有限公司
2025-10-01 08:40:00
国网三明供电公司:守护灯火庆华诞 主动运维显担当
国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。(纪长添 摄)东南网10月1日讯 9月28日
2025-10-01 09:19:00
9月26日,由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位
2025-10-01 09:56:00
平望实小承办吴江区骨干教师(数学)讲学团活动
为进一步发挥吴江区骨干教师的示范和辐射作用,推进课堂教学改革,有效提升教师教学业务能力。2025年9月24日,由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师(数学)讲学团活动在平望实验小学举行
2025-10-01 09:58:00
AI技术让抗战文物“活起来”,人民日报数字传播联合百度推抗战文物智能体
9月30日,由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年,80件》智能体和3D文物词条正式上线
2025-10-01 10:00:00
新时达2025工博会圆满落幕 | STEP 2.0战略引领智能制造新篇章
2025年9月23日至27日,第二十五届中国国际工业博览会在国家会展中心(上海)盛大举行。新时达以"智拓无界 共创未来"为主题
2025-10-01 10:00:00
从课堂到产线,河北工大学子开展智慧物流与“地狼”系统自动化技术实训
河北新闻网讯(胡广涛)组装调试机器人、体验智慧仓储系统、探索自动化技术前沿……近日,河北工业大学人工智能与数据科学学院2022级自动化专业全体学生在廊坊分校
2025-10-01 11:12:00
中国青年报客户端讯(中青报·中青网记者 夏瑾)9月30日,由湖州师范学院音乐学院、湖州市音声数据挖掘与智能服务重点实验室主办的“1617系列明代魏氏乐虚拟乐器音源”全球发布会在浙江省杭州市举办
2025-10-01 14:11:00
“智慧武当”给游客带来数字文旅新体验
十堰广电讯(通讯员 汪伟 周琼 耿宇)“一部手机游武当”预约购票、AI导游、《入境武当》VR大空间、问道武当数字客厅……国庆假日
2025-10-01 18:35:00
津云文旅电商版块上线 首发“笑漾海河”优选线路 扫码阅读手机版
10月1日,天津鹏欣水游城14周年庆暨津云新媒体“笑漾海河”文旅电商线路首发仪式成功举办。近年来,随着“文旅+电商”模式的快速发展
2025-10-01 18:55:00
陕西数字贸易闪耀第四届数贸会 数字贸易合作成果丰硕
9月29日,为期5天的第四届全球数字贸易博览会(以下简称“数贸会”)在浙江杭州大会展中心圆满落下帷幕。此次盛会,陕西代表团表现亮眼
2025-10-01 18:58:00
高德扫街榜国庆提醒:全国十大吃货友好高铁站看这里
2025年国庆节与中秋节叠加,全国铁路预计发送旅客2.19亿人次。赶高铁如何吃饱吃好?今天,高德扫街榜发布“十大吃货友好高铁站”
2025-10-01 20:19:00
能效提升15%,山东港口日照港顺岸式全自动化码头再迎新突破
9月29日,在山东港口日照港全自动化集装箱码头,随着A23自动化轨道吊精准将集装箱吊起、转运,标志着日照港研发的新一代双悬臂轻量化轨道吊投产试运行
2025-10-01 23:08:00
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00