• 我的订阅
  • 头条热搜
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
随着 AI 模型的参数量越来越大,对算力的需求也水涨船高。比如最近,Llama-3.1 登上了最强开源大模型的宝座,但超大杯 405B 版本的内存就高达 900 多 GB,这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛,...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为...……更多
Meta首次公布AI芯片细节 功耗低于英伟达
...)计划的一部分,主要用于提升广告投放和其他内容推荐模型的效率。据Meta介绍,首个MTIA芯片将专注于AI推理。Meta软件工程师Joel Coburn表示,Meta最初考虑将GPU用于推理任务,但后来发现GPU并不不太适合推理工作。“GPU在真实模...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文,结果。真实数据稀缺可能不再是问题...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们。而且更狠的是,Meta还“杀人诛心”,虽然这模型目前和Sora一样还没对外开放,但它把新模型的95页技...……更多
对标chatgpt,华硕子公司台智云发布福尔摩斯大模型
...司台智云近日在AIHPCconAI超算年会上发布企业级大型语言模型“福尔摩斯大模型”。▲图源:华硕官网华硕董事长施崇棠表示,自去年生成式AI横空出世后,华硕观察到企业客户希望用生成式AI进行新一波生产力革命。在华硕博客...……更多
从0构建gpt!网友:比之前的教程都要清晰
...,今天要讲的这个博主的教程,更侧重于代码实现部分,模型的权重则用已经训练好的。对此,博主解释称这篇教程的重点在于提供一个简单且易于破解的完整技术介绍。这对还不理解GPT背后概念的盆友,算是非常友好了。还有...……更多
从AI画画到“用声音做视频”,全球掘金AIGC | 焦点分析
...焦点。今年4月,一家名为Open AI的公司公布旗下的DALL-E 2模型,其用文字生成图像的质量之高,让人震惊——以前,“AI画画”还只是一小群人的游戏,AI画出来的画,像出自小学生之手一样朴实稚拙。但很快,大家发现AIGC进步神...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常“神奇”。...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。有的人提到,...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
围剿ChatGPT
人工智能(AI)聊天机器模型ChatGPT风潮狂飙超过百日,包括马斯克在内的商界大佬、科技巨头以及各国政府都已开始着手围剿GPT。钛媒体App获悉,北京时间4月25日凌晨的RSA 2023大会上,美国科技巨头谷歌(Google)宣布推出基于Sec...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
chatgpt低成本复现流程来了
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1.62GB 显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch,单机训练速度最...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
没有这些,别妄谈做 ChatGPT 了
...在用行动来表明战斗力,比如前些天复旦大学推出的 MOSS 模型,一经开放试用,便冲上热搜。一时间眼花缭乱,让人生疑。有钱就能训出模型?以美团大佬带资入组为代表,很多创业者和投资人盯上了 ChatGPT,作为一个 NLPer,我...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
更多关于科技的资讯:
小米汽车四大预研技术汇总:为自动驾驶打造
量产一代,发布一代,预研一代。11月14日,雷军公布小米汽车最新四大预研技术成果,为SU7背后的研发投入划上圆满句号,也彻底完成了自宣布造车以来的技术储备闭环生态
2024-11-15 22:51:00
小米智能底盘可原地掉头:对比燃油车有什么区别 一文读懂
快科技11月15日消息,今天,小米官方带来了新一期问答,有网友问:“燃油车也可以原地掉头,小米智能底盘有什么区别?”小米汽车官微表示
2024-11-15 22:51:00
蔚来宣布在阿塞拜疆市场开展业务:进一步拓展全球化版图
快科技11月15日消息,在阿塞拜疆首都巴库举办的《联合国气候变化框架公约》第二十九次缔约方大会(第29届联合国气候变化大会
2024-11-15 23:21:00
罗永浩:建议大家购买新能源汽车时优先考虑二手 更具性价比
快科技11月15日消息,瓜子二手车亮相2024广州车展,这次瓜子二手车邀请罗永浩担任首席砸价官,罗永浩现场抡大锤砸穿新能源底价
2024-11-15 20:21:00
2699元起 ROG THOR雷神III 1200/1000W电源上架:引入GaN氮化镓
快科技11月15日消息,ROG THOR雷神III 1200/1000W电源目前已经上市,首发2699元。据悉,新款电源支持最新的ATX 3
2024-11-15 20:21:00
RTX 50全系升级12V-2x6供电接口!最高功率450W
快科技11月15日消息,RTX 40全系标配了新一代12VHPWR 16针供电接口,但因为缺陷而在RTX 4090上出现了多次烧毁事件
2024-11-15 20:51:00
本文转自:人民网-广西频道近年来,百色紧抓发展机遇,创新前行,积极投身于智慧城市建设,并在2024年印发了《“数字百色”工作方案》
2024-11-15 21:03:00
微软宣布暂停windows11新功能更新直至2025年
微软一直在Windows11的各种测试版中不断推出新功能,但现在要放缓下更新的脚步了。微软宣布,将暂停Windows11的新功能更新直至2025年
2024-11-15 21:24:00
中国消费者报太原讯(记者冯铁飞)11月15日,山西省市场监管局质量技术科技帮扶员派驻启动会在太原市召开。山西省市场监管局党组书记
2024-11-15 21:29:00
四川星马重工机械有限公司:22项专利驱动智能制造,乐至新星闪耀科技之光
本文转自:人民网-四川频道11月14日,在位于四川乐至经济开发区的四川星马重工机械有限公司生产车间里,只见工人们正专注地操作着激光切割机床
2024-11-15 21:54:00
融入新发展格局!汇川工业经济稳健前行
多彩贵州网讯 “物流车到了吗?赶快!这批货要发出去。”“单子打好了,现在装车。”……近日,走进位于汇川区遵绥路的遵义金紫阳食品有限公司
2024-11-15 22:29:00
11月15日,阿里巴巴集团发布2025财年第二季度财报,核心业务保持稳健增长。在当晚的分析师电话会上,集团CEO吴泳铭表示
2024-11-15 22:39:00
自行车受宠200年 | 知书
作为一项无法确定发明者的发明,自行车动态多元的特质在200多年前就已注定。再没有哪种交通工具能如此彰显平民性与创造力,承载流动的生活与自由的梦想
2024-11-15 16:36:00
助力进博,服务客户!德必这趟进博服务“专列”被点赞
2024年11月,第七届中国国际进口博览会(以下简称“进博会”)在国家会展中心如期举行。在这场汇聚全球精品、引领行业潮流的盛会背后
2024-11-15 16:45:00