• 我的订阅
  • 头条热搜
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
随着 AI 模型的参数量越来越大,对算力的需求也水涨船高。比如最近,Llama-3.1 登上了最强开源大模型的宝座,但超大杯 405B 版本的内存就高达 900 多 GB,这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛,...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为...……更多
Meta首次公布AI芯片细节 功耗低于英伟达
...)计划的一部分,主要用于提升广告投放和其他内容推荐模型的效率。据Meta介绍,首个MTIA芯片将专注于AI推理。Meta软件工程师Joel Coburn表示,Meta最初考虑将GPU用于推理任务,但后来发现GPU并不不太适合推理工作。“GPU在真实模...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文,结果。真实数据稀缺可能不再是问题...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...量问题而导致难产的节骨眼,Meta毫不客气发了它的视频模型“Movie Gen”,并直接用一个完整的评测体系宣告自己打败了Sora们。而且更狠的是,Meta还“杀人诛心”,虽然这模型目前和Sora一样还没对外开放,但它把新模型的95页技...……更多
对标chatgpt,华硕子公司台智云发布福尔摩斯大模型
...司台智云近日在AIHPCconAI超算年会上发布企业级大型语言模型“福尔摩斯大模型”。▲图源:华硕官网华硕董事长施崇棠表示,自去年生成式AI横空出世后,华硕观察到企业客户希望用生成式AI进行新一波生产力革命。在华硕博客...……更多
从0构建gpt!网友:比之前的教程都要清晰
...,今天要讲的这个博主的教程,更侧重于代码实现部分,模型的权重则用已经训练好的。对此,博主解释称这篇教程的重点在于提供一个简单且易于破解的完整技术介绍。这对还不理解GPT背后概念的盆友,算是非常友好了。还有...……更多
从AI画画到“用声音做视频”,全球掘金AIGC | 焦点分析
...焦点。今年4月,一家名为Open AI的公司公布旗下的DALL-E 2模型,其用文字生成图像的质量之高,让人震惊——以前,“AI画画”还只是一小群人的游戏,AI画出来的画,像出自小学生之手一样朴实稚拙。但很快,大家发现AIGC进步神...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常“神奇”。...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。有的人提到,...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini,其最强大的TPU(张量处理单元)系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本,谷歌承诺其速...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
围剿ChatGPT
人工智能(AI)聊天机器模型ChatGPT风潮狂飙超过百日,包括马斯克在内的商界大佬、科技巨头以及各国政府都已开始着手围剿GPT。钛媒体App获悉,北京时间4月25日凌晨的RSA 2023大会上,美国科技巨头谷歌(Google)宣布推出基于Sec...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
...人 、新加坡国立大学校长青年教授尤洋发表了题为《大模型训练的关键技术》的主题演讲。尤洋指出,庞大的AI模型规模对模型训练提出了挑战,现有的硬件设备已无法满足训练所需的大量计算资源和储存空间需求。为解决上述...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
chatgpt低成本复现流程来了
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1.62GB 显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch,单机训练速度最...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
没有这些,别妄谈做 ChatGPT 了
...在用行动来表明战斗力,比如前些天复旦大学推出的 MOSS 模型,一经开放试用,便冲上热搜。一时间眼花缭乱,让人生疑。有钱就能训出模型?以美团大佬带资入组为代表,很多创业者和投资人盯上了 ChatGPT,作为一个 NLPer,我...……更多
更多关于科技的资讯:
今年10月,我国首个国产移动操作系统——华为原生鸿蒙操作系统正式发布,这也是继苹果iOS和安卓系统后,全球第三大移动操作系统
2024-11-25 13:42:00
微软宣布推出EdgeGameAssist预览版,这是一个专为PC游戏优化的微软Edge浏览器特殊版本,能够集成在Windows11系统的GameBar中
2024-11-25 13:44:00
nvidia下一代显卡rtx5090规格揭晓,一起来看看吧
NVIDIA下一代显卡RTX5090的规格逐渐揭晓,最新消息显示,RTX5090所采用的GB202GPU尺寸为744平方毫米( 24*31mm)
2024-11-25 13:45:00
时代顺成:以卓越研发实力,引领科技新潮
在当今科技飞速发展的时代,企业的研发实力成为其立足市场、引领行业的核心竞争力。时代顺成,作为一家在科技创新领域崭露头角的企业
2024-11-25 13:45:00
锐龙核心将于1月底上市,平均提升幅度5.66%
这一代锐龙79800X3D的表现技惊四座,尤其是游戏性能断崖式领先Intel。现在,更强的锐龙99950X3D也要来了
2024-11-25 13:47:00
吉利银河星舰7em-i广州车展首次亮相,即将上市
吉利汽车宣布,其全新车型吉利银河星舰7EM-i将于12月6日上市,先享提车价为10.98-14.28万元。这款新车在广州车展上首次亮相
2024-11-25 13:50:00
近日,多款卫生巾因实际长度短于外包装标明长度,被消费者质疑“偷工减料”。网友实测发现,多款知名品牌的卫生巾内吸收层长度
2024-11-25 13:51:00
极米H6系列投影仪今日正式亮相,该款投影仪拥有1200CVIA/lm流明亮度,售价4199元。据介绍,极米H6投影仪标准版采用DLP显示技术(显示芯片
2024-11-25 13:56:00
小米官方今日宣布:欧普护眼台灯元睿2PRO接入米家App,支持小米澎湃智联,提供远程、语音等控制方式。据介绍,用户可使用米家App 远程开启
2024-11-25 13:58:00
距离Rico辞职创业、成立专注研发小游戏的“在逃牛马工作室”已经过去了一年。这是个7人小团队,第一款试水产品发布在TapTap上
2024-11-25 14:02:00
出彩临港人 | 以\
本文转自:人民网-上海频道出彩临港人 | 以"她"力量引领生物医药产业新航向——记上药控股有限公司副总经理宋潞潞生物医药产业
2024-11-25 14:06:00
吉林银行携手银联数据 以5G数据引领信用卡业务数字化转型
信用卡业务发展已历经近四十载春秋,在推动消费升级、促进经济转型以及构建信用体系方面发挥了不可或缺的作用。然而,随着国内外环境的变迁和监管体系的完善
2024-11-25 14:22:00
10万内国产SUV!吉利缤越家族累计销量突破百万大关
快科技11月25日消息,吉利汽车近日宣布,吉利缤越家族累计生产达到第100万辆整车,同时缤越L车型将于11月27日上市
2024-11-25 14:29:00
国产3A之光!《黑神话:悟空》获英国游戏界最高奖项提名
快科技11月25日消息,英国影视界及游戏界最高奖项“英国电影与电视艺术学院奖”(BAFTA)宣布,《黑神话:悟空》首席表演总监Beth Park荣获BAFTA“最佳突破奖”提名
2024-11-25 14:29:00
记者近日从驻津央企中海油能源发展装备技术有限公司获悉,由该公司设计研发中心自主研发的工程建设管理系统在中国海洋石油国际有限公司北京总部
2024-11-25 14:30:00