• 我的订阅
  • 头条热搜
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...次开源的意义,有热心网友也帮忙总结了:对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。当然,除了OpenAI和苹果,上周Mistral AI联合英伟达也发布了一个12B参数小模型。 HuggingFace创始人...……更多
“言出必行”马斯克,全球最大开源模型Grok真的来了
...重和网络架构。xAI 表示,开源版大模型Grok-1是一个由 xAI 从头开始训练的 3140 亿个参数混合专家模型。据介绍,基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调;3140 亿参数的 MoE 模型,在给定 token 上的激...……更多
16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次
...且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...来的,其中稀疏记忆格式保持了真实的存储大小;研究者从头开始训练了一个具有 2.4B 非嵌入参数的 Memory3 模型,其性能超过了更大规模的 SOTA 模型。它还比 RAG 具有更好的性能和更快的推理速度; 此外,Memory3 提高了事实性并...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...们想了解更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1...……更多
XAI大模型Grok-1已正式开源 但并不是在马斯克说的上周
...k-1的参数是最多的。XAI官网的信息还显示,Grok-1是由他们从头开始训练的模型,此次发布的是预训练阶段结束时的原始基础模型检查点,预训练阶段在去年10月份完成。这也就意味着他们开源的模型,没有进行针对对话等任何具...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家(MOE)模型,远超OpenAI的GPT模型。而此次开源的模型是是Grok-1预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...型都是在大语言模型LLM之上生长出多模态的应用,而并非从头开始训练的多模态的大模型,这是多模态大模型目前“不能言说的秘密”。 图源:中信建投证券谷歌自己也提到,到目前为止,创建多模态模型的标准方法基本是针...……更多
百度云升级模型服务,百度版GPTs即日开放 | 最前线
...都要先获得这个场景里的这些数据,根据你所用的模型,从头开始去训练,尽管之前模型不像现在的模型参数这么大,一亿个参数在去年可能还算是一个挺大的,今年大家都说10亿是小模型,其实也是很大规模的模型。图像、语...……更多
...亿稠密模型能够促进整个开源社区的发展,让大家不需要从头开始训练万亿参数模型,也就不需要从头解决收敛的问题。”具身智能得益于大模型的通用能力,机器人有了注入“灵魂”的可能。王仲远提到,智能体很可能会成为...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...十亿个值,从而尽可能减少存储参数所需的空间。让我们从头开始,探索数值是如何表示的,然后再进行优化。如何表示数值数值存储的形式通常是浮点数(floting point number,或简称为floats):一个带有小数点的正数或负数。这...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...中则提供了对话示例。 实验及评估在表6中可以发现,与从头开始训练相比,从更大的模型中提炼出来的结果提高了性能。需要注意的是,500B个token是2.6B模型最佳计算token数的10倍。研究团队从7B模型进行蒸馏,以保持与从27B模...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
...车、音箱、可穿戴等很多智能硬件上的很多AI算法,我们从头到尾都做过,所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力,冷启动时间非常短,很快就能进入快车道。具体地,我们在...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...球科技公司Yandex推出了YaFSDP,这是一种用于训练大型语言模型(LLM)的开源方法。据介绍,YaFSDP是目前在大型语言模型训练中增强图形处理器(GPU)通信并减少内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...转自:中国新闻网6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
...略合作关系,华为云以及昇腾算力产品线同样能为公司大模型的研发提供算力支持,公司目前正在积极与华为对接,展开大模型产品与应用的软硬件解决方案的研发。公司大模型相关产品的研发从规划之初一直采用自主可控的路...……更多
马斯克旗下人工智能大模型Grok已正式开源
...的副本用于各种目的,包括商业应用。Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型,现在可以在其 Github 页面或通过 torrent 链接下载。 Grok 在 Apache License 2.0 下发布,允许商业使用、修改和分发。但是,用户必须...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...有效性。 谷歌对此表示:这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。具体到模型架构方面,Gemini基于增强的Transformer decoder打造...……更多
轻量化模型架构catvton的优势在哪里
...在话下。 来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、...……更多
...低,也会带来成本的降低。”周鸿祎说,专业模型不需要从头训练,而是在通用大模型的基础上,加上垂直场景和内部专有知识打造而成。“就像‘小海’,它可以把海工很多内部知识、数据进行整合,使它‘懂’公司的业务,...……更多
微软被曝正自研AI大模型:5000亿个参数,与谷歌和OpenAI竞争
...巨头微软或正在研发参数达5000亿的全新AI(人工智能)大模型,将正面叫板谷歌和OpenAI。当地时间5月6日,据外媒报道,微软正在研发一款名为MAI-1的最新AI大模型,其规模远超出微软此前推出的一些开源模型,在性能上或能与谷...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
更多关于科技的资讯:
洛瓦托(LOWATO)深耕暖通30载,破局两联供系统痛点!
“两联供系统水泵能耗高、流量失衡、噪音难控?”这一困扰暖通行业多年的难题,已被浙江叩叩环境科技有限公司成功攻克。凭借30年的技术积累和12年的实战数据
2025-04-24 17:46:00
究竟是什么因素促使游戏推广行业备受青睐呢?
在当今多元化的创业领域中,游戏推广行业正逐渐崭露头角,成为众多创业者眼中的香饽饽。那么,究竟是什么因素促使游戏推广行业备受青睐呢
2025-04-24 17:58:00
交通类 AI 项目预演阶段,本地化部署的一些新思路
交通行业的AI应用场景目前主要涵盖交通公共服务体验优化、汽车等交通工具的智能化升级和物流的智能化转型。大部分应用场景仍在项目实验阶段
2025-04-24 18:00:00
红旗首款硬派越野公开征名:采纳就送001号车
快科技4月24日消息,2025上海车展上,红旗品牌首款豪华硬派越野车迎来全球首发。这款越野车以全场景出行为核心设计理念
2025-04-24 18:02:00
台积电A14制程细节亮相:速度提升15% 2028年量产!
美东时间周三(4月23日),台积电在美国的北美技术研讨会上发布了其1.4纳米级半导体工程技术A14,并承诺该技术将在性能
2025-04-24 18:02:00
真嘴强王者!男子用嘴吸盗空挖掘机135升柴油:官方提醒
4月24日消息,据“库尔楚派出所”官方通报,近日,该所速破一起令人哭笑不得的柴油盗窃案,成功将“油耗子”艾某绳之以法,并追回被盗柴油135升
2025-04-24 18:02:00
好消息!曝NVIDIA大幅增加RTX 50供应:这两款除外
快科技4月24日消息,NVIDIA新一代RTX 50系列显卡基本已经全部上市,但是供应一直很紧张,而且还存在较大幅度的溢价
2025-04-24 18:02:00
7大美女一起修仙!《美女请别影响我成仙》上架:6月20日发售
近日真人互动影游《美女,请别影响我成仙》上架Steam商店,并曝光首个游戏预告,本作将于6月20日发售。值得一提的是,《美女
2025-04-24 18:02:00
本文转自:人民网-观点频道嘉 佑北京时间2025年4月24日17时17分,搭载神舟二十号载人飞船的长征二号F遥二十运载火箭
2025-04-24 18:06:00
六足机器狗“守护”应县木塔
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)4月23日,“AI智慧应县木塔2.0:具身智能X数字文遗升级路径研讨会”
2025-04-24 18:07:00
总台主持人陈伟鸿走进君乐宝 全链解密一杯好奶的“黄金公式”
4月24日,总台主持人陈伟鸿走进君乐宝乳业集团,携手君乐宝董事长兼总裁魏立华,开启一场“追溯科学营养密码”的深度探秘之旅
2025-04-24 18:23:00
RTX 5070、RTX 5070 Ti在欧洲已破发!国内还是太贵
快科技4月24日消息,RTX 5070系列发布的时间不长,但已经开始破发了,可惜国外国内两重天。在欧洲,RTX 50系列破发的情况更普遍
2025-04-24 18:32:00
快科技4月24日消息,国产汽车又上大分啦!近日,2025年上海国际车展开幕,吸引了不少来自沙特阿拉伯的中东友人观展,现场开启“买买买”的扫货模式
2025-04-24 18:32:00
一个鲜花电商的坚持与救赎
今年3月18日,宋宁收到了两年前的鲜花订单——自己最喜欢的野逸套餐王柯在花卉基地曾经风光一时的电商花加 今年3月18日
2025-04-24 18:44:00
安徽天康集团隆重举行第四届科技和人才大会暨品牌战略发布会
4月23日,安徽天康集团第四届科技和人才大会暨品牌战略发布会在天康疗养中心隆重举行。广东省机器人协会副会长、深圳卡伊瓦机器人公司创始人
2025-04-24 18:45:00