新宠,模型,正在,模型,参数,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球最强开源大模型Llama 3发布：使用15T数据预训练，最大模型参数将超4000亿

就在刚刚，Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍，Llama 3 在 24K GPU 集群上训练，使用了 15T 的数据，提供了 8B 和 70B 的预训练和指令微调版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

国产GPU万卡集群终于来了！摩尔线程CEO张建中：做难而正确

...张建中抛出一句掷地有声的断言。为什么必须是万卡？大模型行业变化很快，客户希望两周内结束战斗，最迟也得在1个月内训练完。假设训练一个5000亿参数模型，有15TB数据，如果只有1000P算力，3年都训不完；如果将时间锁到两...……更多

2024-07-09 09:47:00摩尔,张建中,万卡,张建,集群,线程

“最强开源AI模型”，4050亿参数版Meta Llama

...援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B，在现有 80 亿和 700 亿参数两个版本之外，推出 4050 亿参数版本，号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时，扎克伯格就在采...……更多

2024-07-13 09:52:00日发布,模型,参数,模型,伯格,媒体

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛，...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...又多了一个选择！今日，腾讯宣布旗下的混元视频生成大模型（HunYuan-Video ）对外开源，模型参数量 130 亿，可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的「AI 视频」板块申请试用。腾讯...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

全球首个！中国电信完成千卡、千亿参数模型500公里联合训练试

...、北京电信成功了完成业内首个1024卡、千亿参数商用大模型的分布式联合训练真实用户试商用。通过天津市武清区到北京市大兴区瀛海镇之间的真实光路环回，实现了500公里长距互联分布式训练，而且训练性能达到单数据中心...……更多

2025-01-23 13:32:00中国电信,中国,商用,模型,训练,参数

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...转自：中国新闻网6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

amd推出10亿参数语言模型系列amdolmo

...10月31日发布博文，宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo，为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列（LMs），在AMDInstinct™MI250GPU集群上训练，使用了超过1.3...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

Llama3.1根本卖不动！业内人士：开源模型成本反而更高

Meta的开源大模型Llama 3在市场上遇冷，进一步加剧了大模型开源与闭源之争的关注热度。据外媒The Information报道，Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注，AWS的企业客户更倾向于使用Anthropic...……更多

2024-08-28 09:44:00业内人士,模型,业内,根本,人士,成本

1行代码改进大模型训练，Llama训练速度升至1.47倍，华

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

大模型推理与训练的边界之争

随着大模型的发展日新月异，其推理和训练的边界问题也引起了广泛讨论。近日，清程极智CEO汤雄超在一场行业活动中明确表示，尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限，但从技术角度来看，这两个阶段...……更多

2024-11-07 20:18:00边界,推理,模型,训练,推理,模型

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

不必增加模型参数，计算资源相同，小模型性能超过比它大14倍的模型！谷歌DeepMind最新研究引发热议，甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

大模型这把大火，烧到了手机领域

配图来自Canva可画AI大模型从年初一直火到了年尾，但似乎离普通人还有些距离。不过，现在情况似乎有了一些变化，各大手机厂商们，正在争先恐后地把大模型装进手机里，让AI变得“触手可及”。在很多人看来，手机厂商入...……更多

2023-12-15 10:18:00大火,模型,领域,手机,模型,手机

huggingface公布“smollm”小语言模型家族

7月20日消息，如今小语言模型开始升温，许多厂商开始推出适用于手机等轻量级设备的“小模型”，本周HuggingFace便公布了“SmolLM”小语言模型家族，其中包含1.35亿、3.6亿及17亿参数模型。据介绍，这些模型号称是以精心策划的...……更多

2024-07-21 01:19:00小语,模型,家族,模型,小语,参数

若愚科技推出九天机器人大脑，大模型总参数规模达130亿｜项

...受瞩目的热门话题。在若愚科技CEO孙腾看来，机器人是大模型最理想的落地载体和应用平台，大模型的引入彻底改变了机器人仅能在单一场景下执行单一任务的困境，使机器人智能化水平显著提升，变得更聪明，能够承担更复杂...……更多

2023-12-26 09:36:00九天,机器人,大脑,模型,机器,参数

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...VentureBeat报道，德国AI创企Aleph Alpha今日发布了两个大语言模型（LLM）。这两个模型各拥有70亿个参数，可以在多种欧洲语言中提供简洁、长度可控的响应，并已开源。该公司宣称，其模型的性能可以与其他在70亿到80亿参数量级的...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...乎「配得上」这个体量？GPT-3.5只有200亿参数？今天，大模型圈都被微软论文中的一纸截图刷爆了，究竟是怎么回事？就在前几天，微软发表了篇论文并挂在了arXiv上，该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusio...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

通义千问发布半年，大模型已不是阿里云唯一主角 | 焦点分析

...力”的内涵已经进化到了“AI算力”。阿里云并没有让大模型成为2023年云栖大会的主角，不过，大模型却又无处不在。做AI时代的“电动机” 今年4月正式亮相的通义千问，是阿里云自研的底层通用大模型。半年过去，如今阿里...……更多

2023-11-03 14:33:00通义,阿里,模型,主角,半年,焦点

小米开源首个推理大模型Xiaomi MiMo：7B参数就超越

...官方今天正式宣布，开源首个为推理（Reasoning）而生的大模型——Xiaomi MiMo。据介绍，Xiaomi MiMo在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo仅用7B的参数规模，超越了OpenAI的闭源推理模型o1-mini和……更多

2025-04-30 10:36:00小米,推理,模型,参数,训练,推理