新宠,模型,正在,模型,参数,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛，...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...转自：中国新闻网6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

amd推出10亿参数语言模型系列amdolmo

...10月31日发布博文，宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo，为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列（LMs），在AMDInstinct™MI250GPU集群上训练，使用了超过1.3...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

Llama3.1根本卖不动！业内人士：开源模型成本反而更高

Meta的开源大模型Llama 3在市场上遇冷，进一步加剧了大模型开源与闭源之争的关注热度。据外媒The Information报道，Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注，AWS的企业客户更倾向于使用Anthropic...……更多

2024-08-28 09:44:00业内人士,模型,业内,根本,人士,成本

大模型推理与训练的边界之争

随着大模型的发展日新月异，其推理和训练的边界问题也引起了广泛讨论。近日，清程极智CEO汤雄超在一场行业活动中明确表示，尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限，但从技术角度来看，这两个阶段...……更多

2024-11-07 20:18:00边界,推理,模型,训练,推理,模型

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

不必增加模型参数，计算资源相同，小模型性能超过比它大14倍的模型！谷歌DeepMind最新研究引发热议，甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

大模型这把大火，烧到了手机领域

配图来自Canva可画AI大模型从年初一直火到了年尾，但似乎离普通人还有些距离。不过，现在情况似乎有了一些变化，各大手机厂商们，正在争先恐后地把大模型装进手机里，让AI变得“触手可及”。在很多人看来，手机厂商入...……更多

2023-12-15 10:18:00大火,模型,领域,手机,模型,手机

huggingface公布“smollm”小语言模型家族

7月20日消息，如今小语言模型开始升温，许多厂商开始推出适用于手机等轻量级设备的“小模型”，本周HuggingFace便公布了“SmolLM”小语言模型家族，其中包含1.35亿、3.6亿及17亿参数模型。据介绍，这些模型号称是以精心策划的...……更多

2024-07-21 01:19:00小语,模型,家族,模型,小语,参数

若愚科技推出九天机器人大脑，大模型总参数规模达130亿｜项

...受瞩目的热门话题。在若愚科技CEO孙腾看来，机器人是大模型最理想的落地载体和应用平台，大模型的引入彻底改变了机器人仅能在单一场景下执行单一任务的困境，使机器人智能化水平显著提升，变得更聪明，能够承担更复杂...……更多

2023-12-26 09:36:00九天,机器人,大脑,模型,机器,参数

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...VentureBeat报道，德国AI创企Aleph Alpha今日发布了两个大语言模型（LLM）。这两个模型各拥有70亿个参数，可以在多种欧洲语言中提供简洁、长度可控的响应，并已开源。该公司宣称，其模型的性能可以与其他在70亿到80亿参数量级的...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈

...乎「配得上」这个体量？GPT-3.5只有200亿参数？今天，大模型圈都被微软论文中的一纸截图刷爆了，究竟是怎么回事？就在前几天，微软发表了篇论文并挂在了arXiv上，该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusio...……更多

2023-11-04 14:46:00微软,截图,参数,网友,论文,模型

通义千问发布半年，大模型已不是阿里云唯一主角 | 焦点分析

...力”的内涵已经进化到了“AI算力”。阿里云并没有让大模型成为2023年云栖大会的主角，不过，大模型却又无处不在。做AI时代的“电动机” 今年4月正式亮相的通义千问，是阿里云自研的底层通用大模型。半年过去，如今阿里...……更多

2023-11-03 14:33:00通义,阿里,模型,主角,半年,焦点

专家模型不要专家并行！微软开源MoE新路径

...日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...之心开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型‘Grok-1’，以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

小米大模型：不搞军备竞赛

轻量级的模型亦有其存在的市场空间。2022年11月底，基于GPT-3.5的ChatGPT刚出来的时候，小米集团AI实验室主任、自然语言处理（NLP）首席科学家王斌给ChatGPT抛出一个问题：证明一下勾股定理。最终，ChatGPT给出了一个基于数学归...……更多

2023-11-08 18:13:00军备,小米,竞赛,模型,模型,小米

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...点在于，Llama 3.2成为羊驼家族中，首个支持多模态能力的模型。Connect大会上，新出炉的Llama 3.2包含了小型（11B）和中型（90B）两种版本的主要视觉模型。正如Meta所说，这两款模型能够直接替代，相对应的文本模型，而且在图像...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来，大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而， LLM 的训练和推理成本高昂，人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instru...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练