训练,开放,缓存,提示,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...官方还附赠一波福利：每个组织每天都能免费获得100万个训练token，用到9月23日。也就是说，开发人员现在可以使用自定义数据集微调GPT-4o，从而低成本构建自己的应用程序。要知道，OpenAI在公告中透露了：GPT-4o微调训练成本为...……更多

2024-08-22 09:52:00训练,开放,缓存,提示,模型,训练

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问

...能解决越来越复杂和越来越多的难题，而这些难题所需的训练数据已经超出了人类的能力。因此，我们就需要为 LLM 构建一种能使其实现自我提升的基本机制，让模型可以持续地自我生成和自我求解更困难的问题。于是，问题就...……更多

2024-11-06 09:44:00框架,人类,问题,提示,策略,模型

3天把Llama训成Mamba，性能不降，推理更快！

...型的推理速度。为什么要把Llama变成Mamba？因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了，相关的研究每天都有，但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba（进化到了1.5版本，最大398B，MoE...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

Mamba再次挑战霸主Transformer！首个通用Mam

...出的第一版Mamba架构，增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型：- 可以在不增加任何内存存储的情况下处理任意长度的序列，特别是可以在单张A10 24GB GPU上运行；- 无论上下文大小...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

浪潮信息推出as13000g7-n系列

...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力，助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎，全力保障大模型高效训练在大模型的数据应用全...……更多

2024-06-16 10:27:00浪潮信息,浪潮,信息,模型,数据,训练

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...，覆盖了苹果LLM的设计与评估，包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

... 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。在最近关于「Scaling Law 是否撞墙」的讨论中，后训练（post-training）被寄予厚望。众所周知，近期发布的 OpenAI o1 在数学、代码、长程规划等问题上取得了显...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

腾讯推出 Hunyuan-Large 开源大模型

...uan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册，详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下：高质量合成数据：通过合成数据增强训练，Hunyuan-Large能够学习到更丰富的表示，...……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外，该研究还提出了一种硬件感知推测解码算法，可以加快 Mamba 和混合模型的推理速度。论文地址：https://arxiv.org/pdf/2408.15237该研究的性能...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...晶圆级AI芯片WSE-3，性能达到了上一代WSE-2的两倍，可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...、算力补贴、应用场景示范、人才等全方位支持；清影的训练依托亦庄高性能算力集群，在北京亦庄算力集群诞生，未来也将应用于北京亦庄广阔的高精尖产业集群，形成大模型赋能实体经济的新业态。在生态合作上，bilibili作...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

Adobe推视频生成大杀器！最长生成5秒视频，一键重拍成为现

...建，使创意人员能有更多时间探索创意愿景。三、Firefly训练数据合法且丰富，支持超过100种语言文本提示商业可用性是AI视频生成行业的关键问题。此前，Runway公司在训练其AI视频生成工具Gen-3时，涉嫌非法使用了大量YouTube视...……更多

2024-10-17 09:52:00公测,一键,生成,视频,现实,开放

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...理的全新模型架构。具体来说，为了支持图像输入，Meta 训练了一组适应器权重（adapter weight），其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成，这些层的作用是将图像编码器表征馈...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

字节版Sora火爆24小时，同名论文再次被热议

...与文本指令进行视频生成，并有效利用公开视频数据进行训练。首先，团队采用广泛使用的2D UNet作为扩散模型，该模型由一系列空间下采样层和一系列空间上采样层构建，并插入了跳跃连接。具体来说，它由两个基本模块构建...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始，LazyLLM 会逐渐对 token 进行剪枝，从而逐渐减少得到最终模型所使用...……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

2023内容科技应用典型案例：农业银行大模型ChatABC

...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优，实现了全方位的金融知识理解和智能问答应用。图：ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略，始终保持对...……更多

2024-04-08 17:06:00农业银行,典型案例,模型,典型,案例,银行

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...选择专家模块。但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题，部分参数不常使用降低参数效率，在处理长序列时可能在计算效率和训练稳定性方面面临挑战，且对动态变化适应性不足。二、MixCon 的核心架构与技术C...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

大模型新趋势之MoE：现状、挑战及研究方向

...门控模型控制专家模型的选择和加权混合。简言之，MoE在训练过程通过门控模型实现“因材施教”，进而在推理过程实现专家模型之间的“博采众长”。图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化，在模型研...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...的下一代产品——Llama 3。据介绍，Llama 3 在 24K GPU 集群上训练，使用了 15T 的数据，提供了 8B 和 70B 的预训练和指令微调版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业基准测试中达到了 SOTA，并提供了新的功能，如改进...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...更多 OpenAI 的开放部分’。回到模型本身，Grok-1 从头开始训练，并且没有针对任何特定应用（如对话）进行微调。相对的，在 X（原 Twitter）上可用的 Grok 大模型是微调过的版本，其行为和原始权重版本并不相同。 Grok-1 的模型...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

智谱AI新一代基座大模型GLM-4在司南评测中跻身前列，位居

...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构，三年多来始终坚持全自研路线，新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

文心大模型4.0 Turbo来了！百度推出文心快码2.5，已

...上，考虑到大模型和异构多芯发展趋势，为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片，飞桨与文心联合，在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说，动静统一的自动并...……更多

2024-07-01 09:21:00文心,快码,程序员,模型,程序,文心

智谱AI发布基座大模型GLM-4，发起大模型开源基金

...杂的方程或微积分求解。智谱AI于2020年底开始研发GLM预训练架构，2021年训练完成百亿参数模型GLM-10B，2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM，并开源单卡版模型Cha...……更多

2024-01-17 16:47:00模型,基座,基金,模型,文生,模态

CMU副教授：在多智能体流行的当下，不要忽视单智能体系统

...种多样的任务。就算它们缺乏某个功能，也可以通过持续训练来增添，同时不会对其它功能产生太大影响。单动作空间：这也不难。如果我们有多个使用不同工具的智能体，那么我们可以 (1) 为模型提供相对通用的工具，以帮...……更多

2024-10-11 12:03:00智能,副教授,体系,智能,提示,体系

pytorchtorchao正式发布,提供了一系列优化工具集

...效减少硬件开销和RAM用量。官方举例，在LLaMA370B模型的预训练中，torchao提供的float8训练流程可将模型计算速度提升1.5倍。开发者只需利用convert_to_float8_training函数，即可将模型训练转换为float8，从而轻松实现模型高效训练。在推...……更多

2024-10-03 02:58:00工具集,工具,模型,可将,训练,推理