诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...团队如何加班加点，好让产品迭代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月，“老大哥”谷歌熬不住了。12月6日，谷歌有史以来体量最大、功能最强的大模型Gemin...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑

...并行，就先将卷积算子进行张量切分，然后把大模型中的注意力层和前馈层的矩阵计算权重，分别输入到多个处理器的内存中。如此一来，通用服务器中的4颗CPU便可同时获取算法权重，进行计算加速。不过，张量并行对模型参...……更多

2024-08-02 09:47:00大厂,模型,参数,疯狂,服务器,服务

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...量，然后使用循环骨干网络。研究者使用了带有多查询注意力的五层 transformer 骨干网络，输入的相机视频被切成小块，并由一个卷积层并行处理。然后，他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

马斯克打脸OpenAI！全球最大模型Grok-1开源

...ken)由2位专家处理，共64个处理层，用于处理查询的有48个注意力机制单元(attention heads)，用于处理键(key)/值(value)的有8个注意力机制单元，嵌入向量(embeddings)的维度为6,144，采用旋转式嵌入表示( RoPE) ，使用SentencePiece分……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

to B要挣钱、to C要谨慎，李开复的大模型坚持

...，"B端市场为了提高效率、跟上时代步伐、吸引投资人的注意力，可能有一些是相对刚需的购买意愿。如真的能够切入某一类或者某一个领域，了解他们的需求，是有可能抢占市场先机的。" ……更多

2024-10-17 09:58:00李开复,模型,模型,李开复,万物,时间差

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...nAI制作的图像-文本模型，基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制，通过修改自注意力层的关键（K）和值（V）矩阵，接受额外的条件图像，提高了生成图像的准确性。此外，Zero123++引入了一个可训练的线性引导机制（来自Flex...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

德国OpenAI加入开源大战！发布欧洲纯血版模型，曾获博世和

...，该模型引入了创新的技术，使用了一种称为“分组查询注意力”（Group Query Attention，GQA）的技术。Aleph Alpha声称这提高了推理速度，且几乎没有牺牲质量。模型还采用了“旋转式位置编码”（Rotary Position Embedding，RoPE）的方法...……更多

2024-08-28 09:43:00博世,纯血,惠普,欧洲,德国,模型

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战

...态 token 作为 Query，将模态特征作为 Key 和 Value 进行交叉注意力（Cross Attention）。该方法根据当前任务阶段的需求，将各模态的特征动态地整合到一个融合 token 中。最后，该融合 token 输入到策略网络（MLP）中预测下一个动作。我...……更多

2024-11-09 09:53:00胡迪,模态,感官,变性,机器人,团队

“3D视频版Sora”来了！

...视点的正弦嵌入传递给UNet中的卷积块，并在空间和视图注意力块中，使用输入视频进行交叉注意力条件设定。为了提高时间一致性，SV4D引入了一个额外的运动注意力块，并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多

2024-07-26 09:30:00视频,视频,模型,视图,生成,视角

摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐

...个实体类型。研究团队提出了两种聚合方法：加权和基于注意力的函数。在实验中，他们发现基于注意力的函数效果更好。具体而言，他们计算每个实体类型的注意力权重，并通过加权求和的方式获得最终的伪类型嵌入。接下来...……更多

2024-07-27 09:28:00图谱,人工,模型,自动化,方法,知识

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万

...集上均表现优秀在推理速度方面，通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍，将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒，实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多

2024-11-21 09:48:00百炼,阿里,上下文,模型,上下,支持

字节版Sora火爆24小时，同名论文再次被热议

...。具体来说，它由两个基本模块构建，即2D卷积模块和2D注意力模块。通过插入时间层将2D UNet 扩展为3D变体，其中在2D卷积层之后插入1D时间卷积层，2D注意力层之后插入1D时间注意力层。模型可以通过图像和视频联合训练，在空...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...建模方法可以减少序列长度，缓解Transformer架构中不正确注意力机制导致的生成错误，从而在WER分数上得到提升。作者简介本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士，他从2020年开始担任MSRA自然语...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...这些嵌入通过投影块与文本标记对齐，投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后，投影块中的视觉标记就被添加到文本标记前面，并将联合表示传递给Llama 3。Llama3-V套壳实锤，或损害开源社区健康发展...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

黄仁勋对话Transformer七作者：很多计算资源被浪费，

...21日，提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切（Attention Is All You Need）》的作者们现身英伟达GTC大会，在名为Transforming AI（变革AI）的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多

2024-03-21 21:12:00模型,对话,作者,资源,世界,模型

从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够

...彻底改变了语言建模。Transformer 是一种神经网络，它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展，改进了注意力机制和架构。发展到今天，OpenAI 发...……更多

2024-09-21 09:37:00能效,架构,工艺,硬件,加速器,能效

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...询/键归一化，提高训练稳定性具有8个键值头的分组查询注意力（GQA），减少KV缓存的内存占用更高效的SwiGLU激活基础频率为500k的RoPE位置嵌入，支持长上下文适配器架构通过使用LoRA适配器，苹果的基础模型可以动态地根据当前...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...领跑全球。当前，在文本大模型领域，OpenAI吸引了全球的注意力；但是在AI搜索、AI音乐生成等细分领域，中国玩家们正在奋勇前行，不断通过自研技术取得细分领域顶尖的SOTA表现，共同建设中国大模型产业，打造自主可控的大...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

RAG真能提升LLM推理能力？人大最新研究：数据有噪声，RA

...第个token 是噪声，否则该token是相关的。令表示LLM的原始注意力层。我们假设期望的自注意力函数为：对模型的微调可以表示为其中，ΔW 表示其余项。在这种情况下，如果我们需要, 我们需要对于所有的相关的token ，有因此，需...……更多

2024-10-23 13:34:00噪声,推理,性能,能力,数据,研究

直面大模型“大成本”挑战，如何提高算力效率？

...2.0”系列大模型已有工作基础，创新提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家(Expert)的混合专家模型(MoE)，并大幅提升了模型算力效率，模型运行时激活参数为37亿，在业界主流基准评测中性能全面对...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

所谓AI革命，到现在为止，是能源的一场“灾难”

...ansformer架构的深度神经网络算法，这种架构的算法通过自注意力机制处理数据，并考虑序列的不同部分或句子的整个上下文，从而生成对模型结果的预测。市面上先进的LLM通常包含了万亿级别的参数，参数越多，模型复杂度越高...……更多

2024-07-10 11:56:00灾难,革命,能源,能源,模型,人工智能

快手「可灵」爆火：海外AI圈巨震，中国版Sora一号难求

...面中运动的呈现更加合理，可灵大模型采用 3D 时空联合注意力机制，更好地建模复杂时空运动，即可生成较大幅度运动的视频内容，同时能够符合运动规律。训练及优化策略如果你已经亲自测试过，就会发现可灵支持推理过程...……更多

2024-06-14 09:10:00快手,中国,生成,视频,模型,文生

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20

...的核心在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。这种归一化处理使得输入的token在超球面表面上移动，每一层模型都通过位移来贡献最终的输出预测。实验结果表明，nGPT在训...……更多

2024-10-20 15:52:00速度,训练,全新,模型,球面,上下文

谷歌开源系模型第二代免费开放！27B媲美Llama3 70B

...mma 1不同之处在于，Gemma 2每隔一层交替使用局部滑动窗口注意力和全局注意力机制，引入了分组查询注意力（GQA）以提高推理速度，相比Gemma 1也使用了更深的网络结构。Gemma 2关键模型参数如下：网友实测目前，用户还可在Hugging...……更多

2024-07-01 09:21:00二代,模型,开放,模型,性能,网友

超越Transformer，全面升级！MIT等华人团队发布通

... Time Image Decomposition (TID）：TID通过横轴和纵轴两个轴向的注意力机制，从每一个时序图中解耦季节-趋势，得到季节图和趋势图。3. Multi-Scale Mixing (MCM)：MCM负责将不同尺度上的季节图和趋势图分别进行混合，鉴于图的形式，论文...……更多

2024-10-30 09:58:00时序,架构,团队,领先,任务,升级