诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

遗憾不?百度早研究过Scaling Law,Anthropi

...像分类任务上的学习曲线和模型大小结果和趋势。DS2 和注意力语音模型的学习曲线（左），以及不同 DS2 模型尺寸（1.7M ~ 87M 参数）的学习曲线（右）。对于百度而言，早期对 Scaling Law 的研究未能及时转化为广泛的实践应用，这...……更多

2024-11-28 10:00:00灵感,遗憾,研究,模型,学习,曲线

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...，通过反演实现一步图像重建；掩码引导编辑技术，利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是，SwiftEdit 可实现即时文本引导的图像编辑，其速度比以往的多步骤方法至少快 50 ...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战

...态 token 作为 Query，将模态特征作为 Key 和 Value 进行交叉注意力（Cross Attention）。该方法根据当前任务阶段的需求，将各模态的特征动态地整合到一个融合 token 中。最后，该融合 token 输入到策略网络（MLP）中预测下一个动作。我...……更多

2024-11-09 09:53:00胡迪,模态,感官,变性,机器人,团队

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。训练过程中，使用注意力掩码确保每个r_k仅能关注 r_≤k。训练目标采用标准的交叉熵损失函数，用于优化预测精度。田柯宇团队在ImageNet 256×256和512×512条件生成基准上测试了深度为16、20、...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

“3D视频版Sora”来了！

...视点的正弦嵌入传递给UNet中的卷积块，并在空间和视图注意力块中，使用输入视频进行交叉注意力条件设定。为了提高时间一致性，SV4D引入了一个额外的运动注意力块，并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多

2024-07-26 09:30:00视频,视频,模型,视图,生成,视角

摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐

...个实体类型。研究团队提出了两种聚合方法：加权和基于注意力的函数。在实验中，他们发现基于注意力的函数效果更好。具体而言，他们计算每个实体类型的注意力权重，并通过加权求和的方式获得最终的伪类型嵌入。接下来...……更多

2024-07-27 09:28:00图谱,人工,模型,自动化,方法,知识

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万

...集上均表现优秀在推理速度方面，通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍，将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒，实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多

2024-11-21 09:48:00百炼,阿里,上下文,模型,上下,支持

字节版Sora火爆24小时，同名论文再次被热议

...。具体来说，它由两个基本模块构建，即2D卷积模块和2D注意力模块。通过插入时间层将2D UNet 扩展为3D变体，其中在2D卷积层之后插入1D时间卷积层，2D注意力层之后插入1D时间注意力层。模型可以通过图像和视频联合训练，在空...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

芯片集群「贵」出天际，10年内单个集群价值将达万亿美元

...人员在“Attention Is All You Need”中提出的Transformers（采用注意力机制的深度学习模型），开发了一种生成式预训练变换器，简称GPT。他和同事们发现，通过增加训练数据或算力，可以提高大模型的生成能力，这个定律被称为“Scali...……更多

2024-12-07 09:58:00集群,达万,天际,单个,芯片,价值

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...建模方法可以减少序列长度，缓解Transformer架构中不正确注意力机制导致的生成错误，从而在WER分数上得到提升。作者简介本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士，他从2020年开始担任MSRA自然语...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...这些嵌入通过投影块与文本标记对齐，投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后，投影块中的视觉标记就被添加到文本标记前面，并将联合表示传递给Llama 3。Llama3-V套壳实锤，或损害开源社区健康发展...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

黄仁勋对话Transformer七作者：很多计算资源被浪费，

...21日，提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切（Attention Is All You Need）》的作者们现身英伟达GTC大会，在名为Transforming AI（变革AI）的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多

2024-03-21 21:12:00模型,对话,作者,资源,世界,模型

从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够

...彻底改变了语言建模。Transformer 是一种神经网络，它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展，改进了注意力机制和架构。发展到今天，OpenAI 发...……更多

2024-09-21 09:37:00能效,架构,工艺,硬件,加速器,能效

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...询/键归一化，提高训练稳定性具有8个键值头的分组查询注意力（GQA），减少KV缓存的内存占用更高效的SwiGLU激活基础频率为500k的RoPE位置嵌入，支持长上下文适配器架构通过使用LoRA适配器，苹果的基础模型可以动态地根据当前...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

全省新增10款国家备案大模型产品南京独占七席

...种场景的应用需要。“卧龙明理采用自主研发的分组隐藏注意力技术结合MoE专家模式，显著提升了计算效率，优化了资源利用率。在场景模型生成方面，采用大小模型协同训练的方式，有效提升了模型在复杂场景下的推理效果。...……更多

2025-09-13 09:56:00南京,全省,模型,国家,产品,模型

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...领跑全球。当前，在文本大模型领域，OpenAI吸引了全球的注意力；但是在AI搜索、AI音乐生成等细分领域，中国玩家们正在奋勇前行，不断通过自研技术取得细分领域顶尖的SOTA表现，共同建设中国大模型产业，打造自主可控的大...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

听得懂、看得见、找得到！理想汽车下一代自动驾驶架构MindV

...下游任务性能。其LLM基座模型采用MoE混合专家架构和稀疏注意力技术，确保模型规模增长的同时不降低推理效率。此外，MindVLA通过Diffusion模型将动作词元解码为优化轨迹，并结合自车行为生成和他车轨迹预测，提升复杂交通环...……更多

2025-03-18 11:55:00下一代,架构,驾驶,理想,汽车,模型

RAG真能提升LLM推理能力？人大最新研究：数据有噪声，RA

...第个token 是噪声，否则该token是相关的。令表示LLM的原始注意力层。我们假设期望的自注意力函数为：对模型的微调可以表示为其中，ΔW 表示其余项。在这种情况下，如果我们需要, 我们需要对于所有的相关的token ，有因此，需...……更多

2024-10-23 13:34:00噪声,推理,性能,能力,数据,研究

直面大模型“大成本”挑战，如何提高算力效率？

...2.0”系列大模型已有工作基础，创新提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家(Expert)的混合专家模型(MoE)，并大幅提升了模型算力效率，模型运行时激活参数为37亿，在业界主流基准评测中性能全面对...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

所谓AI革命，到现在为止，是能源的一场“灾难”

...ansformer架构的深度神经网络算法，这种架构的算法通过自注意力机制处理数据，并考虑序列的不同部分或句子的整个上下文，从而生成对模型结果的预测。市面上先进的LLM通常包含了万亿级别的参数，参数越多，模型复杂度越高...……更多

2024-07-10 11:56:00灾难,革命,能源,能源,模型,人工智能

快手「可灵」爆火：海外AI圈巨震，中国版Sora一号难求

...面中运动的呈现更加合理，可灵大模型采用 3D 时空联合注意力机制，更好地建模复杂时空运动，即可生成较大幅度运动的视频内容，同时能够符合运动规律。训练及优化策略如果你已经亲自测试过，就会发现可灵支持推理过程...……更多

2024-06-14 09:10:00快手,中国,生成,视频,模型,文生

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20

...的核心在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。这种归一化处理使得输入的token在超球面表面上移动，每一层模型都通过位移来贡献最终的输出预测。实验结果表明，nGPT在训...……更多

2024-10-20 15:52:00速度,训练,全新,模型,球面,上下文

谷歌开源系模型第二代免费开放！27B媲美Llama3 70B

...mma 1不同之处在于，Gemma 2每隔一层交替使用局部滑动窗口注意力和全局注意力机制，引入了分组查询注意力（GQA）以提高推理速度，相比Gemma 1也使用了更深的网络结构。Gemma 2关键模型参数如下：网友实测目前，用户还可在Hugging...……更多

2024-07-01 09:21:00二代,模型,开放,模型,性能,网友

超越Transformer，全面升级！MIT等华人团队发布通

... Time Image Decomposition (TID）：TID通过横轴和纵轴两个轴向的注意力机制，从每一个时序图中解耦季节-趋势，得到季节图和趋势图。3. Multi-Scale Mixing (MCM)：MCM负责将不同尺度上的季节图和趋势图分别进行混合，鉴于图的形式，论文...……更多

2024-10-30 09:58:00时序,架构,团队,领先,任务,升级