诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了更深的网络。主要差异总结如下：局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token，而全局注意力层的跨度设置为8192个token。 Logit...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...书要分成很多段，然后送去训练。由于大模型训练主要是注意力机制，即注意力参数的训练，只要两个东西相关，就可以发生一个关联。“这是在没有截断的前提下，如果把数据截成8K，第二个8k进来了以后，和第一个8K就没有直...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多

2024-03-18 10:41:00神经网络,脉冲,架构,科学家,模型,神经

度小满联合哈工大推出自适应剪枝算法实现多模态大模型高效优化

...两个关键组件：跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器（MLP）结构，智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性，还...……更多

2024-05-17 13:00:00模态,算法,模型,联合,模态,模型

科学家研发自动驾驶新模块，让自动驾驶场景理解更接近人类认知

...自动驾驶模型的可解释性，该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域，他们将其作为一个掩码来调整原始图像的权重，从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样，具备有效...……更多

2024-04-11 10:53:00驾驶,认知,科学家,模块,场景,人类

全球最强开源大模型Llama 3发布：使用15T数据预训练，

... token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。2）训练数据Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型、高质量的训练数据集。据介绍，Llama 3 在超过 15T 的 token 上进行了预...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

麻省理工学院联合metaai开发streamingllm框架

...注意到，过去有许多研究试图解决上述挑战，像是“扩展注意力窗口”，让语言模型能够处理超出预训练序列长度的长文本；或是建立一个固定大小的活动窗口，只关注最近token的键值状态，确保RAM使用率和解码速度保持稳定，...……更多

2023-10-07 00:12:00麻省理工学院,麻省,理工,框架,联合,学院

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制，从更精细的粒度控制图像生成，使得生成的图像更加精确地贴合文本。具体网络格式如下：归一化旋转位置编码（Normalized RoPE）对于next-scale prediction范式，如...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...任务时，这种缺陷会带来挑战。2）其次，由于现有 MLLM 注意力机制的计算复杂度较高，微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率，NLP 领域出现了几项研究。尤其是，Mamba 引入了...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

清华大学金融科技研究院副院长魏晨阳：大模型以超级助理的形式，

...持续专注在零到一的创新点，通过并购及时实现退出，把注意力放在下一个创新上。活跃稳定的并购机制，对形成和保持纯粹聚焦的创新氛围，十分重要。 ……更多

2023-12-08 17:24:00清华大学,晨阳,清华,百业,院长,研究院

摆脱Transformer依赖？这家AI初创公司推出国内首个

...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制，代之以计算量更小、难度更低的线性计算，大大提高了建模效率和训练速度，效率翻倍的同时实现了成本的骤降。“两个方面看，一方面缩短客户的沟通时间...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

超级人工智能会偷袭人类吗？

...可能导致令人窒息的监管，或者转移人们对更紧迫风险的注意力。”“这些模型正在改进，且改进是有用的。”Raji说，“但它们还没有接近意识。”（王方） ……更多

2023-12-29 07:44:00人工智能,人工,人类,智能,模型,研究

Sora“超级涌现力”将把AI引向何方

...文本构建意义的网络2017年，谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文，提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子，Transformer就可学习句子中单词与单词之间的共生关...……更多

2024-02-24 05:43:00何方,模型,单词,视频,人工智能,人工

制造业AI也迎来大模型时刻？ | 智造观察

...学习的解决方案在工业界普遍尝试，创新奇智提出基于双注意力机制的少样本学习和基于原型的分类器学习方法，并且还通过技术创新，扩充数据弥补工业视觉中训练样本不足的问题。2022年底，伴随ChatGPT走热，创新奇智也看到...……更多

2023-04-20 20:00:00制造业,模型,时刻,观察,制造,模型

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

... 个 transformer 层（sheesh），每层都有一个解码器层：多头注意力块和密集块，键值大小 128。多头注意力块：48 个 head 用于查询，8 个用于键 / 值（KV）。KV 大小为 128。密集块（密集前馈块）：加宽因子 8，隐藏层大小 32768。每个 ...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

开源助推AI技术落地

...发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制（LFA），可以有效捕捉局部信息和短依赖信息，使模型能够更精准地掌握上下文之间的强语义关联，学习人类语言习惯范式本质，大幅提升数理逻辑、...……更多

2023-12-04 03:07:00助推,落地,技术,模型,数据,浪潮信息

AI能生成超越自然界的新型蛋白质，可用于制造特定机械性能材料

...，是因为他们利用了一种新型的机器学习模型，叫做基于注意力的扩散模型（IT之家注：attention-baseddiffusionmodel）。布勒解释说，基于注意力的模型对于蛋白质设计非常重要，因为它们可以学习和捕捉长距离的关系。这在蛋白质...……更多

2023-04-24 20:48:00自然界,蛋白质,蛋白,生成,性能,自然

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

...团队如何加班加点，好让产品迭代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月，“老大哥”谷歌熬不住了。12月6日，谷歌有史以来体量最大、功能最强的大模型Gemin...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

马斯克打脸OpenAI！全球最大模型Grok-1开源

...ken)由2位专家处理，共64个处理层，用于处理查询的有48个注意力机制单元(attention heads)，用于处理键(key)/值(value)的有8个注意力机制单元，嵌入向量(embeddings)的维度为6,144，采用旋转式嵌入表示( RoPE) ，使用SentencePiece分……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...nAI制作的图像-文本模型，基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制，通过修改自注意力层的关键（K）和值（V）矩阵，接受额外的条件图像，提高了生成图像的准确性。此外，Zero123++引入了一个可训练的线性引导机制（来自Flex...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

谷歌没开源的 PaLM，网友给开源了

...训练，从而实现了更好的长度外推，并使用多查询单键值注意力机制进行更高效的解码。在优化算法方面，采用的则是解耦权重衰减AdamW，但也可以选择使用MitchellWortsman的StableAdamW。目前，模型已经上传到Torchhub，文件也存储在...……更多

2023-05-13 17:42:00网友,模型,训练,数据,生成,脚本

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...这些嵌入通过投影块与文本标记对齐，投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后，投影块中的视觉标记就被添加到文本标记前面，并将联合表示传递给Llama 3。Llama3-V套壳实锤，或损害开源社区健康发展...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

黄仁勋对话Transformer七作者：很多计算资源被浪费，

...21日，提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切（Attention Is All You Need）》的作者们现身英伟达GTC大会，在名为Transforming AI（变革AI）的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多

2024-03-21 21:12:00模型,对话,作者,资源,世界,模型