诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了更深的网络。主要差异总结如下：局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token，而全局注意力层的跨度设置为8192个token。 Logit...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...书要分成很多段，然后送去训练。由于大模型训练主要是注意力机制，即注意力参数的训练，只要两个东西相关，就可以发生一个关联。“这是在没有截断的前提下，如果把数据截成8K，第二个8k进来了以后，和第一个8K就没有直...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多

2024-03-18 10:41:00神经网络,脉冲,架构,科学家,模型,神经

度小满联合哈工大推出自适应剪枝算法实现多模态大模型高效优化

...两个关键组件：跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器（MLP）结构，智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性，还...……更多

2024-05-17 13:00:00模态,算法,模型,联合,模态,模型

科学家研发自动驾驶新模块，让自动驾驶场景理解更接近人类认知

...自动驾驶模型的可解释性，该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域，他们将其作为一个掩码来调整原始图像的权重，从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样，具备有效...……更多

2024-04-11 10:53:00驾驶,认知,科学家,模块,场景,人类

麻省理工学院联合metaai开发streamingllm框架

...注意到，过去有许多研究试图解决上述挑战，像是“扩展注意力窗口”，让语言模型能够处理超出预训练序列长度的长文本；或是建立一个固定大小的活动窗口，只关注最近token的键值状态，确保RAM使用率和解码速度保持稳定，...……更多

2023-10-07 00:12:00麻省理工学院,麻省,理工,框架,联合,学院

全球最强开源大模型Llama 3发布：使用15T数据预训练，

... token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。2）训练数据Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型、高质量的训练数据集。据介绍，Llama 3 在超过 15T 的 token 上进行了预...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制，从更精细的粒度控制图像生成，使得生成的图像更加精确地贴合文本。具体网络格式如下：归一化旋转位置编码（Normalized RoPE）对于next-scale prediction范式，如...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...任务时，这种缺陷会带来挑战。2）其次，由于现有 MLLM 注意力机制的计算复杂度较高，微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率，NLP 领域出现了几项研究。尤其是，Mamba 引入了...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

清华大学金融科技研究院副院长魏晨阳：大模型以超级助理的形式，

...持续专注在零到一的创新点，通过并购及时实现退出，把注意力放在下一个创新上。活跃稳定的并购机制，对形成和保持纯粹聚焦的创新氛围，十分重要。 ……更多

2023-12-08 17:24:00清华大学,晨阳,清华,百业,院长,研究院

摆脱Transformer依赖？这家AI初创公司推出国内首个

...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制，代之以计算量更小、难度更低的线性计算，大大提高了建模效率和训练速度，效率翻倍的同时实现了成本的骤降。“两个方面看，一方面缩短客户的沟通时间...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

超级人工智能会偷袭人类吗？

...可能导致令人窒息的监管，或者转移人们对更紧迫风险的注意力。”“这些模型正在改进，且改进是有用的。”Raji说，“但它们还没有接近意识。”（王方） ……更多

2023-12-29 07:44:00人工智能,人工,人类,智能,模型,研究

Sora“超级涌现力”将把AI引向何方

...文本构建意义的网络2017年，谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文，提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子，Transformer就可学习句子中单词与单词之间的共生关...……更多

2024-02-24 05:43:00何方,模型,单词,视频,人工智能,人工

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

... 个 transformer 层（sheesh），每层都有一个解码器层：多头注意力块和密集块，键值大小 128。多头注意力块：48 个 head 用于查询，8 个用于键 / 值（KV）。KV 大小为 128。密集块（密集前馈块）：加宽因子 8，隐藏层大小 32768。每个 ...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

开源助推AI技术落地

...发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制（LFA），可以有效捕捉局部信息和短依赖信息，使模型能够更精准地掌握上下文之间的强语义关联，学习人类语言习惯范式本质，大幅提升数理逻辑、...……更多

2023-12-04 03:07:00助推,落地,技术,模型,数据,浪潮信息

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

...团队如何加班加点，好让产品迭代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月，“老大哥”谷歌熬不住了。12月6日，谷歌有史以来体量最大、功能最强的大模型Gemin...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

马斯克打脸OpenAI！全球最大模型Grok-1开源

...ken)由2位专家处理，共64个处理层，用于处理查询的有48个注意力机制单元(attention heads)，用于处理键(key)/值(value)的有8个注意力机制单元，嵌入向量(embeddings)的维度为6,144，采用旋转式嵌入表示( RoPE) ，使用SentencePiece分……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...nAI制作的图像-文本模型，基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制，通过修改自注意力层的关键（K）和值（V）矩阵，接受额外的条件图像，提高了生成图像的准确性。此外，Zero123++引入了一个可训练的线性引导机制（来自Flex...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...这些嵌入通过投影块与文本标记对齐，投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后，投影块中的视觉标记就被添加到文本标记前面，并将联合表示传递给Llama 3。Llama3-V套壳实锤，或损害开源社区健康发展...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

黄仁勋对话Transformer七作者：很多计算资源被浪费，

...21日，提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切（Attention Is All You Need）》的作者们现身英伟达GTC大会，在名为Transforming AI（变革AI）的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多

2024-03-21 21:12:00模型,对话,作者,资源,世界,模型