• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
... 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子,Llama 2(7B 版本)堆叠了 32 层 Transformer,模型维度为 4096。在这种情况下,TTFT 需要的 walltime 是……更多
贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样
...寸变化,正在重走CNN的老路!看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...窄3)重新使用编码共享(embedding sharing)方法4)使用组查询注意力机制(grouped query attention)在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但..……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,大大提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。“两个方面看,一方面缩短客户的沟通时间...……更多
...可能导致令人窒息的监管,或者转移人们对更紧迫风险的注意力。”“这些模型正在改进,且改进是有用的。”Raji说,“但它们还没有接近意识。”(王方) ……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...一个因果decoder。文本会先被传递到encoder,然后通过交叉注意力机制发送到decoder,而不是预先填充decoder模型。因此,T5模型也是语言模型!它的一个变体是Prefix语言模型,或者说是PrefixLM架构,它们做的事情几乎一样,除了交叉...……更多
Sora“超级涌现力”将把AI引向何方
...文本构建意义的网络2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关...……更多
制造业AI也迎来大模型时刻? | 智造观察
...学习的解决方案在工业界普遍尝试,创新奇智提出基于双注意力机制的少样本学习和基于原型的分类器学习方法,并且还通过技术创新,扩充数据弥补工业视觉中训练样本不足的问题。2022年底,伴随ChatGPT走热,创新奇智也看到...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
... 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 ...……更多
...发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制(LFA),可以有效捕捉局部信息和短依赖信息,使模型能够更精准地掌握上下文之间的强语义关联,学习人类语言习惯范式本质,大幅提升数理逻辑、...……更多
AI能生成超越自然界的新型蛋白质,可用于制造特定机械性能材料
...,是因为他们利用了一种新型的机器学习模型,叫做基于注意力的扩散模型(IT之家注:attention-baseddiffusionmodel)。布勒解释说,基于注意力的模型对于蛋白质设计非常重要,因为它们可以学习和捕捉长距离的关系。这在蛋白质...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月,“老大哥”谷歌熬不住了。12月6日,谷歌有史以来体量最大、功能最强的大模型Gemin...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...并行,就先将卷积算子进行张量切分,然后把大模型中的注意力层和前馈层的矩阵计算权重,分别输入到多个处理器的内存中。如此一来,通用服务器中的4颗CPU便可同时获取算法权重,进行计算加速。不过,张量并行对模型参...……更多
更多关于科技的资讯:
三维建模、微痕提取……数字化保护长城,北京下了真功夫
本文转自:人民日报中央厨房-碰碰词儿工作室雄伟壮丽的八达岭长城、险峻雄奇的箭扣长城、构造精巧的司马台长城……北京境内的长城蜿蜒起伏
2024-08-12 14:00:00
小米15系列渲染图曝光:“三室一厅”经典设计回归 Pro升级潜望
快科技8月12日消息,近日,一组小米15系列的渲染图在网络上曝光,受到不少关注。虽然传闻提到是“小米15”,但从略显圆润的背壳和三摄中的潜望长焦来看
2024-08-12 10:44:00
囧游村游戏助手真的是免费的吗?(囧游村)
囧游村游戏助手确实是免费的。囧游村游戏助手的基本信息囧游村游戏助手是一款专为游戏爱好者打造的游戏盒子软件,它集合了众多优质好玩的游戏
2024-08-12 10:45:00
AI+全面升级数智底座,用友发布三大行业垂类大模型
8月10日下午,由用友主办的“2024全球商业创新大会-企业数智化技术峰会”,在北京市“中国国际展览中心”隆重召开。此次峰会以“AI+全面升级数智底座”为主题
2024-08-12 10:45:00
又开一店!衡泰信助力无锡爱莱高尔夫打造城市理想生活馆
在这个日益追求健康生活方式的时代,高尔夫运动已经走出了高尔夫球场,成为一种时尚的生活方式。位于无锡经开区海归小镇的爱莱高尔夫生活馆正是这一趋势的缩影
2024-08-12 10:46:00
王功权出任英国FlyDeliver新职,加速全球即时配送市场
在全球即时配送服务市场日益激烈的竞争中,英国知名即时配送品牌FlyDeliver(FD配送)宣布了一项重大任命,正式聘请中国投资界传奇人物
2024-08-12 10:52:00
江苏中塑TPE|TPE线材的防火等级
随着TPE材料的普及,TPE材料被广泛应用在线材中。现在市面上常见的耳机线、数据线,低端产品一般为PVC材质,目前高端产品大部分已经改用TPE材质
2024-08-12 10:52:00
江苏中塑TPE|TPE包胶注塑需要注意哪些事项?
TPE包胶材料现在是大家选择很多的一款材料,因为TPE材料的性能好,作为一款定制材料,它跟各类塑料都有相融性,但尽管如此
2024-08-12 10:55:00
江苏中塑TPE|TPE的注塑温度是多少?
TPE热塑性弹性体具有橡胶的高弹性与塑料加工性能,可以注塑、挤出、吹塑等等加工成型。但TPE在加工注塑过程中,需要准确的设置TPE注塑温度
2024-08-12 11:00:00
本文转自:人民网-江西频道7万余座基站上天入地、跨越山河,无缝覆盖赣鄱大地;2484万5G套餐用户引领消费潮流,“焕新”数智生活尽享数字红利
2024-08-12 11:00:00
TikTok卖家攻略!如何保障账户安全
如今各大社交媒体平台正在繁荣发展的时代中,TikTok近几年在海外尤为火爆,而TikTokShop作为一种新的电商销售渠道备受国内外用户关注
2024-08-12 11:13:00
崛起!龙芯中科CEO:3B6600八核性能追上英特尔酷睿12/13代水平
快科技8月12日消息,宣布3A6000性能追上10代酷睿后,龙芯中科近日又带来了好消息,下一代桌面端处理器性能将达到英特尔中高端酷睿12~13代水平
2024-08-12 11:14:00
博主称遭理想汽车起诉:段子致MEGA销量下滑 索赔100万元
快科技8月12日消息,日前,汽车博主“董老厮说车”发布视频称,近日,他收到了北京理想汽车有限公司在常州市武进区法院对他的起诉
2024-08-12 11:14:00
搭载2.4T+9AT动力总成!长城越野炮将于8月15日预售
快科技8月12日消息,长城炮品牌宣布,备受期待的2.4T越野炮车型将于8月15日开启预售。自越野炮车型上市以来,凭借其卓越性能
2024-08-12 11:14:00
2亿潜望下放!曝vivo X200 Pro将配X100 Ultra同款长焦镜头
快科技8月12日消息,据知名数码博主数码闲聊站爆料,天玑9400大杯机型在影像方面将有重磅升级,该机型大概率就是即将发布的vivo X200 Pro
2024-08-12 11:14:00