• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,大大提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。“两个方面看,一方面缩短客户的沟通时间...……更多
...可能导致令人窒息的监管,或者转移人们对更紧迫风险的注意力。”“这些模型正在改进,且改进是有用的。”Raji说,“但它们还没有接近意识。”(王方) ……更多
Sora“超级涌现力”将把AI引向何方
...文本构建意义的网络2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关...……更多
制造业AI也迎来大模型时刻? | 智造观察
...学习的解决方案在工业界普遍尝试,创新奇智提出基于双注意力机制的少样本学习和基于原型的分类器学习方法,并且还通过技术创新,扩充数据弥补工业视觉中训练样本不足的问题。2022年底,伴随ChatGPT走热,创新奇智也看到...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
... 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 ...……更多
...发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制(LFA),可以有效捕捉局部信息和短依赖信息,使模型能够更精准地掌握上下文之间的强语义关联,学习人类语言习惯范式本质,大幅提升数理逻辑、...……更多
AI能生成超越自然界的新型蛋白质,可用于制造特定机械性能材料
...,是因为他们利用了一种新型的机器学习模型,叫做基于注意力的扩散模型(IT之家注:attention-baseddiffusionmodel)。布勒解释说,基于注意力的模型对于蛋白质设计非常重要,因为它们可以学习和捕捉长距离的关系。这在蛋白质...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月,“老大哥”谷歌熬不住了。12月6日,谷歌有史以来体量最大、功能最强的大模型Gemin...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...ken)由2位专家处理,共64个处理层,用于处理查询的有48个注意力机制单元(attention heads),用于处理键(key)/值(value)的有8个注意力机制单元,嵌入向量(embeddings)的维度为6,144,采用旋转式嵌入表示( RoPE) ,使用SentencePiece分……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...nAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多
本周硅谷发生了什么?| 高通第三代骁龙8;谷歌20亿美元追投Anthropic;联想拿出能跑大模型个人PC
...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制,通过修改自注意力层的关键(K)和值(V)矩阵,接受额外的条件图像,提高了生成图像的准确性。此外,Zero123++引入了一个可训练的线性引导机制(来自Flex...……更多
谷歌没开源的 PaLM,网友给开源了
...训练,从而实现了更好的长度外推,并使用多查询单键值注意力机制进行更高效的解码。 在优化算法方面,采用的则是解耦权重衰减AdamW,但也可以选择使用MitchellWortsman的StableAdamW。目前,模型已经上传到Torchhub,文件也存储在...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。Llama3-V套壳实锤,或损害开源社区健康发展...……更多
黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
...21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会,在名为Transforming AI(变革AI)的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...领跑全球。当前,在文本大模型领域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的SOTA表现,共同建设中国大模型产业,打造自主可控的大...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...面中运动的呈现更加合理,可灵大模型采用 3D 时空联合注意力机制,更好地建模复杂时空运动,即可生成较大幅度运动的视频内容,同时能够符合运动规律。 训练及优化策略如果你已经亲自测试过,就会发现可灵支持推理过程...……更多
回看自动驾驶十年,回答毫末智行DriveGPT是怎样炼成的?
...练正在从深度学习早期的CNN等神经网络模型转向以Attention注意力机制为特征的Transformer大模型的使用,自动驾驶在感知、认知乃至极端场景的仿真训练、大规模数据标注都有大模型参与其中。其次是围绕大模型训练的云端算力平...……更多
更多关于科技的资讯:
“真的很你”,苹果 iOS 18 简体中文宣传语被吐槽
IT之家 7 月 4 日消息,众所周知,苹果的中文文案一直有点出人意料,比如“让妈妈开心的礼物,开了又开”、“岂止于大”等
2024-07-05 09:49:00
国人“口粮”怎么储存?科技含量真挺高
智能检测、智慧监管、可视化粮库……粮食储备,越来越智慧化。江苏加强绿色仓储设施、绿色储粮技术、绿色粮库管理集成应用,加快推进现代化粮库建设
2024-07-05 09:54:00
华为、小米、海尔都来了!中国智能家居产业发展论坛珠海开幕
南都讯 7月4日,“2024中国智能家居产业发展论坛”在珠海国际会展中心开幕。来自全国各地区及粤港澳大湾区智能家居相关领域的知名专家学者
2024-07-05 09:55:00
买了个一万块的台式机,结果放了个笔记本电脑的处理器?
众所周知,我们现在除了每天给大家写公众号之外,偶尔还在 B 站上面给大家做点儿视频。做视频嘛,大家都懂,得用好一点儿的电脑去剪片子
2024-07-05 10:03:00
5999 元起,小米 14 Ultra 手机明日零时起全版本限时官降 500 元
IT之家 7 月 4 日消息,小米 14 Ultra 手机将于 7 月 5(明)日 0:00 至 7 月 16 日 23:59 期间开启官方首次降价 500 元
2024-07-05 10:03:00
AMD高管:索尼PS4成功避免了AMD破产
据AMD一名高级总监,索尼PS4的成功帮助AMD避免了破产。已在AMD任职超过22年的高级总监Renato Fragale在其领英简历上做出了以上重要声称
2024-07-05 10:03:00
小米15 Pro最新消息来了:最强电池+影像旗舰
2024-07-05 05:39:18作者:人宝宝近日,备受期待的小米15 Pro的部分配置信息被曝光。这款定位为轻薄影像旗舰的新品
2024-07-05 10:06:00
索尼PlayStation全面回归东京电玩展
据悉,索尼互动娱乐将参加“有史以来规模最大”的东京电玩展。该展会将于 9 月举行,将有 731 家参展商和 3190 个展位
2024-07-05 10:06:00
一加 Nord 4 手机官方海报泄露:两段式设计、后置横排双摄
IT之家 7 月 5 日消息,一加宣布将在7 月 16 日推出Nord 4手机,虽然该机在配置规格上与国内的 Ace 3V 手机相同
2024-07-05 10:07:00
沉寂10年无人问,“智能戒指”能被三星带火吗? | 钛媒体焦点
想象一下,只需要一枚小小的戒指,就能完成对身体各项指标的监测,还能对睡眠、运动的信息进行收集,相比于戴在腕上的智能手表
2024-07-05 10:07:00
华为MatePad SE开售:1299元
2024-07-05 08:55:21作者:赵悟省新款华为MatePadSE正式开售,MatePad SE 2024搭载高通骁龙695平台
2024-07-05 10:08:00
机情问答:一加 Ace 3 Pro冰川电池续航如何?充电快吗
【CNMO科技】时至2024年,性能手机赛道的竞争也已经进入了新的阶段,一加凭借着一加 Ace 3 Pro为玩家们带来了独一无二的体验
2024-07-05 10:08:00
vivo Pad3 平板开售:骁龙 8s Gen 3、12.1 英寸大屏,2499 元起
IT之家 7 月 5 日消息,vivo Pad3 平板现已在京东等电商平台开售,定价 2499 元起。8GB+128GB 版本限时直降 100 元
2024-07-05 10:08:00
小米史上最强直板机!小米14 Ultra全版本首降500元:到手价5999元起
2024-07-05 09:29:01作者:姚立伟小米14 Ultra全版本于今天0点起进行首次降价,优惠幅度为500元
2024-07-05 10:09:00
为战而生 OPPO A3耐用战神直屏版手机开售
2024-07-05 09:42:24作者:姚立伟OPPO A3耐用战神直屏版手机现已在京东等电商平台开售,售价1599元起
2024-07-05 10:09:00