• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,大大提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。“两个方面看,一方面缩短客户的沟通时间...……更多
...可能导致令人窒息的监管,或者转移人们对更紧迫风险的注意力。”“这些模型正在改进,且改进是有用的。”Raji说,“但它们还没有接近意识。”(王方) ……更多
Sora“超级涌现力”将把AI引向何方
...文本构建意义的网络2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
... 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 ...……更多
...发布千亿级开源大模型“源2.0”。“源2.0”创新采用局部注意力过滤增强机制(LFA),可以有效捕捉局部信息和短依赖信息,使模型能够更精准地掌握上下文之间的强语义关联,学习人类语言习惯范式本质,大幅提升数理逻辑、...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月,“老大哥”谷歌熬不住了。12月6日,谷歌有史以来体量最大、功能最强的大模型Gemin...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...ken)由2位专家处理,共64个处理层,用于处理查询的有48个注意力机制单元(attention heads),用于处理键(key)/值(value)的有8个注意力机制单元,嵌入向量(embeddings)的维度为6,144,采用旋转式嵌入表示( RoPE) ,使用SentencePiece分……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...nAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多
本周硅谷发生了什么?| 高通第三代骁龙8;谷歌20亿美元追投Anthropic;联想拿出能跑大模型个人PC
...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制,通过修改自注意力层的关键(K)和值(V)矩阵,接受额外的条件图像,提高了生成图像的准确性。此外,Zero123++引入了一个可训练的线性引导机制(来自Flex...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。Llama3-V套壳实锤,或损害开源社区健康发展...……更多
黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
...21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会,在名为Transforming AI(变革AI)的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...领跑全球。当前,在文本大模型领域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的SOTA表现,共同建设中国大模型产业,打造自主可控的大...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...面中运动的呈现更加合理,可灵大模型采用 3D 时空联合注意力机制,更好地建模复杂时空运动,即可生成较大幅度运动的视频内容,同时能够符合运动规律。 训练及优化策略如果你已经亲自测试过,就会发现可灵支持推理过程...……更多
硅谷顶级VC的最新洞察:AI公司应该专注用户需求,而非模型构建
...Gil还提到,AI公司应该更关注专注于客户需求,而不是将注意力集中在模型构建上。 以下为本文目录,建议结合要点进行针对性阅读:Michael Mignano:你们都是聪慧老练的投资者,有预见到2023年AI投资领域会是这样吗?Sarah Guo:...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...性能。金证K-GPT基于Transformer架构,其核心特点包括多头注意力机制和前馈神经网络层,这其中都包含大量矩阵运算,而英特尔®AMX通过1024位TMUL指令和8个独立的矩阵计算单元,可以每时钟周期执行8次独立的矩阵乘累加操作,为...……更多
斯坦福团队研发新型深度学习模型,能预测碳捕集引起的地表位移
...划在现有框架的基础上,尝试引入更先进的网络结构比如注意力机制等,以期进一步提升模型的性能和泛化能力。同时,他们还打算拓展模型的输入维度,纳入更多的地质参数和工程参数,从而适用于更加复杂多变的实际场景。...……更多
...合,为观众带来了一种新颖的视听体验,能够吸引观众的注意力。“宁晓理”在“兰陵之声”理论宣讲员戴鑫烨宣讲后,给出的建议也很中肯。“我觉得‘宁晓理’太神了,哪几处磕绊、哪几处需要案例支撑,它都精准地提出来...……更多
更多关于科技的资讯:
“小米ai创作”和“ai搜图”功能以安装包形式邀测
11月11日,小米AI创作&AI搜图邀测公告发布,本次小米澎湃OS2带来两个新特性:“小米AI创作”和“AI搜图”
2024-11-13 03:01:00
苹果计划开发全新智能眼镜,取代混合现实头显
近日有消息称,苹果公司正在计划开发一款全新的智能眼镜,以便最终取代当前笨重且昂贵的混合现实头显。据悉,这款智能眼镜不仅将为用户带来增强现实(AR)体验
2024-11-13 03:01:00
夜问|根本停不下来!为什么越刷短视频越空虚?
短视频占据了许多人的空闲时间。常常能听到抱怨“多少次刚放下手机,却又鬼使神差地拿了起来”,还有人“痛心疾首”地表示,浪费了太多时间在短视频上
2024-11-13 03:29:00
小米su7ultra赛道上的震撼瞬间
11月12日消息,影视飓风的镜头捕捉了小米SU7Ultra在赛道上的震撼瞬间,这款车型首次冲刺便达到了每小时350公里的速度
2024-11-13 03:33:00
amd正在筹备四款独立显卡
在最佳游戏笔记本领域,AMD在图形处理方面的表现一直不够突出。但据最新爆料,AMD并未停止其GPU的研发进程,反而正在积极筹备四款专为笔记本设计的独立显卡
2024-11-13 03:51:00
openai新旗舰模型“orion”性能不及预期
11月11日,海外媒体表示OpenAI即将推出的新旗舰模型“Orion”在性能上的提升幅度不及预期。与GPT-3到GPT-4的显著进步相比
2024-11-13 03:51:00
真全面屏崛起?红魔10pro系列游戏手机曝光
如今,挖孔屏幕在手机行业内占据了绝对的主流地位,三星、苹果、华为、小米、OPPO、vivo等一众主流厂商的旗舰、中端和入门机型均采用了这一设计
2024-11-13 04:04:00
tcl小蓝翼新风空调“以旧换新”活动正式启动
西安市民有福了,上西安京东MALL购TCL小蓝翼空调,一级能效国家补贴20%,TCL空调补贴至高2000元,本次促销活动将持续到11月30日
2024-11-13 04:10:00
真我gt7pro使用感受
哎呀,还是没忍住入了真我GT7Pro,不得不说物流是真的快,早上下单晚上就拿到了,现在也用了一段时间,简单分享几个点。手机第一次上手相比之前的iPhone14是感觉有一点点重的
2024-11-13 04:20:00
极氪的新车极氪7X交付速度再破纪录
11月11日,极氪智能科技CMO关海涛在微博公布了一则有关极氪的喜讯,极氪的新车极氪7X交付速度再破纪录。极氪7X关海涛在微博表示
2024-11-13 05:05:00
本文转自:人民日报海外版天猫国际发布《2024进口消费趋势报告》——海外品牌加速拥抱中国超大规模市场本报记者 孔德晨《 人民日报海外版 》( 2024年11月13日 第 12 版)日前
2024-11-13 05:16:00
快递物流“双11”分拣忙
本文转自:人民日报海外版《 人民日报海外版 》( 2024年11月13日 第 12 版)临近“双11”,中国邮政集团有限公司扬州邮件处理中心一片繁忙景象,工作人员在智能快递流水线
2024-11-13 05:16:00
本文转自:人民日报海外版高 乔 刘耀阳《 人民日报海外版 》( 2024年11月13日 第 06 版)近日,由广东省深圳市侨商智库研究院与印中商务理事会联合主办的第四届侨交会(雅加达)智能科技展在印度尼西亚雅加达国际会展中心举办
2024-11-13 05:17:00
华硕宣布rogphone9系列11月19日亮相
华硕已宣布ROGPhone9系列将在11月19日亮相。眼看着发布日期越来越近,这款新机已经在GeekbenchML数据库露面了
2024-11-13 05:58:00
本文转自:人民日报张继行便利店、专业店、超市是我国零售业的三种主流业态,前三季度均保持稳定增长的发展态势。以便利店为例
2024-11-13 06:29:00