• 我的订阅
  • 头条热搜
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...像分类任务上的学习曲线和模型大小结果和趋势。DS2 和注意力语音模型的学习曲线(左),以及不同 DS2 模型尺寸(1.7M ~ 87M 参数)的学习曲线(右)。对于百度而言,早期对 Scaling Law 的研究未能及时转化为广泛的实践应用,这...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...,通过反演实现一步图像重建;掩码引导编辑技术,利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是,SwiftEdit 可实现即时文本引导的图像编辑,其速度比以往的多步骤方法至少快 50 ...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...态 token 作为 Query,将模态特征作为 Key 和 Value 进行交叉注意力(Cross Attention)。该方法根据当前任务阶段的需求,将各模态的特征动态地整合到一个融合 token 中。最后,该融合 token 输入到策略网络(MLP)中预测下一个动作。我...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。训练过程中,使用注意力掩码确保每个r_k仅能关注 r_≤k。训练目标采用标准的交叉熵损失函数,用于优化预测精度。田柯宇团队在ImageNet 256×256和512×512条件生成基准上测试了深度为16、20、...……更多
“3D视频版Sora”来了!
...视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多
摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
...个实体类型。研究团队提出了两种聚合方法:加权和基于注意力的函数。在实验中,他们发现基于注意力的函数效果更好。具体而言,他们计算每个实体类型的注意力权重,并通过加权求和的方式获得最终的伪类型嵌入。接下来...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...集上均表现优秀在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多
字节版Sora火爆24小时,同名论文再次被热议
...。具体来说,它由两个基本模块构建,即2D卷积模块和2D注意力模块。通过插入时间层将2D UNet 扩展为3D变体,其中在2D卷积层之后插入1D时间卷积层,2D注意力层之后插入1D时间注意力层。模型可以通过图像和视频联合训练,在空...……更多
芯片集群「贵」出天际,10年内单个集群价值将达万亿美元
...人员在“Attention Is All You Need”中提出的Transformers(采用注意力机制的深度学习模型),开发了一种生成式预训练变换器,简称GPT。他和同事们发现,通过增加训练数据或算力,可以提高大模型的生成能力,这个定律被称为“Scali...……更多
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...建模方法可以减少序列长度,缓解Transformer架构中不正确注意力机制导致的生成错误,从而在WER分数上得到提升。作者简介本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士,他从2020年开始担任MSRA自然语...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。Llama3-V套壳实锤,或损害开源社区健康发展...……更多
黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
...21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会,在名为Transforming AI(变革AI)的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
...彻底改变了语言建模。Transformer 是一种神经网络,它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展,改进了注意力机制和架构。发展到今天,OpenAI 发...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...询/键归一化,提高训练稳定性具有8个键值头的分组查询注意力(GQA),减少KV缓存的内存占用更高效的SwiGLU激活基础频率为500k的RoPE位置嵌入,支持长上下文适配器架构通过使用LoRA适配器,苹果的基础模型可以动态地根据当前...……更多
...种场景的应用需要。“卧龙明理采用自主研发的分组隐藏注意力技术结合MoE专家模式,显著提升了计算效率,优化了资源利用率。在场景模型生成方面,采用大小模型协同训练的方式,有效提升了模型在复杂场景下的推理效果。...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...领跑全球。当前,在文本大模型领域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的SOTA表现,共同建设中国大模型产业,打造自主可控的大...……更多
听得懂、看得见、找得到!理想汽车下一代自动驾驶架构MindVLA亮相
...下游任务性能。其LLM基座模型采用MoE混合专家架构和稀疏注意力技术,确保模型规模增长的同时不降低推理效率。此外,MindVLA通过Diffusion模型将动作词元解码为优化轨迹,并结合自车行为生成和他车轨迹预测,提升复杂交通环...……更多
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
...第 个token 是噪声,否则该token是相关的。令表示LLM的原始注意力层。我们假设期望的自注意力函数为:对模型的微调可以表示为其中,ΔW 表示其余项。在这种情况下,如果我们需要, 我们需要对于所有的相关的token ,有因此,需...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
所谓AI革命,到现在为止,是能源的一场“灾难”
...ansformer架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。市面上先进的LLM通常包含了万亿级别的参数,参数越多,模型复杂度越高...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...面中运动的呈现更加合理,可灵大模型采用 3D 时空联合注意力机制,更好地建模复杂时空运动,即可生成较大幅度运动的视频内容,同时能够符合运动规律。 训练及优化策略如果你已经亲自测试过,就会发现可灵支持推理过程...……更多
有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍
...的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。实验结果表明,nGPT在训...……更多
谷歌开源系模型第二代免费开放!27B媲美Llama3 70B,单H100可跑
...mma 1不同之处在于,Gemma 2每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比Gemma 1也使用了更深的网络结构。Gemma 2关键模型参数如下:网友实测目前,用户还可在Hugging...……更多
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
... Time Image Decomposition (TID):TID通过横轴和纵轴两个轴向的注意力机制,从每一个时序图中解耦季节-趋势,得到季节图和趋势图。3. Multi-Scale Mixing (MCM):MCM负责将不同尺度上的季节图和趋势图分别进行混合,鉴于图的形式,论文...……更多
高能技巧!60 行 NumPy 代码 从头实现一个 GPT
...输入位置上操。对输入之间的关系进行建模的任务完全由注意力来完成。2、位置式前馈神经网络只是一个普通的 2 层完全连接神经网络。这只是为我们的模型增加了一堆可学习的参数,以促进学习。3、在最初的变压器论文中,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...流的VQA模型(如LLaVA-1.5)使用了具备单向(auto-regressive)注意力机制的语言模型(如Llama)。这种机制导致模型在提取图像特征时,无法提前获取提示词的完整信息。为了更有效的提取视觉特征,研究团队使用开源数据训练了一...……更多
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...师的绘画技法。深入解读 ProcessPainter 的核心技术1. 时序注意力机制(Temporal Attention)用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示:为实现强大的通用和泛化能力,研究人员需要基于大规模和多样化的数据集训练模型。然而,在图像...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...Transformer架构之上,并做了一些设计优化,包括分组查询注意力(GQA)、SwiGLU激活函数等。研究人员在论文中解释道,Apple Intelligence由多个高性能生成模型组成,这些模型快速、高效、专门用于用户的日常任务,并且可以根据用...……更多
...合,为观众带来了一种新颖的视听体验,能够吸引观众的注意力。“宁晓理”在“兰陵之声”理论宣讲员戴鑫烨宣讲后,给出的建议也很中肯。“我觉得‘宁晓理’太神了,哪几处磕绊、哪几处需要案例支撑,它都精准地提出来...……更多
更多关于科技的资讯:
聚焦服务品质 福州千名经纪人共赴贝壳福州站搏学大考
贝壳福州站搏学大考考场11月19日,贝壳找房福州站第26届新经纪品牌搏学大考正式拉开序幕,福州数千名房产经纪人通过线下机考的形式完成了本届搏学大考
2025-11-20 13:38:00
当输入一句简单指令,AI就能在几秒内给新鲜水果添上霉斑、给完好衣物制造破洞,这样的技术能力如今却成了少数人薅商家羊毛的利器
2025-11-20 11:16:00
发展新质生产力 推进新型工业化11月18日至25日,全球半导体行业盛会——德国慕尼黑半导体展览会隆重举行。总部位于太原的山西天成半导体材料有限公司受邀参展
2025-11-20 06:54:00
第二届雷克沙杯高校电竞挑战赛总决赛落幕
2025年11月16日,2025雷克沙杯高校电竞挑战赛全国总决赛于“电竞重镇”成都圆满收官。本届赛事由国际高端消费类存储品牌雷克沙主办
2025-11-19 08:26:00
厦门网讯(厦门日报记者 谢瑞真)新闻工作者普遍面临用眼过度、睡眠不足等问题,长时间用眼导致眼部健康问题频发。昨日,国内首份聚焦媒体从业者的眼健康报告——《厦门市新闻工作者眼健康白皮书》(以下简称“白皮书”)正式发布
2025-11-19 08:46:00
邮储银行临沂市蒙阴县支行成功举办“智享理财 共筑财富”主题沙龙活动
鲁网11月18日讯为积极践行“金融为民”服务理念,精准满足广大客户多元化财富管理需求,搭建专业高效的金融交流平台,近日
2025-11-19 09:27:00
“具身智能”开辟青年创业新赛道
原标题:政策东风助力产业发展 年轻团队研发“灵巧手” 产品销量一年增长五倍“具身智能”开辟青年创业新赛道11月17日,中国共产党北京市第十三届委员会第七次全体会议召开
2025-11-19 10:57:00
大皖新闻讯 11月19日,记者从合肥市召开的新闻发布会获悉,“十四五”以来,合肥市以科技创新引领产业创新,获批2个国家级制造业创新中心
2025-11-19 14:05:00
“双十一”最后一公里日均单量远超去年峰值,顺丰同城联动无人车、公交车末端提效
第17个“双十一”落幕,星图数据显示,本届大促综合电商平台销售额为1.619万亿元,同比增长12.3%;即时零售成为今年最大黑马
2025-11-19 14:28:00
阿里千问App支持119种语言,上线全新实时翻译能力
11月19日,阿里千问App在公测三天后,迅速推出多项翻译能力升级。基于Qwen模型的多语言能力,千问App推出全新实时翻译功能
2025-11-19 14:55:00
再绽国际舞台!柏星龙创意包装斩获2025年度五项Pentawards大奖
摘要:2025年Pentawards全球获奖名单揭晓,深圳市柏星龙创意包装股份有限公司报送的五件作品从全球数千件参赛作品中突围
2025-11-19 16:37:00
中新经纬11月19日电 11月19日,工业和信息化部举行新闻发布会,介绍GB 6675《玩具安全》系列强制性国家标准修订情况
2025-11-19 16:58:00
你开店,我出钱!郑州用“青春计划”留住年轻人
大河网讯(记者 赵檬)11月18日,由共青团郑州市委联合市委金融办、市人社局等六部门推出的“商都新活力·青春小店成长计划”正式启动
2025-11-19 17:01:00
鲁网11月19日讯2025年11月1日至2025年11月30日,中国银行泰安分行开展“臻享新户礼遇,尽享美好生活”主题活动
2025-11-19 17:14:00
为啥爆款短剧都爱用它?
大河网讯(记者 赵檬)打开手机刷几分钟短剧,早已成为不少人碎片时间的标配。从手机拍摄到专业设备加持,从流量博弈到内容为王
2025-11-19 17:32:00