• 我的订阅
  • 头条热搜
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...团队如何加班加点,好让产品迭代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。后发者的焦虑有目共睹。在2023年的最后一个月,“老大哥”谷歌熬不住了。12月6日,谷歌有史以来体量最大、功能最强的大模型Gemin...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...并行,就先将卷积算子进行张量切分,然后把大模型中的注意力层和前馈层的矩阵计算权重,分别输入到多个处理器的内存中。如此一来,通用服务器中的4颗CPU便可同时获取算法权重,进行计算加速。不过,张量并行对模型参...……更多
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
...量,然后使用循环骨干网络。 研究者使用了带有多查询注意力的五层 transformer 骨干网络,输入的相机视频被切成小块,并由一个卷积层并行处理。然后,他们将这些 token 与同一时间步的本体感受观察的线性嵌入堆叠在一起。...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...ken)由2位专家处理,共64个处理层,用于处理查询的有48个注意力机制单元(attention heads),用于处理键(key)/值(value)的有8个注意力机制单元,嵌入向量(embeddings)的维度为6,144,采用旋转式嵌入表示( RoPE) ,使用SentencePiece分……更多
to B要挣钱、to C要谨慎,李开复的大模型坚持
...,"B端市场为了提高效率、跟上时代步伐、吸引投资人的注意力,可能有一些是相对刚需的购买意愿。如真的能够切入某一类或者某一个领域,了解他们的需求,是有可能抢占市场先机的。" ……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...nAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造...……更多
本周硅谷发生了什么?| 高通第三代骁龙8;谷歌20亿美元追投Anthropic;联想拿出能跑大模型个人PC
...调多种条件和训练方案生成多角度的逼真图像。它引入了注意力机制,通过修改自注意力层的关键(K)和值(V)矩阵,接受额外的条件图像,提高了生成图像的准确性。此外,Zero123++引入了一个可训练的线性引导机制(来自Flex...……更多
德国OpenAI加入开源大战!发布欧洲纯血版模型,曾获博世和惠普投资
...,该模型引入了创新的技术,使用了一种称为“分组查询注意力”(Group Query Attention,GQA)的技术。Aleph Alpha声称这提高了推理速度,且几乎没有牺牲质量。模型还采用了“旋转式位置编码”(Rotary Position Embedding,RoPE)的方法...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...态 token 作为 Query,将模态特征作为 Key 和 Value 进行交叉注意力(Cross Attention)。该方法根据当前任务阶段的需求,将各模态的特征动态地整合到一个融合 token 中。最后,该融合 token 输入到策略网络(MLP)中预测下一个动作。我...……更多
“3D视频版Sora”来了!
...视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多
摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
...个实体类型。研究团队提出了两种聚合方法:加权和基于注意力的函数。在实验中,他们发现基于注意力的函数效果更好。具体而言,他们计算每个实体类型的注意力权重,并通过加权求和的方式获得最终的伪类型嵌入。接下来...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...集上均表现优秀在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多
字节版Sora火爆24小时,同名论文再次被热议
...。具体来说,它由两个基本模块构建,即2D卷积模块和2D注意力模块。通过插入时间层将2D UNet 扩展为3D变体,其中在2D卷积层之后插入1D时间卷积层,2D注意力层之后插入1D时间注意力层。模型可以通过图像和视频联合训练,在空...……更多
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...建模方法可以减少序列长度,缓解Transformer架构中不正确注意力机制导致的生成错误,从而在WER分数上得到提升。作者简介本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士,他从2020年开始担任MSRA自然语...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...这些嵌入通过投影块与文本标记对齐,投影块应用两个自注意力块将文本和视觉嵌入放在同一平面上。最后,投影块中的视觉标记就被添加到文本标记前面,并将联合表示传递给Llama 3。Llama3-V套壳实锤,或损害开源社区健康发展...……更多
黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
...21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会,在名为Transforming AI(变革AI)的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变...……更多
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
...彻底改变了语言建模。Transformer 是一种神经网络,它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展,改进了注意力机制和架构。发展到今天,OpenAI 发...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...询/键归一化,提高训练稳定性具有8个键值头的分组查询注意力(GQA),减少KV缓存的内存占用更高效的SwiGLU激活基础频率为500k的RoPE位置嵌入,支持长上下文适配器架构通过使用LoRA适配器,苹果的基础模型可以动态地根据当前...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...领跑全球。当前,在文本大模型领域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音乐生成等细分领域,中国玩家们正在奋勇前行,不断通过自研技术取得细分领域顶尖的SOTA表现,共同建设中国大模型产业,打造自主可控的大...……更多
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
...第 个token 是噪声,否则该token是相关的。令表示LLM的原始注意力层。我们假设期望的自注意力函数为:对模型的微调可以表示为其中,ΔW 表示其余项。在这种情况下,如果我们需要, 我们需要对于所有的相关的token ,有因此,需...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
所谓AI革命,到现在为止,是能源的一场“灾难”
...ansformer架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。市面上先进的LLM通常包含了万亿级别的参数,参数越多,模型复杂度越高...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...面中运动的呈现更加合理,可灵大模型采用 3D 时空联合注意力机制,更好地建模复杂时空运动,即可生成较大幅度运动的视频内容,同时能够符合运动规律。 训练及优化策略如果你已经亲自测试过,就会发现可灵支持推理过程...……更多
有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍
...的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。实验结果表明,nGPT在训...……更多
谷歌开源系模型第二代免费开放!27B媲美Llama3 70B,单H100可跑
...mma 1不同之处在于,Gemma 2每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比Gemma 1也使用了更深的网络结构。Gemma 2关键模型参数如下:网友实测目前,用户还可在Hugging...……更多
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
... Time Image Decomposition (TID):TID通过横轴和纵轴两个轴向的注意力机制,从每一个时序图中解耦季节-趋势,得到季节图和趋势图。3. Multi-Scale Mixing (MCM):MCM负责将不同尺度上的季节图和趋势图分别进行混合,鉴于图的形式,论文...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...流的VQA模型(如LLaVA-1.5)使用了具备单向(auto-regressive)注意力机制的语言模型(如Llama)。这种机制导致模型在提取图像特征时,无法提前获取提示词的完整信息。为了更有效的提取视觉特征,研究团队使用开源数据训练了一...……更多
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...师的绘画技法。深入解读 ProcessPainter 的核心技术1. 时序注意力机制(Temporal Attention)用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示:为实现强大的通用和泛化能力,研究人员需要基于大规模和多样化的数据集训练模型。然而,在图像...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...Transformer架构之上,并做了一些设计优化,包括分组查询注意力(GQA)、SwiGLU激活函数等。研究人员在论文中解释道,Apple Intelligence由多个高性能生成模型组成,这些模型快速、高效、专门用于用户的日常任务,并且可以根据用...……更多
更多关于科技的资讯:
9月17日,兴业银行信用卡中心与美团企业版在上海签署战略合作协议,共同打造“金融+生活”开放生态。根据协议,双方将基于开放共享
2025-09-24 07:24:00
金洽会上51个重点产业项目签约,计划投资802.21亿元——一串串数字,见证企业对南京的高度认可□南京日报/紫金山新闻记者张甜甜9月23日
2025-09-24 08:11:00
5项科技创新成果案例发布芯片设计迎“超强大脑”多癌早筛一管血“搞定”南报网讯(记者张安琪)9月23日,2025南京金洽会开幕式重点发布环节
2025-09-24 08:12:00
在今年国庆、中秋双节消费旺季来临之际,济南122站以“客户体验感”为核心,从“环境优化、商品管理、客户拓展”三大维度精准发力
2025-09-24 08:50:00
近期,光交换机行业催化剂不断。在中国国际光电博览会,OCS(光电路交换机)作为下一代交换技术的主流方向之一被重点展示。业内人士指出
2025-09-24 09:54:00
平安产险镇江中支助力“苏超”焦点战 贴心服务点亮球迷体验
9月20日,在“苏超”镇江队与无锡队激烈对决的赛场内外,平安产险镇江中支开展了系列品牌推广与球迷服务活动,不仅为现场近三万观众送去清凉与惊喜
2025-09-24 10:55:00
10大AI场景亮相!三翼鸟把“人工智能+”装进3000m²家
当前,人工智能正以前所未有的深度与广度融入千行百业。智能家居行业也迎来关键转折——从单点智能走向全屋智慧,从“人控制设备”升级为“家主动为人服务”
2025-09-24 10:59:00
海尔“懒人洗衣机”获近百万台海外订单
9月19日,海尔第九届人单合一模式引领论坛在北京举行。会上,海尔智家董事长兼总裁李华刚分享了海尔智慧家庭智能交互引擎的实践成果
2025-09-24 10:59:00
中移齐鲁创新院:九大成果入选“鼎新杯”典型案例
近日,2025数字化转型发展大会在北京举行。在大会应用征集评选活动中,中移齐鲁创新院共9项成果入选第四届“鼎新杯”数字化转型典型案例
2025-09-24 11:00:00
海尔泰国空调生产基地应用“无人物流+数字孪生”
在数字经济与实体经济深度融合的浪潮下,海尔智家再次以“数字化转型”的创新实践站上全球舞台。9月23日,海尔智家位于泰国春武里的空调生产基地正式投产
2025-09-24 11:00:00
以大模型重构记录边界,讯飞AI录音笔让每一段声音都被理解
近日,《关于深入实施“人工智能+”行动的意见》(下称《意见》)正式发布,明确提出到2027年,实现人工智能与6大重点领域广泛深度融合
2025-09-24 11:22:00
京东超市宣布:三年内扶持100家个护行业新锐品牌 每年打造百款爆品和百大商家店铺
9月23日,2025京东超市个护行业发展大会在北京举行,全国近400家知名个护品牌高管参会,共同探讨行业新趋势、新机遇
2025-09-24 11:37:00
中新经纬9月24日电 据路透社报道,因网络攻击,英国最大的汽车制造商捷豹路虎(Jaguar Land Rover)将停产期限延长至10月1日
2025-09-24 11:42:00
麻六记再因酸辣粉发霉引热议,北京麻六记房山分店已注销
近日,因有网友发视频称麻六记酸辣粉连续开了四盒都发霉一事引发热议。据悉,此次并非麻六记第一次被曝出酸辣粉发霉。今年7月份
2025-09-24 11:43:00
盈美信科炫动2025太原马拉松,金融科技赋能赛事生态
9月21日清晨, 2025太原马拉松赛在五一广场鸣枪开跑,4万名跑者踏响“千年晋韵、锦绣太原”的赛道,在汾河之畔展开活力角逐
2025-09-24 11:46:00