• 我的订阅
  • 头条热搜
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
...利用 Checkpoint 保存过程中 GPU 到 CPU 内存拷贝 ( D2H 复制),序列化,本地存盘,上传到存储系统各个阶段的执行独立性。此外,不同训练进程共同分担 Checkpoint 存取任务的并行处理潜力也没有被充分发掘。这些系统设计上的不足增...……更多
图结构转文本序列,大模型直接读懂!图推理性能大涨
...法来了:将图(Graph)转换为适合Transformer架构的线性token序列。belike:这种最新图线性化方法,反映了自然语言中局部依赖性和全局对齐性两个关键属性,即:不仅需要保留基于前文上下文预测下一个token的能力(局部依赖性)...……更多
字节豆包团队推出稀疏模型架构UltraMem:推理成本可降83%
...tion团队近日宣布了一项重要创新成果——UltraMem稀疏模型架构。这一架构通过将计算和参数解耦,在保证模型效果的同时,有效解决了推理过程中的访存问题,为人工智能领域带来了新的突破。据了解,UltraMem架构巧妙地将计算...……更多
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
...的示例,这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。 我们可以扩展相同的技巧,从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 to.……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...这个过程中,会运行带有四个输入token和四个输出token的序列;每种颜色代表一个不同的序列。同样的技巧,就可以扩展到2048个输入token和128个输出token的Llama-3-70B上。要让每个batch,都包含一个序列的2048个输入token,和127个不同...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...中,LLM会被呈现一系列token,然后会被问到给定的token在序列中出现了多少次。 之所以Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所...……更多
生成模型真实物理引擎Genesis来了!由全球AI顶尖高校团队开发
...时,Genesis 能够自动生成符合物理规律且视觉连贯的动画序列,同时智能控制相机运动,确保最佳观察视角。在机器人控制方面,Genesis 展现出了全方位的能力。系统能够自动生成各种复杂的机器人控制策略,从四足机器人的各...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...址:https://arxiv.org/pdf/2410.01201v1最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣,出现了一大批有关成果,其中 Mamba 的成功引爆了 AI 圈,更是点燃了大家的研究热情。Bengio 和他的研究团队发现,这...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变,计算随序列长度线性增长,吃得多,消化快。理论虽如此,但实际情况却是,目前的这些RNN模型在长上下文中的有效...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...IPS 2024 Workshop on Time Series in the Age of Large Models 接收。时间序列预测是人类理解物理世界变化的重要一环。自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
...人系统——基于多尺度3D模型的WetaAvatar 4.0,通过整合「序列猴子」的强大文案生成能力以及「魔音工坊」的高质量语音合成技术,我们进一步强化了数字人的呈现效果,实现高度仿真的外观,同时还精心打造了生动的表情,媲...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...在短问答方面表现出明显的优势,而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。△不同LLM在LooGLE上展现的长文本理解能力△不同模型在LooGLE短程问答上的性能△不同模型在LooGLE...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
...编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及...……更多
AMD推出配备Zen 4c内核的Ryzen 7040U处理器,为未来混合架构推广开路
AMD采用Zen 4 + Zen 4c混合架构的Phoenix 2芯片其实早就用在面相掌机市场的Ryzen Z1处理器上,而AMD并没有让该芯片止步于此,现在他们把这款芯片正式推向移动市场,新推出Ryzen 5 7545U和Ryzen 3 7440U处理器就是拥有Zen 4c内核的混合架构...……更多
骁龙8至尊版混合架构、成本揭秘:更贵是不可避免的!
...至尊版,首次采用专为智能手机设计的第二代自研Oryon CPU架构,同时在GPU、NPU、影像、连接等各方面都实现了飞跃,各家手机厂商的终端产品也即将纷纷登场。发布会后,快科技采访了高通的多位技术高管,对于骁龙8至尊版的...……更多
inteln系列迷你机测试
...规则,放弃了奔腾、赛扬品牌,新系列部分归属酷睿i5/i3序列,部分则直接叫做Intel处理器序列。摩方的MorefineM9就是首批采用IntelN系列平台的迷你机之一,体积只有0.5升,比一个游戏手柄还要小,或者只相当于紧凑型键盘的三分...……更多
2023预见汽车行业十大年度创新技术
...的控制器技术与“中央计算+区域控制”新一代电子电气架构实现突破,叠加人工智能大模型的强势赋能,自动驾驶通用泛化能力显著加强;基础设施端,5G+V2X车联网支持的C-ADAS功能、云端数据闭环能力等网联通信技术不断完善...……更多
明年买SUV的有福了!广州车展后,这些SUV都将上市!
...年(最快或1月)未来,比亚迪海洋网中,海豹成为轿车序列,海狮则是SUV序列。广州车展首发亮相的这款海狮07EV,定位中型SUV,车身外部尺寸为4830/1925/1620mm,轴距为2930mm,预计售价在20-26万。新车将于明年上半年上市,上市即...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能优势。随着近年来大型...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……这样一个与我们每个人都息息相...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...的目标,研究人员从扩散模型的基础模块DiT入手。首先,序列长度是Transformer计算成本的大敌,需要除掉。对于图像来说,就需要在不影响性能的情况下,尽量减少参加计算的patch数量(同时也减少了内存开销)。减少图像切块...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...,使得全模态对齐变得更加复杂。在不到两周的时间内,北大对齐小组基于 Llama-3.2-Vision 的 11B 预训练版本进行后训练 (Post-Training) 对齐微调得到 Beaver-Vision-11B,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-In……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...度的状态空间模型,它能够以线性计算复杂度实现对输入序列的有效建模,在近几个月受到了广泛的关注。本文给出了一个十分有趣的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...现,从而大大降低了部署成本。 谷歌团队在重新设计的架构上构建了Gemma 2,使得这位Gemma家族的新成员既能提供卓越的性能,又具有高效的推理能力。简要概括一下,性能、成本、推理是它的突出特点:性能卓越:Gemma 2 27B模...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...建模为相机运动,ObjCtrl-2.5D 将三维轨迹表示为相机姿态序列,从而无需训练即可使用现有的相机运动控制 I2V 生成模型(CMC-I2V)进行物体运动控制。为了使最初为全局运动控制而设计的 CMC-I2V 模型适应于处理局部物体运动,他...……更多
...术摸索和调研工作,迅速形成了3种氢能市域列车的车辆架构、氢能设备选型和布置方案。“3套方案形成后,我们立即展开了分析工作,对每套方案的车辆重量分布、轴重、动力性能、模态、气动阻力等关键特性进行了逐一分析...……更多
更多关于科技的资讯:
近日,苏州移动开展了油机合路器应用试点,成功解决了大功率节点机房的发电难题,为防汛抗台等应急发电工作提供了全新的解决方案
2025-03-03 13:58:00
中新经纬3月3日电 据路透社援引彭博新闻社报道,欧洲奢侈品集团普拉达(Prada)正接近与美国品牌集团Capri达成洽购知名奢侈品牌范思哲(Versace)的协议
2025-03-03 14:03:00
界面比微软漂亮!消息称鸿蒙PC下月发布:华为还有神秘惊喜
快科技3月3日消息,对于华为来说,正在全面推行的纯血鸿蒙生态中,PC也是必不可缺的一环。有数码博主爆料称华为可能在4月下旬发布鸿蒙PC
2025-03-03 14:09:00
首款DeepSeek空调全球首发 开启空调行业智能化革命
近日,美的空调打造了一场别开生面的新品品鉴活动——以DeepSeek为主讲人推出了全新的美的鲜净感空气机T6,这场全AI主导的新品发布
2025-03-03 14:09:00
出生人口创逾120年来新低!日本研发AI机器人照护老人:48万/个 能做家务
快科技3月3日消息,据国外媒体报道称,日本研发了一款人工智能(AI)驱动的仿人机器人,希望在未来可承担起老年人的护理者角色
2025-03-03 14:09:00
理想i8纯电SUV 7月上市!李想:二胎及三代同堂家庭可以耐心等等
快科技3月3日消息,今日,理想汽车宣布,理想旗下首款纯电SUV——理想 i8将于今年7月发布上市。理想汽车CEO李想今天下午发文
2025-03-03 14:09:00
讯景发布唯一双风扇RX 9070 XT:4999元良心原价 暂时中国独享
快科技3月3日消息,AMD RX 9070系列正式发布,即将解禁上市,各家品牌厂商都规划了不少产品,讯景更是一口气拿出了多达六款
2025-03-03 14:09:00
发病率上涨3倍多!好好的年轻人 怎么突然就听不见了
近几年,许多耳鼻喉科医生都发现“突发性耳聋”有越来越年轻化的趋势。患者来到医院常见的表述就是“突然一下就什么都听不到了”
2025-03-03 14:39:00
努比亚Flip 2明天发布:行业首款全尺寸内嵌DeepSeek小折叠
快科技3月3日消息,今日,努比亚手机发布努比亚Flip 2新品发布会直播预告,并公布产品部分亮点,新机将于3月4日16:00正式发布
2025-03-03 14:39:00
浪潮数字商业发布基于大模型的 数字员工3.0解决方案 -- 金叶智系列 数字化转型解决方案
在烟草行业数字化转型的关键时期,浪潮数字商业凭借深厚的技术积累和对烟草行业的深入洞察,近日推出了以大模型技术+数字员工3
2025-03-03 14:42:00
低空+DeepSeek,浪潮通信信息发布低空智联网一体化运营服务平台V2.0
随着无人机技术的快速发展和低空应用场景的日益丰富,低空经济的智能化发展已成为推动低空经济高质量发展的重要方向。在此背景下
2025-03-03 14:44:00
本文转自:人民网-北京频道据朝阳区数据局消息,坐落在北京市朝阳区核心地带酒仙桥的E级智算中心——北京数字经济算力中心正式宣告基础设施落成
2025-03-03 14:48:00
《高效玩转DeepSeek : 解锁90% 的人都不知道的使用技巧》出版发行
鲁网3月3日讯在AI迅猛发展的浪潮中,如何快速掌握人工智能的最新工具,成为每个职场人、创作者、企业管理者和研究者的必修课
2025-03-03 14:49:00
洽客科技参与电商行业标准制定,护航市场健康发展
在数字经济蓬勃发展的今天,电商已成为驱动全球经济活力与增长的关键力量,极大地拓宽了市场边界,促进了商品与服务的全球流通
2025-03-03 15:00:00
酷骑智能自行车:以AI技术重塑骑行体验,终结“配件堆砌”时代
当传统厂商还在为码表增加0.1英寸屏幕时,酷骑品牌已经凭借一辆酷骑智能自行车=导航仪+防盗器+数据中枢+社交终端,结合AI技术和APP
2025-03-03 15:01:00