• 我的订阅
  • 头条热搜
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...中,LLM会被呈现一系列token,然后会被问到给定的token在序列中出现了多少次。 之所以Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...址:https://arxiv.org/pdf/2410.01201v1最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣,出现了一大批有关成果,其中 Mamba 的成功引爆了 AI 圈,更是点燃了大家的研究热情。Bengio 和他的研究团队发现,这...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
...人系统——基于多尺度3D模型的WetaAvatar 4.0,通过整合「序列猴子」的强大文案生成能力以及「魔音工坊」的高质量语音合成技术,我们进一步强化了数字人的呈现效果,实现高度仿真的外观,同时还精心打造了生动的表情,媲...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...IPS 2024 Workshop on Time Series in the Age of Large Models 接收。时间序列预测是人类理解物理世界变化的重要一环。自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...在短问答方面表现出明显的优势,而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。△不同LLM在LooGLE上展现的长文本理解能力△不同模型在LooGLE短程问答上的性能△不同模型在LooGLE...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
...编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及...……更多
AMD推出配备Zen 4c内核的Ryzen 7040U处理器,为未来混合架构推广开路
AMD采用Zen 4 + Zen 4c混合架构的Phoenix 2芯片其实早就用在面相掌机市场的Ryzen Z1处理器上,而AMD并没有让该芯片止步于此,现在他们把这款芯片正式推向移动市场,新推出Ryzen 5 7545U和Ryzen 3 7440U处理器就是拥有Zen 4c内核的混合架构...……更多
骁龙8至尊版混合架构、成本揭秘:更贵是不可避免的!
...至尊版,首次采用专为智能手机设计的第二代自研Oryon CPU架构,同时在GPU、NPU、影像、连接等各方面都实现了飞跃,各家手机厂商的终端产品也即将纷纷登场。发布会后,快科技采访了高通的多位技术高管,对于骁龙8至尊版的...……更多
2023预见汽车行业十大年度创新技术
...的控制器技术与“中央计算+区域控制”新一代电子电气架构实现突破,叠加人工智能大模型的强势赋能,自动驾驶通用泛化能力显著加强;基础设施端,5G+V2X车联网支持的C-ADAS功能、云端数据闭环能力等网联通信技术不断完善...……更多
明年买SUV的有福了!广州车展后,这些SUV都将上市!
...年(最快或1月)未来,比亚迪海洋网中,海豹成为轿车序列,海狮则是SUV序列。广州车展首发亮相的这款海狮07EV,定位中型SUV,车身外部尺寸为4830/1925/1620mm,轴距为2930mm,预计售价在20-26万。新车将于明年上半年上市,上市即...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能优势。随着近年来大型...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……这样一个与我们每个人都息息相...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...,使得全模态对齐变得更加复杂。在不到两周的时间内,北大对齐小组基于 Llama-3.2-Vision 的 11B 预训练版本进行后训练 (Post-Training) 对齐微调得到 Beaver-Vision-11B,表现出了比 Meta 微调的 Llama-3.2-11B-Vision-In……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...的目标,研究人员从扩散模型的基础模块DiT入手。首先,序列长度是Transformer计算成本的大敌,需要除掉。对于图像来说,就需要在不影响性能的情况下,尽量减少参加计算的patch数量(同时也减少了内存开销)。减少图像切块...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...现,从而大大降低了部署成本。 谷歌团队在重新设计的架构上构建了Gemma 2,使得这位Gemma家族的新成员既能提供卓越的性能,又具有高效的推理能力。简要概括一下,性能、成本、推理是它的突出特点:性能卓越:Gemma 2 27B模...……更多
...术摸索和调研工作,迅速形成了3种氢能市域列车的车辆架构、氢能设备选型和布置方案。“3套方案形成后,我们立即展开了分析工作,对每套方案的车辆重量分布、轴重、动力性能、模态、气动阻力等关键特性进行了逐一分析...……更多
Redmi专门定制了天玑8300-Ultra芯片
...旗舰特性,同样的旗舰工艺、同样的存储规格、同样的ISP架构、同样的AI架构等,完全就是一脉相承,我们的研发团队甚至也说,这就是MediaTek年度的“旗舰双雄,超能兄弟”。卢伟冰指出,天玑8300-Ultra是一款性能分水岭的产品...……更多
迟来的领克纯电,在吉利的缝隙中突围
...领克ZERO命名其首款车型,而是为纯电单独树立了独立的序列:Z。这首款纯电车型最终定名领克Z10。02.从零到一零在领克的官方资料中,这样解释Z10的命名逻辑:领克Z10的字母Z,源自ZERO,代表领克的全新纯电理念。Zeal-激情,Enj...……更多
苹果公司公布“mm1”多模态大模型
...模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(MixtureofExperts)架构及一种名为Top-2Gating的方法构建了MM1模型,号称不仅在预训练指标中实现了最好的性...……更多
AMD 2024年首个大招!锐龙8000G系列APU来了
...有四种型号,TDP均为65W。最顶级的为锐龙78700G,采用Zen4架构,拥有8核16线程,并且配备12CU的RDNA3架构核显。从这个参数上看,它很像是桌面版的锐龙77840HS,性能应该会更强一些,功耗也更高一些;其次是锐龙58600G,拥有6核心12线...……更多
续航超1400km/最低油耗5.2L 奇瑞风云T9正式下线
...午,奇瑞风云T9于青岛工厂正式下线,风云T9是奇瑞风云序列原生混动产品,是基于火星架构-超能混动平台打造,预计价格区间定在15-20万,新车采用插电式混合动力,WLTC综合续航里程可达1400km,纯电续航里程可达160km,20分钟补...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...切换的计算成本。 二是增加了常数项2.3×108D,反映了长序列MoE模型attention计算的额外开销。为了确定最优激活参数量,团队投入大量成本展开实验:训练一系列激活参数范围从10M到1B的模型,使用最高1000亿tokens的训练数据,覆...……更多
苹果发布mm1.5-ui模型
...了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模型文档已在HuggingFace上发布。MM1.5提...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...间层的token下采样,在32层中,在中间层将图像键和值的序列长度减少了四倍,使整个网络类似于只有一个下采样的传统卷积U-Net,略微加快了训练和推理时间,而且没有性能下降。3. 位置嵌入,与llama3中的旋转位置嵌入(RoPE)...……更多
奔驰“雪藏”失败电车
...的最后一次大换代,此后将只有小改款。北京奔驰的产品序列中,GLC和E级车几乎是最重要的两款产品。两款车的主销价格带均在50万元上下,分别是北京奔驰SUV和轿车两大产品序列中的品牌和销量双担当。今年前10个月北京奔驰...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平...……更多
更多关于科技的资讯:
4999元起!京东自营iPhone 16系列年底大降价:最高立减1200元
快科技12月22日消息,京东官网显示,Apple产品京东自营旗舰店iPhone 16系列今日迎来年底大降价,叠加消费券至高立减1200元
2024-12-22 08:02:00
北京未来科学城能源谷亮2024成绩单 多个维度步入“全球前列”
本文转自:人民网-北京频道人民网北京12月22日电 (记者董兆瑞)12月20日,2024北京未来科学城能源谷科技成果交流会举办
2024-12-22 09:19:00
□南京日报/紫金山新闻记者徐宁通讯员蔡旺12月20日,2024世界智能制造大会在南京举行。南京本土企业T3出行受邀参会
2024-12-22 10:11:00
由于资金问题,Moxie机器人将停止服务
12月21日消息,Embodied公司在2022年12月推出了一款针对儿童设计的Moxie机器人,定价800美元(IT之家备注
2024-12-22 10:40:00
网红吃宵夜晕倒:昏迷8个月去世
12月21日消息,据媒体报道,广东45岁网红麦友煊因病于12月20日离世。据了解,4月13日凌晨,麦友煊吃宵夜突发意外昏迷不醒
2024-12-22 00:02:00
山灵m0s便携无损音乐播放器发布, 24日开售
12月20日消息,山灵官方今日发布M0s便携无损音乐播放器,将于12月24日开售,首发价528元。山灵M0s搭载一块1
2024-12-22 00:11:00
丰田凯美瑞光辉版上市,提供两款不同配置
12月21日消息,广汽丰田凯美瑞光辉版轿车今日正式上市,新车提供两款不同配置,官方指导价分别为 20.28万元和 21
2024-12-22 00:22:00
毛不易冬至送广州一场雪:现场歌迷被震撼到了
12月22日消息,据媒体报道,毛不易在三巡广州站现场演唱《东北民谣》时送了广州一场雪,场馆内飘起了漫天雪花。毛不易表示
2024-12-22 00:32:00
北京星际智造大直径搅拌摩擦焊贮箱成功下线
12月21日消息,北京星际智造科技有限公司官方公众号昨日(12月20日)发布博文,宣布在北京市大兴区,成功下线大直径搅拌摩擦焊贮箱
2024-12-22 00:33:00
特斯拉透露cybertruck隐藏的“彩蛋”设计
12月21日消息,特斯拉Cybertruck赛博皮卡越野车的首席工程师WesMorrill透露,Cybertruck中存在一项隐藏的“彩蛋”设计
2024-12-22 00:36:00
epic2024年假日促销将送16款神秘游戏
12月20日消息,Epic2024年假日促销期间总共将送出16款神秘游戏,《吸血鬼幸存者》现在仍可领取。12月21日0时起
2024-12-22 00:50:00
openkylin2.0sp1发布:内核稳固升级
12月20日消息,OpenAtomopenKylin(以下简称“openKylin”)2.0SP1版本今日正式发布。据介绍
2024-12-22 01:03:00
华硕rog各系列新品sku参数曝光
12月20日消息,爆料者@Huang514613发现华硕ROG多款机型已经在印度、欧洲和英国经销商处上架,他特地整理了ROG各系列新品sku的参数信息
2024-12-22 01:09:00
《双人成行》新作《双影奇境》开启预购
12月21日消息,据Steam商店页面显示,《双人成行》团队新作《SplitFiction》中文名定名为《双影奇境》,游戏现已开启预购
2024-12-22 01:12:00
AT&T计划到2029年底劝说全美国的用户告别固定电话
12月21日消息,据彭博社周五晚间报道,AT&T计划到2029年底劝说全美国的用户告别固定电话。为了实现这一目标
2024-12-22 01:20:00