• 我的订阅
  • 头条热搜
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...。千亿参数、万卡集群,——还有各大厂商一直在卷的超长上下文。从一开始的几K几十K,发展到了如今的百万token级别。Gemini的最新版本可以接收200万个token作为上下文。这大概相当于140万个单词、2小时视频或者22小时的音频。...……更多
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
...Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍(1400%)。这不仅在上下文窗口长度上...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。 长上下文评估利用问答基准测试评估 MixCon 处理长上下文能力,使用 L - Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。在 Narrativ...……更多
infini-attention:谷歌大内存机制
...compressivememory)整合到线性注意力机制中,用来处理无限长上下文。压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能...……更多
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...一款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆,导致Kimi服务器一度瘫痪,无法回复用...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
清华提出时间序列大模型:面向通用时序分析的生成式Transformer
...据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性时间序列提供了数据随...……更多
CMU副教授:在多智能体流行的当下,不要忽视单智能体系统
...M 可能无法关注到重点,但随着模型能力提升,LLM 在确定长上下文中的重要信息方面越来越强了。 检索增强式提示:另一种可能的选择是使用检索。如同检索增强式生成(RAG)系统一样,可以出于效率或准确度的目的对长上下...……更多
腾讯推出 Hunyuan-Large 开源大模型
...据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐专家...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...唯一的解决方法就是使用更大上下文的模型。OpenAI提供了长上下文模型支持,最新版本的Genie经过了数十亿token的数据训练。团队认为,相比超参数调整和数据量,数据的质量才是关键。因此他们还在数据混合方面进行了大量实...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...anEval 基准测试中得分为 74.1%。IT之家附测试对比表如下:长上下文理解方面,Grok-1.5 能够在其上下文窗口内处理多达 128k tokens 的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍,从而能够理解更长文档中的信息...……更多
广东汕头90后,1年造出200亿独角兽
...关键是什么?了解的人可能知道,是Kimi推出了200万字的长上下文处理能力,但是在这之后,阿里、百度、360也是在纷纷跟进,甚至推出了更多的500字能力。这样来看,月之暗面的技术能力似乎很容易被复制,技术壁垒并不坚硬...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...Grok。如今,马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。具体来说,首先,Grok-1.5 最明显的改进之一是其在代码...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...为设计下一代专门用于推理的AI模型提供了概念框架。 清华叉院姚期智、袁洋领衔这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。张伊凡张伊凡2021年本科毕业于于北京大学元培学院,现为清华大学...……更多
...工智能创业公司“月之暗面”(Moonshot AI)宣布在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于即日起开启产品“内测”。苹果正在商谈让谷歌的大模型Gemini为iPhone的AI功能提供支持...……更多
《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”
...简单。今年2月,谷歌发布的Gemini 1.5Pro模型曾一度创下最长上下文窗口的纪录。根据官方数据,谷歌Gemini1.5 Pro将上下文窗口容量提到了100万token(极限为1000万token)。这意味着机器可以一下子处理22小时的录音、超过十倍的完整...……更多
清华量子计算成果登顶刊,来自丘成桐数学中心团队
...领域首次发现!噪声会造成量子优势突然消亡。这是来自清华大学丘成桐数学科学中心助理教授魏朝晖团队的最新研究成果,刚刚登上Science子刊。(相关成果以“关联生成中量子优势的突然消亡”为题发表于综合性子刊Science Adv...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8B-instruct的一半。微软本次发布的3款模型的名字中……更多
谷歌推出datagemma开放权重语言模型新版本
...从数据共享平台检索相关信息来进一步提高回复的质量。长上下文窗口由Gemini1.5Pro实现,确保了回答的全面性和清晰度,同时引入了表格和脚注以提供更深层次的上下文。研究团队强调这些技术如何帮助大语言模型判断何时依赖...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...种日常活动。评测结果表示,人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5(85.0%对37.3%)。在多模态能力上,大模型们还任重而道远。HourVideo如何炼成? 之所以提出HourVideo,是因为研究人员发现目前长...……更多
Kimi引爆人工智能新风口,龙头连续20CM涨停!哪些公司可
...还会有新成果亮相。开启大模型应用新篇章事实上,无损长上下文是通往通用人工智能的基础技术,它也是业界一直以来的研究重点。从历史上看,模型架构的演进,本质上都是在提升有效的、无损的上下文长度。此次Kimi智能...……更多
没排上SearchGPT?比Perplexity更好用的国产开源平替了解一下?
...管理上下文作为一个多智能体框架,MindSearch 为如何管理长上下文提供了全新尝试。当需要快速阅读大量网页时,由于最终答案只依赖 WebSearcher 的搜索结果,WebPlanner 将专注于分析用户提出的问题,不会被过长的网页信息分心。...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基准:成功...……更多
国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?
...应速度,与人自然交互。 另外,也用上了大语言模型的长上下文的理解能力,比如「你能把它们放到那里吗」,谁是「它们」,「那里」是哪里?这些只有大语言模型才有能力精准抓取长上下文里的指代关系。Figure 是否用到了...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...超过 100 万 token 的输入,并通过超强的回忆能力有效处理长上下文提示。其二,由于拥有良好的情境理解和适应能力,以及涵盖科学技术、艺术文化等广泛主题的知识库,因此该模型可以在分析用户语言、语气和意图的细微差别...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。最后,这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和...……更多
Kimi概念股继续暴涨!多家上市公司回应,月之暗面致歉系...
...线。 此前3月18日,月之暗面宣布其AI产品Kimi,在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于即日起开启产品内测。据了解,月之暗面成立于2023年4月,法定代表人杨植麟毕业于清...……更多
更多关于科技的资讯:
3名游客意外落海:水上机器人成功拖回
快科技2月3日消息,机器人越发成熟起来,在各个领域发挥的作用也越来越大,近日,就有水上机器人成功救援了三名落水的游客。据央视网报道
2025-02-03 08:10:00
RTX 5090缺货到一塌糊涂!想预定都要等4个月
快科技2月3日消息,在RTX 50系列显卡发布后,市场出现了“一卡难求”的局面,许多零售商在开售后几分钟内就宣告售罄,甚至一些商家根本未能拿到RTX 5090
2025-02-03 08:10:00
华为XHUD-AR构图引擎亮点信息公布:让开车比开飞机更有趣
快科技2月3日消息,今日凌晨,华为乾崑智能汽车解决方案公布了XHUD-AR构图引擎的亮点信息,引擎支持多维坐标转换(虚实空间融合算法)
2025-02-03 09:10:00
火热一线过大年|厦企安费诺电子近4000名员工坚守岗位
春节假期,安费诺电子员工在产线上忙碌。(记者 张奇辉 摄)厦门网讯(厦门日报记者 李晓平)“为赶订单,这个春节我们有近4000名员工坚守岗位
2025-02-03 09:07:00
牢记嘱托 善作善成 春节假期,天津港依然是一派繁忙景象。港口里的拖轮,每天平均穿梭于码头和货轮之间8到10艘次。
2025-02-03 08:51:00
体长55米的巨型虫子!缩成一团蠕动 仿佛“毒液”
提起绦虫,第一时间的反应绝对是“恶心”,因为这是一种非常长的肠道寄生虫,人类也会被寄生。它到底有多长呢?开头这张照片就比较有名
2025-02-03 08:40:00
AMD惊喜连连!锐龙9 9000X3D与RX 9070系列显卡3月同步发布
快科技2月3日消息,据媒体报道,AMD计划在3月底同步推出锐龙9 9000X3D系列处理器和RX 9070系列显卡。锐龙9 9000X3D系列处理器包括16核心的9950X3D和12核心的9900X3D
2025-02-03 08:40:00
16大核32小核!Intel下代桌面CPU Nova Lake-SK很暴力
快科技2月3日消息,Intel已经官宣,将在今年下半年投产Intel 18A工艺,发布下代移动处理器Panther Lake
2025-02-03 08:40:00
春晚与淘宝,如何成为“最佳搭档”的?
作者:剑秋申遗后的春晚,正在变得更年轻? 在辞旧迎新的除夕夜,春节联欢晚会这个持续了43年的文化盛宴,在其与老搭档淘宝7年后第四次携手之际
2025-02-03 07:17:00
2024年全新上市车型销量榜:比亚迪秦L第一 一年狂卖228818辆
快科技2月2日消息,易车榜根据终端销量数据,整理了2024年上市的全新车型销量Top20榜单。具体来看,比亚迪秦L为去年上市的全新车型销冠车型
2025-02-02 23:10:00
苹果宣布开源Swift Build:拓展开发者生态建设
快科技2月2日消息,据报道,苹果宣布其将开源用于构建Xcode开发环境的工具引擎Swift Build。为开发者提供更加灵活和强大的工具支持
2025-02-02 23:40:00
阿西莫夫三定律 还适用于今天的AI吗
1942年,伟大的科幻作家艾萨克·阿西莫夫(Isaac Asimov)在他的短篇小说《转圈圈》(Runaround)中首次提出了“机器人三定律”
2025-02-02 23:40:00
想买YU7 先看看这台14000公里的创始版SU7现在咋样了
各位买新能源车的时候,会考虑二手车么?反正脖子哥我是有点心动的,二手新能源大部分年份都很近,里程数很低,而且一看价格全是骨折价
2025-02-03 01:10:00
“新冰箱吸不住高价买的冰箱贴”,气疯有囤积癖的年轻人
原标题:为什么新出的冰箱,吸不住冰箱贴了?作者:梁婷婷囤满食物的冰箱,在爸妈眼里自带一种年味儿,但一代人有一代人的“囤积癖”
2025-02-03 03:03:00
电动车主分享高速服务区充电小妙招:过个通道立马不用排队等桩
快科技2月2日消息,随着新能源汽车保有量的增多,每年春运期间都会出现服务区充电排队的情况。日前,有电动车车主分享了一个高速服务区充电小妙招
2025-02-02 12:40:00