长上,清华,下文,团队,状态,作者头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

【新智元导读】RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅。与Transformer相比，RNN模型的一大优势是应对长序列的能力。比如Mamba，内部状态大小始终保持不变...……更多

2024-11-28 12:03:00长上,清华,下文,团队,状态,作者

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...。千亿参数、万卡集群，——还有各大厂商一直在卷的超长上下文。从一开始的几K几十K，发展到了如今的百万token级别。Gemini的最新版本可以接收200万个token作为上下文。这大概相当于140万个单词、2小时视频或者22小时的音频。...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

王小川公布最新大模型，号称全球最长上下文，是GPT-4的14

...Baichuan2-192K是目前全球最长的上下文窗口，也是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗口，实测约8万字）的4.4倍，更是GPT-4（支持32K上下文窗口，实测约 2.5万字）的14倍（1400%）。这不仅在上下文窗口长度上...……更多

2023-10-30 15:02:00王小川,王小,上下文,模型,上下,焦点

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...），MixCon（无 MoE）训练过程损失更低（如图 6 所示）。长上下文评估利用问答基准测试评估 MixCon 处理长上下文能力，使用 L - Eval 中最长上下文数据集的五个数据集，以少样本格式（每个实验用三个例子）进行实验。在 Narrativ...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

infini-attention：谷歌大内存机制

...compressivememory）整合到线性注意力机制中，用来处理无限长上下文。压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息，而不是随着输入序列长度的增加而增加参数量，能...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模

...一款面向C端的大模型产品。早前，该公司宣布在大模型长上下文窗口技术上取得新的突破，Kimi已支持200万字超长无损上下文，并开启产品内测，该能力在不到半年内提升9倍。市场的火爆，导致Kimi服务器一度瘫痪，无法回复用...……更多

2024-03-23 14:00:00卷上,通义,阿里,文心,下文,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

清华提出时间序列大模型：面向通用时序分析的生成式Transf

...据类型，时序领域的大模型构建尚处于起步阶段。近期，清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练，获得了任务通用的时序分析模型，展现出大模型特有的泛化性与可扩展性时间序列提供了数据随...……更多

2024-07-22 09:44:00时间序列,时序,清华,序列,生成,模型

CMU副教授：在多智能体流行的当下，不要忽视单智能体系统

...M 可能无法关注到重点，但随着模型能力提升，LLM 在确定长上下文中的重要信息方面越来越强了。检索增强式提示：另一种可能的选择是使用检索。如同检索增强式生成（RAG）系统一样，可以出于效率或准确度的目的对长上下...……更多

2024-10-11 12:03:00智能,副教授,体系,智能,提示,体系

腾讯推出 Hunyuan-Large 开源大模型

...据增强训练，Hunyuan-Large能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐专家...……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...唯一的解决方法就是使用更大上下文的模型。OpenAI提供了长上下文模型支持，最新版本的Genie经过了数十亿token的数据训练。团队认为，相比超参数调整和数据量，数据的质量才是关键。因此他们还在数据混合方面进行了大量实...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

马斯克 xAI 推出 Grok-1.5 大语言模型

...anEval 基准测试中得分为 74.1%。IT之家附测试对比表如下：长上下文理解方面，Grok-1.5 能够在其上下文窗口内处理多达 128k tokens 的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍，从而能够理解更长文档中的信息...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

OpenAI开启调查：GPT-4o及4o-mini模型性能下

...名为LONGPROC的基准测试工具，该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。实验结果略显意外：包括GPT-4o在内的众多顶尖模型，虽然在常规长上下文回忆基准测试中表现优异，但在应对复杂的...……更多

2025-01-20 15:59:00模型,性能,调查,模型,任务,长上

广东汕头90后，1年造出200亿独角兽

...关键是什么？了解的人可能知道，是Kimi推出了200万字的长上下文处理能力，但是在这之后，阿里、百度、360也是在纷纷跟进，甚至推出了更多的500字能力。这样来看，月之暗面的技术能力似乎很容易被复制，技术壁垒并不坚硬...……更多

2024-08-16 16:05:00汕头,独角兽,广东,估值,模型,商业

AGI一日要闻：台积电预测2040年GPU芯片性能提升100

...Grok。如今，马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力，计划将在未来几天内向早期测试人员和 X 平台（前 Twitter）上的现有 Grok 用户提供。具体来说，首先，Grok-1.5 最明显的改进之一是其在代码...……更多

2024-03-31 04:00:00估值,美金,要闻,芯片,高达,性能

姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑

...为设计下一代专门用于推理的AI模型提供了概念框架。清华叉院姚期智、袁洋领衔这篇论文由清华交叉信息研究院姚期智、袁洋领衔，论文第一作者为张伊凡。张伊凡张伊凡2021年本科毕业于于北京大学元培学院，现为清华大学...……更多

2024-09-24 13:36:00维图,院士,逻辑,模型,一致,理论

36氪晚报｜第四范式与临港集团发布战略合作；上海启元与TEM

...工智能创业公司“月之暗面”（Moonshot AI）宣布在大模型长上下文窗口技术上取得新的突破，Kimi智能助手已支持200万字超长无损上下文，并于即日起开启产品“内测”。苹果正在商谈让谷歌的大模型Gemini为iPhone的AI功能提供支持...……更多

2024-03-19 00:20:00阿布扎比,阿布,属地化,金融家,临港,范式

《红楼梦》里有大量东北方言？实测AI大模型“长文阅读”

...简单。今年2月，谷歌发布的Gemini 1.5Pro模型曾一度创下最长上下文窗口的纪录。根据官方数据，谷歌Gemini1.5 Pro将上下文窗口容量提到了100万token（极限为1000万token）。这意味着机器可以一下子处理22小时的录音、超过十倍的完整...……更多

2024-03-28 10:06:00红楼梦,长文,实测,方言,红楼,模型

清华量子计算成果登顶刊，来自丘成桐数学中心团队

...领域首次发现！噪声会造成量子优势突然消亡。这是来自清华大学丘成桐数学科学中心助理教授魏朝晖团队的最新研究成果，刚刚登上Science子刊。（相关成果以“关联生成中量子优势的突然消亡”为题发表于综合性子刊Science Adv...……更多

2024-11-28 12:04:00清华,量子,成果,团队,数学,量子

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct，而其参数规模还不到Llama-3.1-8B-instruct的一半。微软本次发布的3款模型的名字中……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能