大内,机制,上下文,模型,处理,上下头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

infini-attention：谷歌大内存机制

谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA（稀疏注意力）在提高效率同时，为提高模型能力提供新的方向，实...……更多

2025-02-19 18:43:00文锋,对大,注意力,模型,意味,机制

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万

...的Qwen2.5-Turbo已在阿里云百炼上线，该模型支持100万超长上下文，相当于100万个英文单词或150万个汉字，在多个长文本评测集上的性能表现超越GPT-4。即日起，所有用户可在阿里云百炼调用Qwen2.5-TurboAPI，百万tokens仅需0.3元。全新...……更多

2024-11-21 09:48:00百炼,阿里,上下文,模型,上下,支持

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...层，相比 Mamba 可将 KV 缓存减少 32 倍。例如，在 256K 令牌上下文环境中，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）。在吞吐量方面，处理长序列时，Conba 层计算效率更高，增加其比例可提高整体吞吐量。基本配置单位是 ...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

非Transformer架构站起来了!首个纯无注意力大模型,

...每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源，模型推理速度就会变慢，超过一定长度的文本就没法处理了。...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

Mamba再次挑战霸主Transformer！首个通用Mam

...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式，需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展，推理速度会变慢，最终无法处理超过某个固定长度的文本。为了解决这...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

OpenCity大模型预测交通路况，零样本下表现出色，来自港

...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文，可以无缝部署在各种场景中。可扩展性：OpenCity展示了有希望的缩放定律，表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，M

【新智元导读】RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅。与Transformer相比，RNN模型的一大优势是应对长序列的能力。比如Mamba，内部状态大小始终保持不变...……更多

2024-11-28 12:03:00长上,清华,下文,团队,状态,作者

天津地铁部署DeepSeek大模型突发故障发生率直降50%

...88.2%的乘客咨询问题精准分类，支持连续多轮交互，确保上下文一致性，相较传统对话机器人提升70%。同时根据上下文分析监测用户情绪波动，并触发人工介入机制，使响应速度提升20%。“在模拟测试环境中，搭载DeepSeek大模型...……更多

2025-02-22 19:22:00天津,突发,模型,故障,地铁,模型

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

...以带来大幅的模型性能提升。同时，GPT-3论文正式提出“上下文学习”，建立了以提示学习方法为基础技术路线的任务求解范式。ChatGPT：一举成为现象级应用，引入RLHF算法改进训练数据GPT系列模型的技术演变（ChatGPT）：在GPT-3...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模

...款面向C端的大模型产品。早前，该公司宣布在大模型长上下文窗口技术上取得新的突破，Kimi已支持200万字超长无损上下文，并开启产品内测，该能力在不到半年内提升9倍。市场的火爆，导致Kimi服务器一度瘫痪，无法回复用户...……更多

2024-03-23 14:00:00卷上,通义,阿里,文心,下文,模型

10分钟速成专家，「Kimi智能助手」正式支持200万上下文

...正式宣布，旗下的Kimi智能助手，已支持200万字超长无损上下文，并于即日起开启产品内测。Kimi智能助手是月之暗面（Moonshot AI）基于自研千亿参数大模型打造的对话式 AI 助手产品，在2023年10月正式发布。而月之暗面也是国内大...……更多

2024-03-21 12:36:00上下文,速成,助手,上下,对话,支持

GPT-4劲敌，谷歌进入高能+高产模式

...内的大模型而言，只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么？虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本，但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...LM 中，显式记忆是继隐式记忆（模型参数）和工作记忆（上下文键值）之后的第三种记忆形式。具体而言，本文引入了一种新的记忆格式，即显式记忆，其特点是写入成本和读取成本相对较低。如图 1 所示，模型首先将知识库...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

Kimi爆火出圈，国产大模型首次超越海外！

2024年3月18日，国产AI大模型Kimi将上下文无损输入长度提升至200万字，成为国内大模型首次在部分能力上超越海外主流产品的里程碑。上下文输入长度的增加能够帮助模型更好学习文本知识，从而更有针对性得与用户互动。在长...……更多

2024-04-02 18:31:00模型,国产,模型,上下文,能力,应用

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-

...asoner是一个创新的多步推理框架，结合了大型语言模型的上下文学习和推理能力，通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估，有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明，TS-...……更多

2024-10-29 09:55:00推理,时间序列,序列,框架,难题,突破

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、

...就是遵循某个特定格式（如 JSON、SQL 等）的数据。但使用上下文无关语法（CFG）来进行约束解码的方法并不高效。针对这个困难，陈天奇团队提出了一种新的解决方案：XGrammar。XGrammar 是一个开源软件库，可实现高效、灵活且可...……更多

2024-11-27 13:37:00结构化,开销,生成,团队,结构,引擎

Yann LeCun说自回归要完,DeepMind论文证明自

...究了自回归解码的一种自然泛化，其中在处理每个连续的上下文之后，输出的 token 都会被添加到序列末端 —— 只要输入能放入上下文窗口中，则该过程就会简化成标准的自回归解码。不过，该团队得到这一结果的过程比较复杂...……更多

2024-10-09 09:50:00论文,图灵机,图灵,系统,模型,符号

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...代码能力和数学能力专项的继续训练模型。全球最长200K上下文窗口Yi-34B模型将发布全球最长、可支持200K超上下文窗口(contextwindow)版本，可以处理约40万汉字超文本输入。上下文窗口是大模型综合运算能力的金指标之一，对于理...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

AI 胡说八道怎么办？牛津大学开发了一种“测谎”方法

...是合理的。（谁说是 Python？我 C++第一个不服！！）2忽略上下文和常识语义熵主要基于统计和概率计算，可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中，语义熵可能无法提供准确的可靠性评估。...……更多

2024-07-01 11:40:00牛津大学,八道,牛津,怎么办,方法,开发

《红楼梦》里有大量东北方言？实测AI大模型“长文阅读”

...，国内通用人工智能“初创明星”月之暗面宣布在大模型上下文窗口技术上取得新突破，旗下的Kimi智能助手可支持200万字超长无损上下文，并开启产品内测，随即引发市场关注和热议，并一度因过于火爆“宕机”。随后，阿里...……更多

2024-03-28 10:06:00红楼梦,长文,实测,方言,红楼,模型

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...即整合时空依赖编码器，以提升大型语言模型在捕捉时空上下文中的时间序列依赖性的能力。具体来说，我们设计的时空编码器由两个核心组件构成：一个是门控扩散卷积层，另一个是多层次关联注入层。上式为初始化时空嵌...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...f-Correction作者团队将自我纠错的过程抽象为对齐任务，从上下文学习（In-context learning）的角度对自我纠错进行了理论分析。值得一提的是，他们并没有使用线性注意力机制下的线性回归任务进行理论分析，而是使用真实世界LLM...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉

...刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。来自中国的视频生成模型，再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！...……更多

2024-11-15 09:52:00模型,果仁,上下文,地表,上下,视觉

更快、更强、更经济！港大开源大模型RAG系统LightRAG

...题。具体方法是，将每个数据集的所有文本内容视为背景上下文，然后利用大型语言模型（LLM）生成问题。首先，我们让LLM为每个数据集创建五个虚拟的RAG用户，每个用户代表不同的信息需求或兴趣领域。接着，针对每个用户，...……更多

2024-10-15 09:57:00更快,模型,经济,系统,检索,数据

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你

...24文中还讨论了将外部数据集成到LLMs中的三种主要形式：上下文、小模型和微调，分析各自的优势、局限性以及适合解决的问题类型。级别1：显式事实查询（explicit fact queries）例：2024年夏季奥运会将在何处举行？Where will the 2024...……更多

2024-11-22 09:54:00银弹,数据,姿势,难度,解决方案,方案

王小川公布最新大模型，号称全球最长上下文，是GPT-4的14

...模型公司“百川智能”宣布，推出Baichuan2-192K大模型，其上下文窗口长度高达192K，能够处理约35万个汉字。百川智能称，Baichuan2-192K是目前全球最长的上下文窗口，也是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗...……更多

2023-10-30 15:02:00王小川,王小,上下文,模型,上下,焦点

阿里开源版Sora上线即屠榜 4070就能跑免费商用

...型扩展并提高训练效率，Wan对编码器采用FSDP模型切分与上下文并行性（CP）相结合的分布式策略；对于DiT模块则采用DP、FSDP、RingAttention、Ulysses混合的并行策略。在推理阶段，为了使用多卡减少生成单个视频的延迟，还需要通过C...……更多

2025-02-26 20:05:00阿里,商用,模型,视频,编码,编码器

林达华谈大模型发展之路：未来会有更高效的模型结构出现

大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

page 1/10000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

三亚崖州区棉花育种基地：AI赋能让育种焕发新活力

南海网3月3日消息（记者利声富）智能设备的引入与应用，加速育种进程。3月3日，三亚崖州区棉花育种基地，一人拿着电脑，一人手持操控器

2025-03-03 20:36:00

卢伟冰：未来几年内小米汽车将进军全球市场

快科技3月3日消息，在西班牙巴塞罗那举办的小米15系列全球发布会上，小米集团合伙人兼总裁卢伟冰宣布了小米“人车家全生态”的最新进展

2025-03-03 20:40:00

恶意造谣“问界M9又又又起火三人无了”被抓：造谣者手持道歉

快科技3月3日消息，因恶意造谣“问界M9又又又起火了，三人无了。”武某某被公安处罚，而他本人也是被网友曝光。有网友发现

2025-03-03 20:40:00

荣耀宣布投入100亿美元发力AI！一图读懂荣耀阿尔法战略

快科技3月3日消息，近日，荣耀新任CEO李健在巴塞罗那世界移动通信大会上发布了荣耀阿尔法战略，正式宣告荣耀将从传统的智能手机制造商向全球AI终端生态公司进行全面转型

2025-03-03 20:40:00

这十个方面要注意！海口市发布“3·15”国际消费者权益日消费

南海网3月3日消息（记者蒙健）为提高消费者自我保护意识和能力，帮助消费者有效规避消费陷阱和消费风险，进一步提升消费体验

2025-03-03 20:50:00

“神探雷迪克”：揭秘《冈仁波齐之谜》的·故事

主持人：首先，恭喜您的《神探雷迪克》系列小说之“冈仁波齐之谜”荣获华夏长鸿颁发的“年度佳作”奖！能和我们分享一下您此刻的心情吗

2025-03-03 20:58:00

G2985次动车为救人破例临停网友点赞

3月3日消息，据媒体报道，近日在G2985次列车上，列车长巡视车厢时发现一名老人状态异常。原来老人刚做完胰腺癌手术，乘动车准备回家休养

2025-03-03 21:10:00

换装磷酸铁锂电池！全新大众ID.3聪明款上市：一口价11.9

快科技3月3日消息，大众ID.3 2025聪明款正式上市，推出3款车型，限时一口价区间为11.9888万至13.6888万元

2025-03-03 21:10:00

29.74亿元！国补+企业让利，青岛市民以旧换新热情高涨

齐鲁晚报•齐鲁壹点尚青龙“小补贴”撬动“大市场”！3月3日，记者从青岛市商务局获悉，截至3月1日，青岛市消费品以旧换新累计交易金额29

2025-03-03 21:38:00

男子上班3天被辞退：7天后公司没了

3月3日消息，据媒体报道，一男子于2024年8月14日入职，8月16日晚上被公司辞退。7天后该男子发现，他上班3天的公司已经注销

2025-03-03 21:40:00

全系标配“千里浩瀚”高阶智驾！2025款吉利银河E8正式上市

快科技3月3日消息，2025款吉利银河E8纯电轿车正式上市。官方指导价为14.98万元起，新款车型在配置上进行了显著调整

2025-03-03 21:40:00

小米外置镜头亮相：手机影像旗舰要变天了

刚发完影像旗舰15 Ultra，小米又开始搞新活儿：雷军在昨晚的直播中晒出了一个全新的手机配件——外置的磁吸镜头。这颗镜头拥有M43的CMOS

2025-03-03 21:40:00

AI浪潮下，银行审计人如何“破浪前行”

随着人工智能（AI）技术的迅猛发展，银行内部审计领域正迎来一场前所未有的变革。AI不仅带来了效率的飞跃，也对审计人员岗位提出了新的挑战

2025-03-03 21:47:00

注意！大模型工具Ollama存安全风险

中新经纬3月3日电 3日，国家网络与信息安全信息通报中心在官方微信公众号发布情况通报称，大模型工具Ollama存在安全风险

2025-03-03 21:59:00

合资油车的天快塌了！奥迪Q5L卖20多万电车在它面前还敢说

一觉醒来，合资油车的天都快塌了。最近，有海报图放出，奥迪Q5L quattro典藏版23.88万元起，活动时间是3月1日到10日

2025-03-03 22:40:00

头条订阅服务