大内,机制,上下文,模型,处理,上下头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

infini-attention：谷歌大内存机制

谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

非Transformer架构站起来了!首个纯无注意力大模型,

...每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源，模型推理速度就会变慢，超过一定长度的文本就没法处理了。...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

Mamba再次挑战霸主Transformer！首个通用Mam

...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式，需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展，推理速度会变慢，最终无法处理超过某个固定长度的文本。为了解决这...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

OpenCity大模型预测交通路况，零样本下表现出色，来自港

...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文，可以无缝部署在各种场景中。可扩展性：OpenCity展示了有希望的缩放定律，表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模

...款面向C端的大模型产品。早前，该公司宣布在大模型长上下文窗口技术上取得新的突破，Kimi已支持200万字超长无损上下文，并开启产品内测，该能力在不到半年内提升9倍。市场的火爆，导致Kimi服务器一度瘫痪，无法回复用户...……更多

2024-03-23 14:00:00卷上,通义,阿里,文心,下文,模型

10分钟速成专家，「Kimi智能助手」正式支持200万上下文

...正式宣布，旗下的Kimi智能助手，已支持200万字超长无损上下文，并于即日起开启产品内测。Kimi智能助手是月之暗面（Moonshot AI）基于自研千亿参数大模型打造的对话式 AI 助手产品，在2023年10月正式发布。而月之暗面也是国内大...……更多

2024-03-21 12:36:00上下文,速成,助手,上下,对话,支持

GPT-4劲敌，谷歌进入高能+高产模式

...内的大模型而言，只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么？虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本，但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...LM 中，显式记忆是继隐式记忆（模型参数）和工作记忆（上下文键值）之后的第三种记忆形式。具体而言，本文引入了一种新的记忆格式，即显式记忆，其特点是写入成本和读取成本相对较低。如图 1 所示，模型首先将知识库...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

Kimi爆火出圈，国产大模型首次超越海外！

2024年3月18日，国产AI大模型Kimi将上下文无损输入长度提升至200万字，成为国内大模型首次在部分能力上超越海外主流产品的里程碑。上下文输入长度的增加能够帮助模型更好学习文本知识，从而更有针对性得与用户互动。在长...……更多

2024-04-02 18:31:00模型,国产,模型,上下文,能力,应用

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...代码能力和数学能力专项的继续训练模型。全球最长200K上下文窗口Yi-34B模型将发布全球最长、可支持200K超上下文窗口(contextwindow)版本，可以处理约40万汉字超文本输入。上下文窗口是大模型综合运算能力的金指标之一，对于理...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

AI 胡说八道怎么办？牛津大学开发了一种“测谎”方法

...是合理的。（谁说是 Python？我 C++第一个不服！！）2忽略上下文和常识语义熵主要基于统计和概率计算，可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中，语义熵可能无法提供准确的可靠性评估。...……更多

2024-07-01 11:40:00牛津大学,八道,牛津,怎么办,方法,开发

《红楼梦》里有大量东北方言？实测AI大模型“长文阅读”

...，国内通用人工智能“初创明星”月之暗面宣布在大模型上下文窗口技术上取得新突破，旗下的Kimi智能助手可支持200万字超长无损上下文，并开启产品内测，随即引发市场关注和热议，并一度因过于火爆“宕机”。随后，阿里...……更多

2024-03-28 10:06:00红楼梦,长文,实测,方言,红楼,模型

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...即整合时空依赖编码器，以提升大型语言模型在捕捉时空上下文中的时间序列依赖性的能力。具体来说，我们设计的时空编码器由两个核心组件构成：一个是门控扩散卷积层，另一个是多层次关联注入层。上式为初始化时空嵌...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

王小川公布最新大模型，号称全球最长上下文，是GPT-4的14

...模型公司“百川智能”宣布，推出Baichuan2-192K大模型，其上下文窗口长度高达192K，能够处理约35万个汉字。百川智能称，Baichuan2-192K是目前全球最长的上下文窗口，也是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗...……更多

2023-10-30 15:02:00王小川,王小,上下文,模型,上下,焦点

林达华谈大模型发展之路：未来会有更高效的模型结构出现

大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

本周AI不得了！OpenAI的Sora“模拟世界”、Gemi

...质量令人着迷。总结：谷歌可能找到了某种新方法，将长上下文的架构理念与他们的 TPU 计算堆栈相结合，并取得了很好的效果。据 Gemini 长语境的负责人之一Pranav Shyam说，这个想法几个月前才刚刚萌芽。如果以小版本（v1.5）而...……更多

2024-02-17 19:48:00上下文,新贵,上下,世界,模型,视频

Bengio团队提出多模态新基准，直指Claude 3.5和

...代表包含了图像（VI）和图像中的文字（TEI）两部分作为上下文信息，模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字（TEI）的作为上下文信息，并不包含图像（VI），模型能还原出的遮住文字的准确率...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instruct可胜任复杂推理任务，Phi-3.5-vision-instruct则兼具文本与视觉能力。性能最强大的Phi-3……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

马斯克 xAI 推出 Grok-1.5 大语言模型

...Grok-1.5 大语言模型。Grok-1.5 具有改进的推理能力和 128k 的上下文长度，其中最显著的改进之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在平台上向早期测试人员和现有的 Grok 用户推出。在官方测试中，Grok-1.5...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...nsformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。前段时间，Mamba 的出现打破了这一局面，它可以...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

Kimi引爆人工智能新风口，龙头连续20CM涨停！哪些公司可

...宣布，公司旗下的kimi智能助手，已支持200万字超长无损上下文，并已开启产品内测。继昨日爆发后，kimi概念股今天（3月21日）继续上涨。其中，龙头股华策影视（300133.SZ）再次涨停，连续收获两个20CM涨停，捷成股份（300182.SZ）...……更多

2024-03-21 16:48:00风口,人工智能,龙头,人工,智能,公司

顺丰科技函证LaaS元能力碰撞数字生态

...应用级和服务级元能力的标准定义。通过界定领域实体与上下文界限、排线模型抽象设计等实践，重新定义函证LaaS的元能力，为加速数字生态构建奠定了坚实基础。LaaS元能力函证领域分析函证处理上下文（排线模型）函证领域...……更多

2024-03-14 15:00:00顺丰,碰撞,生态,能力,数字,科技

openai推出gpt-4turbo：比上代便宜三倍

...者而言“比上代GPT-4便宜三倍”。据悉，GPT-4Turbo支持128k上下文，输入价格比GPT-4便宜了三倍，速率限制翻倍，知识库更新到2023年4月，此外还添加了JSONMode，更新了多个函数调用能力。相对此前GPT-4性能更强、价格更便宜、开发成...……更多

2023-11-07 11:18:00上代,模型,开发,人民币,上下文,价格

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...驱动的LLM文本生成」。RAG于2020年推出，它使用动态提示上下文，通过用户问题检索并注入LLM提示，以引导其使用检索到的内容，而不是预训练的知识。Chat LangChain是由RAG支持的、在Lang Chain文档上流行的Q/A聊天机器人。上下文学...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

ChatGPT已经过时？！尝试这8个替代品，让你惊艳不已！

...iniGoogle的AI助手已经升级。现在支持1.5 Pro，拥有百万标记上下文、数据分析和自然对话。无缝集成在Google应用中，成为你的个人AI助手，助你处理复杂任务。3、Anthropics的Claude sonnet 3.5Anthropics的最新AI模型。在编写代码和图像处理...……更多

2024-09-02 13:42:00替代品,尝试,支持,智能,上下文,模型