• 我的订阅
  • 头条热搜
infini-attention:谷歌大内存机制
谷歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能力提供新的方向,实...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。即日起,所有用户可在阿里云百炼调用Qwen2.5-TurboAPI,百万tokens仅需0.3元。全新...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。基本配置单位是 ...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展,推理速度会变慢,最终无法处理超过某个固定长度的文本。为了解决这...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文,可以无缝部署在各种场景中。 可扩展性:OpenCity展示了有希望的缩放定律,表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
...88.2%的乘客咨询问题精准分类,支持连续多轮交互,确保上下文一致性,相较传统对话机器人提升70%。同时根据上下文分析监测用户情绪波动,并触发人工介入机制,使响应速度提升20%。“在模拟测试环境中,搭载DeepSeek大模型...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...以带来大幅的模型性能提升。同时,GPT-3论文正式提出“上下文学习”,建立了以提示学习方法为基础技术路线的任务求解范式。ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据GPT系列模型的技术演变(ChatGPT):在GPT-3...……更多
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆,导致Kimi服务器一度瘫痪,无法回复用户...……更多
10分钟速成专家,「Kimi智能助手」正式支持200万上下文,对话窗口提升10倍 | 最前线
...正式宣布,旗下的Kimi智能助手,已支持200万字超长无损上下文,并于即日起开启产品内测。Kimi智能助手是月之暗面(Moonshot AI)基于自研千亿参数大模型打造的对话式 AI 助手产品,在2023年10月正式发布。而月之暗面也是国内大...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...内的大模型而言,只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么?虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本,但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...LM 中,显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。 具体而言,本文引入了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较低。如图 1 所示,模型首先将知识库...……更多
Kimi爆火出圈,国产大模型首次超越海外!
2024年3月18日,国产AI大模型Kimi将上下文无损输入长度提升至200万字,成为国内大模型首次在部分能力上超越海外主流产品的里程碑。上下文输入长度的增加能够帮助模型更好学习文本知识,从而更有针对性得与用户互动。在长...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...asoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-...……更多
陈天奇团队LLM结构化生成新引擎XGrammar:百倍加速、近零开销
...就是遵循某个特定格式(如 JSON、SQL 等)的数据。但使用上下文无关语法(CFG)来进行约束解码的方法并不高效。针对这个困难,陈天奇团队提出了一种新的解决方案:XGrammar。XGrammar 是一个开源软件库,可实现高效、灵活且可...……更多
Yann LeCun说自回归要完,DeepMind论文证明自回归能实现通用计算
...究了自回归解码的一种自然泛化,其中在处理每个连续的上下文之后,输出的 token 都会被添加到序列末端 —— 只要输入能放入上下文窗口中,则该过程就会简化成标准的自回归解码。不过,该团队得到这一结果的过程比较复杂...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...代码能力和数学能力专项的继续训练模型。全球最长200K上下文窗口Yi-34B模型将发布全球最长、可支持200K超上下文窗口(contextwindow)版本,可以处理约40万汉字超文本输入。上下文窗口是大模型综合运算能力的金指标之一,对于理...……更多
AI 胡说八道怎么办?牛津大学开发了一种“测谎”方法
...是合理的。(谁说是 Python?我 C++第一个不服!!)2忽略上下文和常识语义熵主要基于统计和概率计算,可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中,语义熵可能无法提供准确的可靠性评估。...……更多
《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”
...,国内通用人工智能“初创明星”月之暗面宣布在大模型上下文窗口技术上取得新突破,旗下的Kimi智能助手可支持200万字超长无损上下文,并开启产品内测,随即引发市场关注和热议,并一度因过于火爆“宕机”。随后,阿里...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...即整合时空依赖编码器,以提升大型语言模型在捕捉时空上下文中的时间序列依赖性的能力。具体来说,我们设计的时空编码器由两个核心组件构成:一个是门控扩散卷积层,另一个是多层次关联注入层。上式 为初始化时空嵌...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...f-Correction作者团队将自我纠错的过程抽象为对齐任务,从上下文学习(In-context learning)的角度对自我纠错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM...……更多
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
...刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5,成为世界首个支持多主体一致性的多模态模型!...……更多
更快、更强、更经济!港大开源大模型RAG系统LightRAG
...题。具体方法是,将每个数据集的所有文本内容视为背景上下文,然后利用大型语言模型(LLM)生成问题。首先,我们让LLM为每个数据集创建五个虚拟的RAG用户,每个用户代表不同的信息需求或兴趣领域。接着,针对每个用户,...……更多
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
...24文中还讨论了将外部数据集成到LLMs中的三种主要形式:上下文、小模型和微调,分析各自的优势、局限性以及适合解决的问题类型。级别1:显式事实查询(explicit fact queries)例:2024年夏季奥运会将在何处举行?Where will the 2024...……更多
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
...模型公司“百川智能”宣布,推出Baichuan2-192K大模型,其上下文窗口长度高达192K,能够处理约35万个汉字。百川智能称,Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗...……更多
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...型扩展并提高训练效率,Wan对编码器采用FSDP模型切分与上下文并行性(CP)相结合的分布式策略;对于DiT模块则采用DP、FSDP、RingAttention、Ulysses混合的并行策略。在推理阶段,为了使用多卡减少生成单个视频的延迟,还需要通过C...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起...……更多
更多关于科技的资讯:
小狗散步配备“坐骑”机器狗惊呆路人 网友神回复抢镜了
快科技3月3日消息,近日,四川成都,一则小狗坐机器狗散步的视频引发了网友热议。据视频画面显示,一只白色的小狗稳坐机器狗背部
2025-03-03 17:40:00
贵州发现两栖动物新物种“魏氏纤树蛙”:生活在海拔1600米竹林中
快科技3月3日消息,据报道,近日贵州雷公山国家级自然保护区发现了一种两栖动物新物种——魏氏纤树蛙(Gracixalus weii)
2025-03-03 17:40:00
真我首款可更换镜头概念机公布:10倍无损光学变焦
快科技3月3日消息,真我预热了几天的“影像黑科技”产品终于公布——真我首款可更换镜头概念机。从官方公布的海报来看,真我这款新机采用了大圆形后摄
2025-03-03 17:40:00
抗衰老、延长寿命的追求:NMN全球市场能否面临挑战?
中信证券发布的NMN深度行业研报揭示了中国保健品市场的迅猛发展,过去10年的复合增速高达9.5%。据测算,当前国内每1%保健品人口对应的NMN(β-烟酰胺单核苷酸)市场空间为304亿元
2025-03-03 17:57:00
苹果AI进度严重落后!新版AI Siri要等到iOS 20了
快科技3月3日消息,根据Mark Gurman最新透露,苹果在AI技术开发上遭遇了多项重大挑战,导致许多原计划推出的功能被迫延后
2025-03-03 18:10:00
男子用思域发动机、不锈钢管手搓飞机:仅用10天就成功升空
快科技3月3日消息,日前,有博主发视频称,自己改装本田思域1.5T发动机,使用不锈钢管、手钳、角磨机等用料,花费10天手搓了一台飞机
2025-03-03 18:10:00
官方喊你来当深圳人了:本科、硕士、博士通通有补贴 最高10万
3月3日消息,据国内媒体报道称,深圳就业应届毕业生最高补贴10万。深圳方面表示“百万英才汇南粤”行动计划是省委为广东省实现高质量发展而作出的重大部署
2025-03-03 18:10:00
男子开特斯拉狂飙226km/h还拍视频炫耀遭举报:驾照没了
快科技3月3日消息,近日有男子称,自己因为在群聊中炫耀自己超速行为,被人举报,被处扣驾驶证12分、罚款2000元、驾照吊销2年的处罚
2025-03-03 18:10:00
乌鸦反哺、斑羚飞渡 这些让你感动到哭的故事:都是假的!
在童年的儿歌和故事书中,动物常常被赋予人类的情感和道德:乌鸦反哺彰显孝道,老鹰断喙重生诠释坚韧,斑羚飞渡悬崖谱写牺牲……这些故事承载着文化的期许
2025-03-03 18:10:00
华为打造智能基站:地铁出站秒级降低功率 能耗大降37%
快科技3月3日消息,近日,华为无线网络传来重磅消息,安徽移动携手集团研究院、集团设计院以及华为,于合肥共同打造了规模达千站的无线高阶自智网络示范区
2025-03-03 18:40:00
小米SU7 Ultra民间圈速公布!仅比500万的法拉利SF90慢0.04秒
快科技3月3日消息,今天下午,懂车帝全程直播,联合中国知名车手马青骅在天津V1国际赛车场测试了小米SU7 Ultra的赛道性能
2025-03-03 18:40:00
周鸿祎:DeepSeek会让学渣和学霸的差距越拉越大 且不可逆转
快科技3月3日消息,360集团创始人、董事长周鸿祎今日发视频,谈到了DeepSeek对于普通人的影响。他表示,AI对普通人的影响正在被低估
2025-03-03 18:40:00
周鸿祎再谈DeepSeek:精英人群获得的帮助更大 普通员工反而会退步
快科技3月3日消息,近日,360集团创始人兼董事长周鸿祎在其个人社交账号发布视频,再次谈及了DeepSeek,并介绍了AI普及对大众工作生活的改变和影响
2025-03-03 18:40:00
冯小刚电影《向阳·花》定档4月4日:赵丽颖领衔主演
快科技3月3日消息,冯小刚电影官微发文称,由冯小刚导演、赵丽颖领衔主演的电影《向阳·花》官宣定档4月4日全国上映。官微写道
2025-03-03 18:40:00
日本团队做出世界上最小的射击游戏!纳米粒子立大功
据媒体phys报道,日本名古屋大学工程研究所Takayuki Hoshino教授领导的研究团队,通过实时操控纳米级粒子
2025-03-03 18:40:00