• 我的订阅
  • 头条热搜
有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍
...少了4到20倍,具体加速效果取决于序列长度。例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
... Nova! Nova语言模型有四款:(1)Micro:纯文本模型,128k上下文窗口,延迟最低,响应速度最快。(2)Lite:成本很低的多模态模型,300k上下文窗口,可快速处理图像、视频和文本输入。(3)Pro:多模态模型,300k上下文窗口,...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。即日起,所有用户可在阿里云百炼调用Qwen2.5-TurboAPI,百万tokens仅需0.3元。全新...……更多
...致训练成本飙升。“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”程明明说。如何降低训练成本、提高训练效率?研究团队在扩散训练过程中引入...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。基本配置单位是 ...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展,推理速度会变慢,最终无法处理超过某个固定长度的文本。为了解决这...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...LM 中,显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。 具体而言,本文引入了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较低。如图 1 所示,模型首先将知识库...……更多
真香!智谱大模型,有了首个免费的API
...应用的底层逻辑。新一代大语言模型继续保持多模态、长上下文等方面的性能优势,又因为速度和效率的大幅提升获得了更多开发者的青睐。在实际应用场景中,新模型适用于处理高频次、相对简单的任务,禁得起人们的反复调...……更多
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...(ACL)上。他们通过一系列实验验证了 AI 大模型在不同上下文条件下的表现,结果发现:在零样本(zero-shot)的情况下,许多大模型根本无法展现所谓的“涌现能力”,反而表现得相当一般。他们表示,这一发现有助于理解 LLM ...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。...……更多
RNN回归!Bengio新作大道至简与Transformer一较高下
...直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表现惊艳。直到后来遭遇了反向训练的瓶颈,因Scaling Law而跌落神坛。然而,人们并没有忘记RNN。RWKV、Mamba、xLSTM等RNN衍生模型接连出...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年,人工智能领域风起...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...M替换T5作为文本编码器,并设计了复杂的人类指令,通过上下文学习来增强图像-文本对齐。 高效的训练和采样:提出Flow-DPM-Solver来减少采样步骤,并通过高效的标题标注和选择来加速收敛。基于以上的算法创新,相较于领先扩...……更多
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
...刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出的Vidu 1.5,成为世界首个支持多主体一致性的多模态模型!...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...,Meta还推出了1B和3B两个轻量级纯文本的版本,可支持128K上下文。别看参数少,1B/3B在总结摘要、指令遵循、重写等任务上,表现非常出色,而且专为Arm处理器做了优化。LeCun激动地表示,「可爱的大羊驼宝宝来了」!Meta首席技...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...任务中展现了广泛的适用性。模型只需快速微调就能适应上下文,可以无缝部署在各种场景中。 可扩展性:OpenCity展示了有希望的缩放定律,表明该模型有潜力在最小的额外训练或微调需求下有效地扩展和适应新的、以前未见过...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务,Phi-3.5-vision-instruct则兼具文本与视觉能力。性能最强大的Phi-3……更多
人工智能的第三支柱:数据存储
...例和更先进的模型令现有数据资源库和额外数据源对模型上下文和训练的价值更甚。数据的不断生成促成了更多的数据存储,而更多的数据存储又进一步推动数据生成,一个良性循环的人工智能数据周期就此诞生。西部数据在今...……更多
2023 re:Invent——从云计算到AI未来的一场全面重塑之旅
...其支持Anthropic Claude 2.1和Meta LLama 2 70B,可在高达200K标记上下文窗口中将开放式对话的错误陈述减少50%。同时强大而全面的功能为模型定制提供了全方位的训练和调试等功能,其不仅可以对已有的Amazon Titan Text Lite与Express模型进……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...以带来大幅的模型性能提升。同时,GPT-3论文正式提出“上下文学习”,建立了以提示学习方法为基础技术路线的任务求解范式。ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据GPT系列模型的技术演变(ChatGPT):在GPT-3...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...int4,并将键值缓存量化为int8,可令LLaMA3.18B在完整的128K上下文长度下仅占用18.9GB的显存。 ……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...开放日上,智谱AI发布新一代基座大模型GLM-4,支持128K的上下文窗口长度,单次提示词能处理的文本可达300页,文生图和多模态理解得到增强,支持处理Excel、PDF、PPT等格式的文件,可自动调用代码解释器进行复杂的方程或微积...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...发者提供了前段时间在I/O大会上官宣的Gemini 1.5 Pro的200万上下文窗口访问权限、Gemini API的代码执行功能,并在Google AI Studio中添加了Gemma 2。在最新的博客中,谷歌宣布向所有开发者开放了Gemini 1.5 Pro的200万token上下文窗口访……更多
引入GPT技术及大扭力电机 这家智能锁公司再次引领行业
...运用GPT的技术进行学习,从而构建一个个精准的指纹特征上下文模型,将指纹特征转化为了有联系的上下文进行生成式训练学习。再次,德施曼利用GPT的掩码遮挡生成式训练,能通过算法随机“遮挡”部分指纹特征进行训练,使...……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...专家架构,超10TB tokens训练,覆盖大量合成数据,推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中,用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4回答趣...……更多
腾讯钟学丹:人工智能成为汽车行业新质生产力 推动数智化升级
...的触达,可以让用户在驾车的过程中,通过简单的语音和上下文的一些辅助,帮助他更好的完成交互。在一些智能的操控领域以外,我们也希望更多的结合传感器和座舱能力,更主动的帮助用户去完成一些面对环境变化时的操作...……更多
rtxai助手的进化
...Assist项目可接收玩家的语音或文字输入内容,游戏窗口的上下文信息,并通过AI视觉模型处理数据。这些模型增强了与游戏知识数据库相连的大语言模型(LLM)的上下文感知和对特定游戏及应用的理解,然后生成定制的回复,以文...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...k。如今,马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。具体来说,首先,Grok-1.5 最明显的改进之一是其在代码和...……更多
国产大模型加速落地,争夺“中国版ChatGPT”心智定位
...答、对话、写作、翻译等功能,后者则可以完成处理200K上下文、多文档阅读理解,以及超长知识库构建等任务。 今年3月6日,零一万物官微宣布开源Yi-9B模型。据介绍,Yi-9B是目前Yi系列模型中代码和数学能力最强的模型,实际...……更多
更多关于科技的资讯:
REDMI Turbo 4外观公布:“祥云白”配色首次亮相 精致利落
快科技12月30日消息,REDMI Turbo 4已经官宣1月2日发布,官方刚刚还公布了新机外观,首次采用的“祥云白”正式亮相
2024-12-30 10:40:00
1499元!华为FreeBuds Pro 4蛇年典藏版预售:金蛇绕币设计+专属弹窗
快科技12月30日消息,华为官方今天官宣FreeBuds Pro 4蛇年典藏版,10:08正式开启预售,将于1月1日10:08正式开售
2024-12-30 10:40:00
原价301元:温碧泉烟酰胺洁面乳2支29.9元大促
天猫温碧泉旗舰店,温碧泉烟酰胺洁面乳100g*2 支原价301元,立减40元,领取231元券,到手29.9元2支。添加烟酰胺
2024-12-30 10:40:00
德国病假侦探生意兴隆:病假率持续上升 老板被迫请病假侦探
快科技12月30日消息,据报道,持续上升的病假率让越来越多德国企业开始雇用私家侦探,以查清请病假的员工是不是真的病了。私家侦探马库斯向媒体透露
2024-12-30 10:40:00
韩国空难举世皆惊:近6年波音飞机事故已造成525人死亡
快科技12月30日消息,当地时间12月29日9时7分左右,一架正在着陆的飞机在韩国全罗南道的务安国际机场偏离跑道,撞上了围栏外墙
2024-12-30 10:40:00
九测科技丨酒精测试仪赋能智慧矿山,开启安全高效智能新纪元
目前,智慧矿山的建设正以前所未有的速度推动着煤炭行业的转型升级。然而,我们在追求高效与智能的同时,坚决不能忽视的是矿工的生命安全
2024-12-30 10:41:00
秦皇岛市北戴河区举办冬游旅拍手机摄影培训
河北新闻网讯(王璐璇)为丰富北戴河冬季旅游业态,提升冬季旅游品牌影响力,12月24日,秦皇岛市北戴河区旅游文广局联合团区委在欢乐湾举办冬游旅拍手机摄影培训
2024-12-30 11:10:00
真我Neo7不良人限定版真机首晒:流光烫银工艺打造大帅剪影
快科技12月30日消息,今天,徐起晒出了真我Neo7不良人限定版的真机外观,首次展示了这台国漫典藏级定制机型。官方将这次的配色命名为“剑魂银”
2024-12-30 11:10:00
Intel酷睿Ultra 200H笔记本中国、韩国首发:独享一个月
快科技12月30日消息,即将到来的CES 2025大会上,Intel将会发布下一代高端笔记本平台酷睿Ultra 200HX(Arrow Lake-HX)
2024-12-30 11:10:00
让加电比加油更方便!蔚来换电网络覆盖全国超800个县区
快科技12月30日消息,蔚来汽车宣布,蔚来能源正加速推进充换电网络建设。2024年8月20日Power UP蔚来加电日发布加电县县通计划以来
2024-12-30 11:10:00
奔腾2 CPU+128MB内存成功运行Llama大模型:速度还挺快
快科技12月30日消息,据媒体报道,EXO Labs最近发布了一段视频,展示了在一台26年历史的Windows 98奔腾2 PC上运行大模型(LLM)
2024-12-30 11:10:00
刘德华已解冻95% 《恭喜发财》为什么能成为过年神曲
每次一听到《恭喜发财》的前奏,就有种感觉好像快要过年了。今年也是如此,12 月底了,网友又开始集体调侃“刘德华已解冻 95%”
2024-12-30 11:10:00
逐浪东海,扬帆启航!图特五金 百城巡展-烟台站圆满举办
“脚踏东海浪,怀揣渤海湾。”近日,“图特五金 百城巡展——渠道赋能暨新品发布会”荣耀登陆中国历史上的明珠——烟台。天蓝
2024-12-30 11:19:00
海润介绍:铝合金浮桥有什么优点?
铝合金桥浮具有很强的长期耐久性,那么铝合金浮桥有哪些优点呢?接下来,海润游艇码头小编就针对这个问题来为大家详细介绍下。铝合金浮桥具有以下优点
2024-12-30 11:23:00
中国人寿肥城支公司开展“守护视界,共创美好未来”鹰瞳检测活动
鲁网12月30日讯鹰瞳检测,称为人工智能黑科技,应用人工智能(AI)技术,筛查和评估多种视网膜疾病和常见慢病隐患的高科技
2024-12-30 11:23:00