• 我的订阅
  • 头条热搜
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
超算赋能,智启未来 | 北京超算荣获AI大模型算力平台解决方
...作伙伴应邀参展,并荣获AI大模型算力平台解决方案奖。助力大模型训练与推理 “超算架构”为大模型训练提速随着ChatGPT的火爆,引发了国内外的广泛关注,国内涌现了一批大模型应用,对于高端算力资源的需求愈发旺盛,形成了需求...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...黑盒”,充分发掘决策过程的透明度和可解释性,从而助力大模型在医疗、金融、法律等高风险领域的广泛运用。会上,岩芯数智CEO刘凡平表示:“我们期望Yan架构可作为人工智能领域的基础设施,并以此建立AI领域的开发者生...……更多
stablediffusion3:文字渲染能力大升级
那个和Midjourney打得难舍难分,引发了一波买显卡“炼丹”“炼妹子”风潮的StableDiffusion,又推出船新版本了。就在昨天晚上,StabilityAI在官网来了一波更新,预告了一波 StableDiffusion3 。根据介绍,新版本在多主题提示、图片质...……更多
获英伟达“金牌认证” 联想AI服务器中国算力大会再秀硬实力
在2023中国算力大会上,联想重磅发布两款AI服务器新品——联想问天WA7780G3AI大模型训练服务器和联想问天WA5480G3AI训推一体服务器。据介绍,这两款服务器是基于AI导向打造的全新产品,能够助力构建更加绿色高效的人工智能数...……更多
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解,细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火,也带火了背后的 Di.……更多
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...ATEL和DYLANPATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集,并未公开数据源。仅供参考。原文翻译如下:揭秘GPT-4:导致OpenAI架构的工程权衡OpenAI 保...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
gpt-4模型架构泄露:包含1.8万亿参数、采用混合专家模型
...I今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。▲图源 Semianalysis外媒表示,GPT-4在120层中总共包...……更多
轻量化模型架构catvton的优势在哪里
...下。 来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
文 | 周鑫雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验...……更多
全新架构的昇腾AI计算集群发布,支持超万亿参数大模型训练
...设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的昇腾AI计算集群——Atlas900SuperCluster,可支持超万亿参数的大模型训练。据介绍,新集群采用了全新的华为星河AI智算交换机CloudEngineXH16800,借助其高密的800GE端口能...……更多
...产业领域权威信息策源地、产业趋势风向标的2023中国算力大会在宁夏银川开幕。联想集团执行副总裁兼中国区总裁刘军出席大会开幕式和主论坛并发表主题演讲。他表示,我们正处在第四次工业革命——智能革命的浪潮之中,...……更多
采用MoE大模型,清华创业团队医者AI构建健康管理Agent
...者等组成。公司聚焦于亚健康管理领域,基于最前沿的MoE架构大模型,结合软硬件,为用户提供7*24小时的健康管理服务,让每个家庭都有自己的健康管家AI及Healthy Care Agents。医者AI产品界面据世界卫生组织统计70%以上,总计约9.5...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系统的高效光训练提供支撑。图丨图中为课题负责人方璐教...……更多
2024中国AI大模型产业发展报告发布 展望五大产业趋势
...新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。3月26日,人民网财经研究院、至顶科技联合发布《开启智能新时代:2024年中国AI大模型产业发展报告》(以下简称《报告》),对于AI大模型产业发展...……更多
AIGC落地应用:腾讯云如何助力产业智能化升级?
...业模式不确定性等挑战。在宋教授看来,尽管ToC市场吸引力大,但ToB领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望...……更多
大模型还能怎么创新?复旦教授邱锡鹏:需在新的架构、多模态等方面多做研究
...学术论文,被引用1.5万余次。划重点:1.现在大模型整体架构比较雷同,要想做出创新,还需在新的架构、幻觉问题、多模态等方面多做研究。2.我本身就比较喜欢自由的研究氛围。复旦是一个让我觉得舒服宽松的地方,能够去...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为鉴...……更多
大模型下沉,汽车需要存算一体芯片|超级观点
...内这件事上,我们是领先的。 二、存算一体芯片具有算力大、功耗低优势36氪:存算一体技术,更擅长解决什么样场景和问题?项之初:从技术底层的架构看,它更适合Transformer类的算法,处理大量的矩阵相乘。存算单元可以将...……更多
云从科技投资算力芯片企业奕斯伟计算,打通大模型生态闭环
...实力几何?奕斯伟计算是一家以RISC-V为核心的新一代计算架构芯片与方案提供商,自2019年创立以来坚定RISC-V计算架构自主研发,推动RISC-V架构芯片产品的规模化应用。目前,奕斯伟计算已形成软硬一体的全栈平台,拥有嵌入式...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...【新智元导读】近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值,支持3 bit KV cache,效率再突破。量化到1 bit的LLM还能再突破?这次,他们对激活值下手了!近日,BitNet系列的原班人马推出...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...经形态计算的性能潜力远远未被发掘。例如,在神经网络架构方面,目前绝大多数神经形态计算的应用,都围绕脉冲卷积神经网络(Convolutional Neural Network,CNN)展开,当前的神经形态芯片也只能支持脉冲 CNN。 相比之下,传统...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...AGI元年(2024)。自2017年谷歌提出Transformer机器学习模型架构后,该架构迅速席卷了整个人工智能领域,成为自然语言处理等相关研究的主要方法。2018至2020年是算法创新年,先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于...……更多
Meta发布开源大模型Llama 4:首次采用“混合专家”架构
...些格式之间转换内容。Llama 4系列首次采用了混合专家(MoE)架构的模型,这种架构在训练和回答用户查询时的效率更高,可以将模型划分为多个专注于特定任务的“专家”子模型。据Meta介绍,Scout和Maverick不仅是其“迄今为止最先...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
...现跨设备、跨域、跨品牌算力融合管理 6、支持各类模型架构:多种模型种类的支持,如大语言模型、多模态模型等;多种模型架构支持,如单体模型架构、MoE模型架构 7、平台提供多种模型微调方式:支持RLHF、LORA、P-turning等多...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
更多关于科技的资讯:
校企联动,智绘未来:哈尔滨工程大学深圳校友企业联盟探访博大数据前海智算中心
近日,哈尔滨工程大学深圳校友企业联盟代表团探访博大数据深圳前海智算中心,近20家来自同行业以及相关领域的校友企业代表齐聚于此
2025-08-13 13:51:00
(摘要:守护权益,“链”动责任)供应链不仅是一种资源配置关系,更是企业责任延伸的重要载体,员工的权益保障与企业可持续发展紧密相连
2025-08-13 13:52:00
平度:国内外市场齐发力 泡菜产业蓬勃发展
大众网记者 尚超 尹璐瑶 青岛报道近日,在平度经开区青岛农一食品有限公司的生产车间,工人们熟练地操作着各类设备,从蔬菜清洗
2025-08-13 09:27:00
近期,我国在海南商业航天发射场使用长征十二号运载火箭,成功将卫星互联网低轨07组卫星发射升空。7月30日,我国在海南商业航天发射场使用长征八号甲运载火箭
2025-08-13 10:12:00
9月10日至14日,2025年服贸会将在首钢园举办,电信、计算机和信息服务专题展(服贸会ICT展)作为科技领域“排头兵”
2025-08-13 10:42:00
中国网8月13日讯据国家安全部,“旧手机、旧电脑换菜刀、换不锈钢盆喽!”这与时俱进又略带夸张的吆喝,您是否也曾听过?一些闲置的“电子家当”留着无用
2025-08-13 10:02:00
下一款全民级AI应用,可能是个老熟人
这是技术革命时刻,也是超车巨头的机遇。2025年年中,两个看似无关的消息,形成了有趣的对照。首先是8月8日,OpenAI夏季发布会举行
2025-08-13 07:01:00
何以中国·和合共生 撰稿:杨春文拍摄:刘岩、阎金勇制作:李辉监制:李华楠协助单位:天津杨柳青画社
2025-08-13 08:06:00
我市两项目入选省级首批实践案例点数成“金”,公共数据“跑”起来南报网讯(通讯员玄数轩建数萱记者邓露洁卫凌云)近日,省数据局在全国率先组织开展江苏省公共数据“跑起来”场景县(市
2025-08-13 07:45:00
东北雨姐账号将于10月解封,解封后可继续直播带货,名下关联5家公司3家已注销
近日,曾因虚假宣传被处罚的网红“东北雨姐”在社交平台更新动态,引发公众对其复出的猜测。8月11日,本溪满族自治县互联网信息办公室工作人员回应称
2025-08-12 12:08:00
当全球经济寒风凛冽,消费者的钱包愈发收紧,一个来自中国的新名字,却在海外电商版图上掀起了一场低价风暴——TEMU。它像一把利刃
2025-08-12 13:00:00
倍益康理疗机器人亮相2025世界机器人大会,探索理疗机器人新发展
8月8日,2025世界机器人大会在北京经济技术开发区北人亦创国际会展中心隆重举行。大会以“让机器人更智慧,让具身体更智能”为主题
2025-08-12 13:06:00
红松APP正式上线行业首个适老化艺术能力认证服务
近日,红松APP官宣正式启动银发艺术培训认证服务,上线行业首个面向银发人群的“艺术能力水平认证系统”。该服务由中国艺术职业教育学会培训中心(下称“培训中心”)联合红松集团共同打造
2025-08-12 13:08:00
开业未满五年 永辉超市池州远东国际店即将停业
大皖新闻讯 近日,永辉超市池州远东国际店发布停业公告,宣布该门店9月2日起正式停止营业,8月22日至9月1日期间将开展商品出清活动
2025-08-12 13:10:00
华为阅读独家首发《金字塔在中国:古埃及文明大展炼成记》精品书
8月11日,在上海博物馆“金字塔之巅:古埃及文明大展”上,《金字塔在中国:古埃及文明大展炼成记》新书(以下简称《金字塔在中国》)正式首发
2025-08-12 13:11:00