• 我的订阅
  • 头条热搜
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...黑盒”,充分发掘决策过程的透明度和可解释性,从而助力大模型在医疗、金融、法律等高风险领域的广泛运用。会上,岩芯数智CEO刘凡平表示:“我们期望Yan架构可作为人工智能领域的基础设施,并以此建立AI领域的开发者生...……更多
stablediffusion3:文字渲染能力大升级
那个和Midjourney打得难舍难分,引发了一波买显卡“炼丹”“炼妹子”风潮的StableDiffusion,又推出船新版本了。就在昨天晚上,StabilityAI在官网来了一波更新,预告了一波 StableDiffusion3 。根据介绍,新版本在多主题提示、图片质...……更多
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解,细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火,也带火了背后的 Di.……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
轻量化模型架构catvton的优势在哪里
...下。 来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
文 | 周鑫雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验...……更多
采用MoE大模型,清华创业团队医者AI构建健康管理Agent
...者等组成。公司聚焦于亚健康管理领域,基于最前沿的MoE架构大模型,结合软硬件,为用户提供7*24小时的健康管理服务,让每个家庭都有自己的健康管家AI及Healthy Care Agents。医者AI产品界面据世界卫生组织统计70%以上,总计约9.5...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系统的高效光训练提供支撑。图丨图中为课题负责人方璐教...……更多
2024中国AI大模型产业发展报告发布 展望五大产业趋势
...新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。3月26日,人民网财经研究院、至顶科技联合发布《开启智能新时代:2024年中国AI大模型产业发展报告》(以下简称《报告》),对于AI大模型产业发展...……更多
AIGC落地应用:腾讯云如何助力产业智能化升级?
...业模式不确定性等挑战。在宋教授看来,尽管ToC市场吸引力大,但ToB领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为鉴...……更多
大模型下沉,汽车需要存算一体芯片|超级观点
...内这件事上,我们是领先的。 二、存算一体芯片具有算力大、功耗低优势36氪:存算一体技术,更擅长解决什么样场景和问题?项之初:从技术底层的架构看,它更适合Transformer类的算法,处理大量的矩阵相乘。存算单元可以将...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...经形态计算的性能潜力远远未被发掘。例如,在神经网络架构方面,目前绝大多数神经形态计算的应用,都围绕脉冲卷积神经网络(Convolutional Neural Network,CNN)展开,当前的神经形态芯片也只能支持脉冲 CNN。 相比之下,传统...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...AGI元年(2024)。自2017年谷歌提出Transformer机器学习模型架构后,该架构迅速席卷了整个人工智能领域,成为自然语言处理等相关研究的主要方法。2018至2020年是算法创新年,先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
...现跨设备、跨域、跨品牌算力融合管理 6、支持各类模型架构:多种模型种类的支持,如大语言模型、多模态模型等;多种模型架构支持,如单体模型架构、MoE模型架构 7、平台提供多种模型微调方式:支持RLHF、LORA、P-turning等多...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...abilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v...……更多
李开复回应旗下AI独角兽陷“套壳”争议:起步受益于开源,会进步
...套壳”争议的官方回应,并在配文中写道:“全球大模型架构一路从GPT2-->Gopher-->Chinchilla-->Llama2->Yi,行业逐渐形成大模型的通用标准(就像做一个手机APP开发者,不会去自创iOS、Android 以外的全新基础架构)。01.AI起步.……更多
自然语言处理:大模型理论与实践
...sformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构:讲解基于Transformer的编码、解码、编解码大语言模型架构,非Transformer架构如FAT、AFT、RWKV模型,以及大模型架构配置的归一化、激活函数、位置编码、注意力与偏置...……更多
彩云科技发布基于DCFormer架构通用大模型云锦天章
...景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。早在2017年,谷歌发布《Attention Is All You Need》论文...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...RISC-V大芯片创企希姆计算就联合国鑫发布了基于开源指令架构RISC-V打造的大模型系列一体机。其中包括2U4卡、4U8卡机,支持部署6B、7B、13B参数规模的大模型,这也是专门针对私有化部署提供的系统级解决方案。 在私有的处理器...……更多
智能驾驶的「 ChatCPT 时刻」,这么近,那么远
...。让他发出感叹的方案,就是如今风靡整个行业的端到端架构。尽管几年前,端到端架构在自动驾驶领域的运用已经出现在英伟达论文中,但正式落地使用还是从特斯拉的这次转变开始。 什么是智能驾驶的端到端架构呢?严格...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Vi...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
更多关于科技的资讯:
从榨菜月饼到榨菜咖啡,乌江榨菜以创新打破品类边界
近年来,伴随区域化、特色化产品的迅速增长,各大品牌在深耕主业的同时也开始积极探索新赛道、新领域。乌江榨菜作为涪陵榨菜集团旗下的核心品牌
2025-09-29 08:03:00
华北首家!多美卡品牌专卖店登陆北京玩具反斗城
[北京] – 继中国首家多美卡品牌专卖店入驻玩具反斗城上海南丰城店并成功引爆小车收藏热潮后,玩具反斗城(Toys“R”Us)与多美(TAKARA TOMY)的战略合作再结硕果
2025-09-29 07:33:00
南报网讯(记者张甜甜)10月2日至3日,由南京报业传媒集团旗下南报优选供应链公司主办的首届紫金山国潮漫文化嘉年华,将在南京国际展览中心举办
2025-09-29 07:42:00
9月26日,购在中国(山西站)暨中石化易捷第八届易享节在我市启动,诸多三晋名特优产品将陆续入驻中石化易捷,走向全国。今后
2025-09-28 08:20:00
刚刚闭幕的长春航空展上,“净月号”成瞩目焦点
9月23日,长春航空展圆满闭幕,“净月号”凭借其震撼的实体造型与深厚的文化内涵,成为展会瞩目的焦点。这艘承载中式太空梦想的“星舰”
2025-09-28 10:07:00
为更好的服务广大客户,富德生命人寿安平支公司积极组织员工开展《产品健康增值服务》培训。培训中,讲师细致讲解公司产品健康增值服务
2025-09-28 10:12:00
河北新闻网讯(王丽英)9月24日至25日,宁晋县晶龙集团举行人力资源专业培训,内训师靳桂峰、王素峰和张晓宁分别围绕工伤保险及识人辨人
2025-09-28 10:18:00
美团Keeta上线阿联酋!40天连开3国,国际化全速推进
当地时间9月27日上午11点,美团旗下国际外卖品牌Keeta正式在阿联酋迪拜启动运营,这是Keeta继8月上线卡塔尔、9月上线科威特后
2025-09-28 10:22:00
小米17系列9月27日开售,卢伟冰称ProMax需求远超预期,已安排快速提拉生产
9月27日上午10点,小米17系列开售,价格4499元起!并全系首发第五代骁龙 8 至尊版。据悉,小米17尺寸6.3,7000mAh 电池
2025-09-28 10:22:00
齐鲁晚报·齐鲁壹点 王会广 通讯员 李杰在数字经济蓬勃发展的当下,大数据、云计算、物联网、移动互联网、人工智能以及区块链等新兴技术的广泛应用
2025-09-28 10:56:00
实时互动x高效制播:佳能携手《密室大逃脱大神版 互动直播》真人秀实现制作新范式
在直播与正片并行制作逐渐成为综艺内容生产新常态的当下,真人秀现场对影像系统的要求不断提升:既要满足直播的即时输出,又要兼顾正片制作的高质量成片
2025-09-28 11:51:00
齐鲁晚报·齐鲁壹点菏泽光影在线摄影摄像实战培训班11月初开启
从“拍摄小白”到“拍摄大神”,你只差这一套实战课!齐鲁晚报(光影在线实战培训)告别“自动挡”,用镜头讲故事。这是一个视觉统治注意力的时代
2025-09-28 12:03:00
烟台银行威海荣成支行“金融+”开辟服务新路径
近日,烟台银行荣成支行通过创新推出的“智慧物业”合作解决方案,成功为当地多家物业公司纾困解难,有效破解了长期困扰行业发展的收费难
2025-09-28 12:05:00
莫林酒店洛阳首店落子!完善文旅服务补中高端住宿
作为中国第一古刹,洛阳白马寺的文旅热度在 2025 年暑期再攀新高 —— 日均接待游客超 8000 人次,35 元亲民票价搭配免费斋饭政策
2025-09-28 12:22:00
国庆车票开抢第三天,在全网“开票即候补”的声音中,假期出行的火热程度可见一斑。而且今年又是一次中秋假期叠加国庆假期,连续八天假
2025-09-28 12:22:00