• 我的订阅
  • 头条热搜
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
扩散模型和transformer梦幻联动一举拿下新sota
...生成AI”StableDiffusion,都没有使用Transformer作为图像生成架构。△ 英伟达AI科学家JimFan如今新研究表明,U-Net并非不可用Transformer替代。“U-Net并非不可替代”论文提出的新架构名叫DiffusionTransformers(DiTs)。架构……更多
2022-12-24 18:10:00模型,梦幻
rockaiyan架构大模型通过备案
...,上海岩芯数智人工智能科技有限公司(以下简称RockAI)的Yan架构大模型成功通过《生成式人工智能服务管理暂行办法》备案,这是国内首个非Transformer架构大模型通过备案。Yan模型简介Yan架构大模型是国内首个非Transformer架构、非Atte...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...abilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v...……更多
AI 时代,这家公司想做一个免费数据库
...为全世界所有的开发者提供一个免费的数据库,那数据库架构应该是什么样的?」五年前,PingCAP 的两位联合创始人刘奇和黄东旭的结论是:「这起码要是个云原生的架构,否则没有办法应对不同用户各种各样的弹性、各种各样...……更多
李开复回应旗下AI独角兽陷“套壳”争议:起步受益于开源,会进步
...套壳”争议的官方回应,并在配文中写道:“全球大模型架构一路从GPT2-->Gopher-->Chinchilla-->Llama2->Yi,行业逐渐形成大模型的通用标准(就像做一个手机APP开发者,不会去自创iOS、Android 以外的全新基础架构)。01.AI起步.……更多
自然语言处理:大模型理论与实践
...sformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构:讲解基于Transformer的编码、解码、编解码大语言模型架构,非Transformer架构如FAT、AFT、RWKV模型,以及大模型架构配置的归一化、激活函数、位置编码、注意力与偏置...……更多
彩云科技发布基于DCFormer架构通用大模型云锦天章
...景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。早在2017年,谷歌发布《Attention Is All You Need》论文...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...RISC-V大芯片创企希姆计算就联合国鑫发布了基于开源指令架构RISC-V打造的大模型系列一体机。其中包括2U4卡、4U8卡机,支持部署6B、7B、13B参数规模的大模型,这也是专门针对私有化部署提供的系统级解决方案。 在私有的处理器...……更多
智能驾驶的「 ChatCPT 时刻」,这么近,那么远
...。让他发出感叹的方案,就是如今风靡整个行业的端到端架构。尽管几年前,端到端架构在自动驾驶领域的运用已经出现在英伟达论文中,但正式落地使用还是从特斯拉的这次转变开始。 什么是智能驾驶的端到端架构呢?严格...……更多
字节豆包团队推出稀疏模型架构UltraMem:推理成本可降83%
...tion团队近日宣布了一项重要创新成果——UltraMem稀疏模型架构。这一架构通过将计算和参数解耦,在保证模型效果的同时,有效解决了推理过程中的访存问题,为人工智能领域带来了新的突破。据了解,UltraMem架构巧妙地将计算...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Vi...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。 基于架构的方...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关...……更多
架构优先、先易后难,华为的制造业生成式AI方法论
...投入大的挑战,华为中国政企业务副总裁郭振兴提出了“架构优先、先易后难,化零为整,缓进急战”十六个字原则,加速推进AI与制造行业深度融合的进程。基于统一平台,将AI大模型应用逐步落地在向制造强国的迈进过程中...……更多
刚炮轰完GPT模式 杨立昆推出首个“世界模型”
...为的正确答案——世界模型。杨立昆去年提出了一种新的架构,旨在克服当今最先进的AI系统的关键限制。他的愿景是创造出能够学习世界如何运作的内部模型的机器,这样它们就可以更快地学习,计划如何完成复杂的任务,并...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Sp...……更多
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...究团队提出了轨迹基础模型的构建范式,旨在通过其模型架构设计和数据集支撑的流程,克服现有方法的局限性,实现跨任务、跨区域的泛化能力,并在不同数据质量下保持鲁棒性。具体来说,研究团队首先收集了一个全球范围...……更多
...实现算力的全域覆盖和保障。此前,联想已在2023中国算力大会上宣布,今后100%算力基础设施产品支持AI,50%的基础设施研发投入AI领域,AI技术全面覆盖全域AI应用。为此,联想发布了AI算力战略和联想问天WA7780 G3 AI大模型训练服...……更多
中国算力大会启幕  联想举办异构智算产业生态联盟技术论坛
9月27日,2024中国算力大会在河南郑州拉开帷幕。作为全球领先的算力基础设施和服务提供商,联想集团参会参展并携手异构智算产业联盟承办2024异构智算产业生态联盟技术论坛。论坛发布了新一代AI服务器、AI应用部署解决方...……更多
...的360通过其首创的CoE(Collaboration of Experts,专家协同)技术架构及混合大模型对“慢思考”进行落地实践,该技术架构已落地在360 AI搜索、360 AI浏览器等多款产品中。AI助手通过CoE架构还接入了很多小参数专家模型,在回答简单问...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...型,但后来有朋友告知,这个大厂新模型完全就是LLaMA的架构,但为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。此外,海外也有工程师直接指出了这一点。“我们是小公司也不想得罪大佬...……更多
豆包大模型1.5 Pro正式发布:比GPT-4o更强
...训练,训练成本极低,但性能不打折,采用大规模稀疏MoE架构,等效7倍激活参数的Dense模型性能,远超业内MoE架构约3倍杠杆的常规效率。官方强调,模型训练过程中,未使用任何其他模型生成的数据,扎实不走“捷径”。【本...……更多
...和框架,还需要几千张芯片同时连续运行。基于此,系统架构以及并行训练的集群能力成为大模型研发的关键。星火一体机的训练和推理一体化部署,可用于问答系统、对话生成、知识图谱构建、智能推荐等领域的应用,具备大...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的建筑材料”和“施工方法”。...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
...86B等。MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...igurable Dataflow Unit)为代表的动态可重构数据流(Dataflow)架构的芯片,能够通过并行处理和高效数据移动来优化性能和效率,近年越来越被认为是一个重要的发展方向。数倍于 GPU 推理性能来自 SambaNova 最新一代 RDU SN40L近日的芯...……更多
视频生成群雄逐鹿,哪些重要问题待解?
...学人工智能研究院助理教授晏轶超,新壹科技AI算法主任架构师李璋,井英科技联合创始人、CTO王健,旷视研究院高级研究员李华东5位青年学者和技术专家带来报告,将围绕视频大模型架构比较、三维数字人视频生成、面向数字...……更多
更多关于科技的资讯:
8月22日至24日,2025中国算力大会在山西大同举行。“算力中国·创新成果展示”山西算力产业展示区全方位展示了山西打造全国算力高地的新成就
2025-08-26 06:47:00
今年夏天,“懒人经济”叠加“清凉经济”,高温不仅带火了以空调、冰箱为主的家电产品,更带火了像多筒洗衣机、制冰冰箱、家用制冰机等新家电
2025-08-26 07:41:00
厦门网讯(厦门日报记者 李晓平)在人工智能深度赋能千行百业、重塑生产生活各领域应用场景的当下,今年来,科华数据、国投智能
2025-08-25 08:54:00
英科医疗上榜TopBrand 2025中国品牌500强 位居细分行业首位
近日,《TopBrand 2025中国品牌500强榜单》在2025(第十九届)中国品牌节上正式发布,英科医疗以196.18亿元品牌价值位列第373位
2025-08-25 08:59:00
健康领跑品质卓越 飞利浦空调又获三大奖项
8月22日,以“创异破局 智启新程”为主题的2025-2026中国空调行业高峰论坛在长春举行,本次论坛汇聚行业精英,旨在探讨行业良性健康发展
2025-08-25 09:24:00
8月15日至19日,以“互通互助互利 共商共建共享”为主题的第十五届新疆喀什·中亚南亚商品交易会(以下简称“喀交会”)在喀什国际会展中心盛大举办
2025-08-25 10:33:00
进入7月以来,北京经历了数场分散性降雨,气温较高,湿度较大。气象监测显示,7月北京相对湿度一度冲高至82%。不少北京市民表示
2025-08-25 10:33:00
养老机器人产品形态日益丰富
本报记者 赵 曦 □ 唐 瑞8月20日,工业和信息化部发布通知,征集2025年度中小企业人工智能典型应用场景。通知要求
2025-08-25 10:34:00
上午9点,刚从湘潭某高校通信工程专业毕业的李明打开手机上的“零障碍”平台,一条精准推送的岗位信息映入眼帘——本地一家高新技术企业的见习工程师职位
2025-08-25 10:34:00
莱州市商务局:莱州市举办外贸政策宣讲会
大众网记者 孙建峰 烟台报道为推动莱州本地优势产业与外贸政策深度融合,搭建跨境电商行业交流合作平台,近日,2025莱州外贸政策宣讲会(亚马逊专场)在莱州市电商产业园胜利召开
2025-08-25 10:51:00
“云聚鸢都・赋能潍企”潍企云品牌发布会8月26日启幕
鲁网8月25日讯为深入贯彻国家推动制造业数字化转型、发展新质生产力的战略部署,加速潍坊市中小企业数字化、智能化转型进程
2025-08-25 11:02:00
推动新能源产业高质量发展,是践行绿色低碳发展理念、构建现代化经济体系的重要路径。国家税务总局新泰市税务局紧盯新能源汽车产业发展痛点与需求
2025-08-25 11:08:00
淘宝闪购饿了么官宣外卖行业首套制服,百万骑士将免费换新
外卖行业第一套制服今天由淘宝闪购饿了么正式官宣,网友热议称,新制服既是整个行业升级的重要标志之一,也意味着社会各界对骑士这一职业的全新认同
2025-08-25 11:08:00
从广州塔到南极冰盖:慕思818睡眠文化之旅的战略升维与文化深耕
一场驶向南极的睡眠探索,背后是慕思从传播睡眠文化到践行全球共享的品牌升维。2025年盛夏,当地表温度逼近40℃,慕思完成了一次极具象征意义的跨越
2025-08-25 11:35:00
先理知学REAL PhD:专业团队打磨申博文书,助学子彰显学术实力与潜力
博士申请文书是展现学术潜力的核心材料,直接影响录取和奖学金机会。2025年数据显示,全球申博竞争加剧——申请人数年增15%
2025-08-25 11:36:00