• 我的订阅
  • 头条热搜
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...黑盒”,充分发掘决策过程的透明度和可解释性,从而助力大模型在医疗、金融、法律等高风险领域的广泛运用。会上,岩芯数智CEO刘凡平表示:“我们期望Yan架构可作为人工智能领域的基础设施,并以此建立AI领域的开发者生...……更多
stablediffusion3:文字渲染能力大升级
那个和Midjourney打得难舍难分,引发了一波买显卡“炼丹”“炼妹子”风潮的StableDiffusion,又推出船新版本了。就在昨天晚上,StabilityAI在官网来了一波更新,预告了一波 StableDiffusion3 。根据介绍,新版本在多主题提示、图片质...……更多
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解,细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火,也带火了背后的 Di.……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
轻量化模型架构catvton的优势在哪里
...下。 来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
文 | 周鑫雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...科学家林达华。过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验...……更多
采用MoE大模型,清华创业团队医者AI构建健康管理Agent
...者等组成。公司聚焦于亚健康管理领域,基于最前沿的MoE架构大模型,结合软硬件,为用户提供7*24小时的健康管理服务,让每个家庭都有自己的健康管家AI及Healthy Care Agents。医者AI产品界面据世界卫生组织统计70%以上,总计约9.5...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系统的高效光训练提供支撑。图丨图中为课题负责人方璐教...……更多
2024中国AI大模型产业发展报告发布 展望五大产业趋势
...新高地、未来产业的新赛道、经济发展的新引擎,发展潜力大、应用前景广。3月26日,人民网财经研究院、至顶科技联合发布《开启智能新时代:2024年中国AI大模型产业发展报告》(以下简称《报告》),对于AI大模型产业发展...……更多
AIGC落地应用:腾讯云如何助力产业智能化升级?
...业模式不确定性等挑战。在宋教授看来,尽管ToC市场吸引力大,但ToB领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为鉴...……更多
大模型下沉,汽车需要存算一体芯片|超级观点
...内这件事上,我们是领先的。 二、存算一体芯片具有算力大、功耗低优势36氪:存算一体技术,更擅长解决什么样场景和问题?项之初:从技术底层的架构看,它更适合Transformer类的算法,处理大量的矩阵相乘。存算单元可以将...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...AGI元年(2024)。自2017年谷歌提出Transformer机器学习模型架构后,该架构迅速席卷了整个人工智能领域,成为自然语言处理等相关研究的主要方法。2018至2020年是算法创新年,先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...经形态计算的性能潜力远远未被发掘。例如,在神经网络架构方面,目前绝大多数神经形态计算的应用,都围绕脉冲卷积神经网络(Convolutional Neural Network,CNN)展开,当前的神经形态芯片也只能支持脉冲 CNN。 相比之下,传统...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
...现跨设备、跨域、跨品牌算力融合管理 6、支持各类模型架构:多种模型种类的支持,如大语言模型、多模态模型等;多种模型架构支持,如单体模型架构、MoE模型架构 7、平台提供多种模型微调方式:支持RLHF、LORA、P-turning等多...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...abilityAI于今年3月推出的商用Stable Audio 2的变体模型,整体架构保持一致,但在训练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v...……更多
李开复回应旗下AI独角兽陷“套壳”争议:起步受益于开源,会进步
...套壳”争议的官方回应,并在配文中写道:“全球大模型架构一路从GPT2-->Gopher-->Chinchilla-->Llama2->Yi,行业逐渐形成大模型的通用标准(就像做一个手机APP开发者,不会去自创iOS、Android 以外的全新基础架构)。01.AI起步.……更多
自然语言处理:大模型理论与实践
...sformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构:讲解基于Transformer的编码、解码、编解码大语言模型架构,非Transformer架构如FAT、AFT、RWKV模型,以及大模型架构配置的归一化、激活函数、位置编码、注意力与偏置...……更多
彩云科技发布基于DCFormer架构通用大模型云锦天章
...景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。早在2017年,谷歌发布《Attention Is All You Need》论文...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...RISC-V大芯片创企希姆计算就联合国鑫发布了基于开源指令架构RISC-V打造的大模型系列一体机。其中包括2U4卡、4U8卡机,支持部署6B、7B、13B参数规模的大模型,这也是专门针对私有化部署提供的系统级解决方案。 在私有的处理器...……更多
智能驾驶的「 ChatCPT 时刻」,这么近,那么远
...。让他发出感叹的方案,就是如今风靡整个行业的端到端架构。尽管几年前,端到端架构在自动驾驶领域的运用已经出现在英伟达论文中,但正式落地使用还是从特斯拉的这次转变开始。 什么是智能驾驶的端到端架构呢?严格...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Vi...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
更多关于科技的资讯:
琼海信创公共服务平台服务基地揭牌
南海网1月9日消息(记者 苏桂除)1月9日,数字琼海·信创启航:信创公共服务平台服务体系发布及成果展示新闻发布会在琼海举行
2025-01-09 17:55:00
周鸿祎宣布将拍穿越剧 在线招女一号演女皇帝:要求40岁以下气质美女
快科技1月9日消息,今日,360创始人周鸿祎宣布将拍一部穿越剧,内容在60集左右,是部真正的短剧。周鸿祎还想做成国内第一部AI短剧
2025-01-09 18:20:00
特斯拉车主陷入维修困境:官方维修太贵 找第三方修影响车辆质保
快科技1月9日消息,据报道,近期有部分特斯拉车主反映称,官方门店维修费用偏高,且车主们没有多少选择空间。特斯拉车主介绍
2025-01-09 18:20:00
科学家发现超级地球K2-360b:密度相当于铅、1年比地球1天还短
快科技1月9日消息,由日本、欧洲研究人员领导的国际团队,在距离地球约750光年的类太阳恒星K2-360周围发现多行星系统
2025-01-09 18:20:00
产品销售责任纠纷!疯狂小杨哥及三只羊被起诉
快科技1月9日消息,天眼查司法案件信息显示,近日,张庆杨(小杨哥)、合肥三只羊网络科技有限公司、杭州玖到家贸易有限公司新增一则开庭公告
2025-01-09 18:20:00
DXO公布OPPO Find X8系列电池性能:标准版超越Pro版
快科技1月9日消息,DXOMARK公布了OPPO Find X8系列的电池性能得分,X8和X8 Pro分别获得了156分和155分
2025-01-09 18:20:00
降低入门门槛!奇瑞蔚来换电联盟合作车型曝光
快科技1月9日消息,奇瑞星途与蔚来汽车合作的换电车型预计将于今年第三季度上市,这将是蔚来换电联盟的首款车型。此次合作旨在通过车电分离模式提升品牌价值
2025-01-09 18:20:00
美国洛杉矶多地山火蔓延:好莱坞招牌被烧 名人豪宅变平地
快科技1月9日消息,据报道 ,美国加州洛杉矶县多地山火持续蔓延,不仅众多名人豪宅化为乌有,就连象征好莱坞文化的标志性招牌“Hollywood”也在这场浩劫中遭受重创
2025-01-09 18:20:00
2025年手机购新国补:单价不超6000元、最高补贴500元,专家称中端机型市场迎新机遇
文|罗曾手机首次进入“国补”范围,政策细节进一步明晰。1月8日,国家发展改革委、财政部发布《关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知》
2025-01-09 18:40:00
清华学霸女流谈嫁给初中学历YJJ:他很优秀 只是没走学校这条路
近日,拥有“学历天花板”之称的游戏主播@女流接受了三联生活周刊的采访,分享了自己从清华高材生到游戏主播的职业选择历程,以及她对婚姻生活的看法
2025-01-09 18:50:00
联手锐龙9000系列!雷克沙发布NM1090 PRO SSD:搭载全球首颗6nm主控
快科技1月9日消息,在CES 2025展会上,雷克沙推出Lexar Professional NM1090 PRO PCIe Gen5x4 NVMe固态硬盘
2025-01-09 18:50:00
吉利集团注册‘莲花’商标!路特斯正式更名为莲花跑车
快科技1月9日消息,就在今天,吉利集团成功注册莲花商标,路特斯正式改名为莲花跑车。此前,莲花集团CEO冯擎峰宣布,经过五年的不懈努力
2025-01-09 18:50:00
何小鹏:公司招了很多60岁以上员工 制造业需要有足够经验的人
快科技1月9日消息,近日,小鹏汽车何小鹏在谈及“35岁现象”表示,今年小鹏汽车招进来好几个60岁以上员工。他们做培训、管理
2025-01-09 18:50:00
技术先进还便宜 中国插混车增速大幅高于增程式
快科技1月9日消息,根据乘联会数据,2024年12月新能源乘用车批发销量达到151.2万辆,同比增长35.6%,环比增长5
2025-01-09 18:50:00
NVIDIA进军桌面CPU!黄仁勋:我们有多项计划
快科技1月9日消息,在CES 2025展会上,黄仁勋发布了名为Project DIGITS的新一代个人AI超级计算机,搭载了与联发科共同设计的超级芯片“GB10”
2025-01-09 18:50:00