• 我的订阅
  • 头条热搜
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
文 | 苏建勋Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,凭借强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。如今,一家创业...……更多
独家对话岩芯数智CEO刘凡平:“百模大战”下,AIGC新玩家如何杀出重围?|钛媒体焦点
...等互联网科技巨头不断涌入,纷纷对标GPT-4升级 AI 通用大模型。而在To B企业端领域,中小大模型领域当前面临头部企业加速融资、市场“内卷”竞争等复杂局面。如今,一家成立仅四个多月的生成式 AI(AIGC,人工智能创造内容...……更多
rockaiyan架构大模型通过备案
...芯数智人工智能科技有限公司(以下简称RockAI)的Yan架构大模型成功通过《生成式人工智能服务管理暂行办法》备案,这是国内首个非Transformer架构大模型通过备案。Yan模型简介Yan架构大模型是国内首个非Transformer架构、非Attention机...……更多
大模型如何赋能千行百业?听听企业怎么说
作为人工智能领域的技术新高地,大模型正以前所未有的速度赋能各行各业。通过其在各领域的广泛应用,可以实现更高效、更智能的服务和决策过程,推动产业持续创新和发展。12月28日,数字中国大模型论坛在上海召开,围...……更多
阳光保险谷伟:公司目标建设领先的混合式大模型平台和应用体系
...经营管理能力。中台构建两大核心能力,聚焦大数据、大模型两大能力建设,支持前端智能化应用创新突破;后台建立统一、高效、安全、稳定的新架构,提升系统架构的先进性、实现共建共享,提升科技效能。最后,做好机制...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏...……更多
哈密发现一处金矿!
...查技术方法组合,基于地质找矿理论,结合“大数据—大模型—大算力”的成矿预测模型,坚持就矿找矿,在深、边部实现突破,取得了系列成果。“按照计划,公司预计2026年进入矿山基建期,2027年可以实现每年开采50万吨矿...……更多
三峡大学新地标,正式落成!
...,三峡大学校长王炎廷向校友代表赠送了水电基石3D打印模型。该模型由水利与环境学院3D打印与智能建造团队牵头设计制作,是对水电基石广场的等比例微缩景观呈现,寄寓着母校的牵挂和期盼,意在为校友留下母校的记忆珍...……更多
被质疑、抄袭、魔改,非主流大模型的诞生之路
...和诋毁的声音,比如让他们拿出证据,证明他们自研的大模型架构RWKV6确实比OpenAI强。但彭博完全不在意这些声音,或许这就是成为另类的代价。——在诸多大模型公司都选择与OpenAI相同的Transformer架构时,彭博用了三年时间走...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...月19日在Arxiv上分享了Stable Audio Open的研究论文,公开了该模型背后的技术细节。Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型,可免费生成长达47秒的样本和音效,还可生成44.1kHz高质量立体声音频,并且能在消费...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉,北京时间3月18日早上,“硅谷钢铁侠”、亿万富翁马斯克旗下AI初创公司xAI宣布,其研发的大模型Grok-1正式对外开源开放,用户可直接通...……更多
MiniMax进化论:一群「偏执者」的破浪前行
全球开源前二,来自中国大模型的Aha时刻。如果一个技术用3年时间,从默默无闻到改变世界,我们称其为第N次工业革命;如果这个技术从论文到落地的过程中,头部玩家如走马灯更迭,百亿流量砸下去只听一声响就陷入沉寂,...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的,分析了BERT灭绝的始末以及不同架构模型的优缺点,以史为...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
技术:大模型发展呈现“规模定律”,Transformer为技术基座1.1 大模型“大力出奇迹”的背后:Scaling Law大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这...……更多
智源新能申请基于时间序列分析的能源管理系统数据填补方法及架构专利,提高数据完整性和连续性
...方法及架构,本发明通过构建基于朴素贝叶斯算法的填补模型,实现了对能源管理系统中数据缺失段的智能预测与填补,提高了数据完整性和连续性。系统首先通过滑动窗口机制动态管理历史数据与新数据,确保模型在填补过程...……更多
技术驱动金融进化:揭秘 Indira 与 IAS 2.0 战略服务器矩阵背后的智
...击造成系统性错误,实现交易策略的“抗干扰设计”。AI模型矩阵架构:多模型协同演化,实时在线更新Indira的核心在于其多模型协同演化系统,包括深度学习(如LSTM、Transformer)、集成算法(GBM、SVM、随机森林)和强化学习(D...……更多
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
【新智元导读】o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。OpenAI的理念,居然被国内公司抢先践行了?比起OpenAI,这家公司的idea...……更多
文心大模型赋能千行百业,自主进化
2023年,是人工智能大模型快速发展的一年。伴随ChatGPT的横空出世,各行各业的生产力似乎都将被AI大模型再次点燃。国产大模型的数量快速增长,截至10月,国内已发布238个大模型。尽管围绕AI大模型技术变革之力的讨论层出不...……更多
infini-attention:谷歌大内存机制
...歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
商汤组织架构重组:以生成式AI为核心业务,各生态企业由独...
...心业务,目标是打造行业领先的AI云,实现大装置、基础模型和AI应用的无缝集成,并在CV(计算机视觉)领域打造通用视觉模型、深耕各个应用场景;“X”代表生态企业矩阵,包括智能汽车“绝影”、家庭机器人“元萝卜”、...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...计算可以利用脉冲信号来传递信息。前者,让脉冲神经元模型的表达能力在理论上高于基于传统人工神经网络(Artificial Neural Network,ANN)的人工神经元模型;后者,让脉冲神经元具有脉冲驱动的计算特征。当脉冲神经网络运行...……更多
微软Win11中发现国产开源大模型!RWKV官方:没给钱啊?现在赶趟
微软正尝试在Office中集成国产开源大模型RWKV!RWKV官方甚至直接发了个推文表示:RWKV.cpp,现已在全球五亿系统中部署。之所以这么说,是因为他们发现最新版Windows 11系统的Office文件夹中有以rwkv命名的DLL文件,包含GPU、CPU版本...……更多
手机市场深陷泥沼,厂商如何破冰?
...题,在这一关键节点,厂商们亟需新的解题思路。3、大模型被认为是下一突破点,但仍没合适的落地方式。自2023年初大模型成为互联网发展技术趋势的关键词,手机厂商关于大模型的探讨就一直没有停止。从逻辑上讲,手机厂...……更多
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00