• 我的订阅
  • 头条热搜
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
近日,上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式:SLEICL(基于强模型增强的情景学习,Strong LLM Enhanced ICL),能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多
“言出必行”马斯克,全球最大开源模型Grok真的来了
刚刚开源的 Grok,一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日,xAI 正式宣布开源大模型Grok-1的权重和网络架构。xAI 表示,开源版大模型Grok-1是一个由 xAI 从头开始训练的 314...……更多
亚马逊开发史上最大文本转语音模型
...能研究团队宣布开发了一个据称是史上最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。近年来,像ChatGPT这...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
腾讯推出 Hunyuan-Large 开源大模型
IT之家11月5日消息,腾讯今日宣布推出Hunyuan-Large大模型,官方表示这是目前业界已经开源的基于Transformer的最大MoE模型,拥有3890亿总参数(389B)和520亿激活参数(52B)。腾讯今日在HuggingFace开源了Hunyuan-A52B-Pretrain、Hun……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
技术:大模型发展呈现“规模定律”,Transformer为技术基座1.1 大模型“大力出奇迹”的背后:Scaling Law大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...读】DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...智元了解,字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向,团队规划了VAR为高优项目,投入研究小组和大量资源。 除了VAR,团队还发表了LlamaGen等相关技术论文,新的研究成果也将在近期陆续放出。事...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智能科...……更多
全球首个亿级参数量的地震波大模型在蓉正式发布,年底公测
...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场,全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布,标志着中国在地震监测、预警和前兆...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
权威AI开源标准1.0版发布:Llama也不算开源
大模型开源的口号,不是随便说说的。该来的终于来了。本周,人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
苹果发布mm1.5-ui模型
...13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模型文...……更多
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训,而使用的平台就是摩尔线程国产全功能GPU MTT S4000组成的千卡集群,以及无问芯穹的AIStudio PaaS平台。这次实训充分验证了夸娥千卡智算集群在大模型训练场景下...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
Databricks推出目前最强开源 AI
3月31日消息,Databricks近日在推出了一款通用大语言模型DBRX,号称是“目前最强开源AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。从官方新闻稿中得知,DBRX是一个基于Transformer的大语言模型,采用MoE(Mixture...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
ibm开源“最先进”和高性能的granite代码模型
...BM现已开源其“最先进”和高性能的Granite(花岗岩)代码模型。IT之家附开源链接如下:GitHub:点此进入HuggingFace:点此进入Granite代码模型的参数范围从3B到34B,并且有基础模型和指令跟随模型两种变体,适用于复杂应用现代化...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...The Information 在最新的报道中披露,两位测试过「草莓」模型的人士表示,OpenAI 可能将在接下来的两周内发布「草莓」模型,并上线 ChatGPT。但不同于 GPT-4o、GPT-4o mini 是在优化使用体验和成本,「草莓」的目标是再一次让大模型...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于高度复...……更多
“重创”美科技股后,DeepSeek除夕再发新模型,文生图测试优于OpenAI
刚刚暴击完美股,国产大模型公司深度求索(DeepSeek)又抛出新模型。1月28日,DeepSeek发布开源多模态模型Janus-Pro,其中70亿参数版本的Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的 DALL-E 3和Stability AI的Stable D……更多
微软推出14b参数“最先进”小型语言模型
...13日消息,微软今天宣布推出14B参数“最先进”小型语言模型(SLM)Phi-4,除了传统的语言处理外,它还擅长数学等领域的复杂推理。Phi-4是Phi系列小型语言模型的最新成员,官方表示其展示了微软继续探索SLM边界的可能性。官方...……更多
打造高品质游戏 - 云上分布式AI实践
...关数据则存储在AmazonElasticFileSystem(EFS)中。最后,训练好的模型可以部署到SageMakerEndpoint,暴露API与游戏服务器集成,实现线上推理和使用。为了让游戏引擎能够直接调用云上的服务,我们还需要进行一些额外的工作,包括通信封装、游...……更多
更多关于科技的资讯:
湖北农发旗下米来生物荣获2025欧洲食品配料展食品与饮料技术创新大奖
12月2日,法国巴黎,在欧洲食品科技领域最具影响力的盛会——欧洲食品配料展(Food Ingredients Europe
2025-12-07 16:44:00
当城市核心区的物理空间增长几近饱和,未来的竞争力新高地何在?12月5日,一场发布会以别开生面的“数字气味”体验开场,为上城区加快建设中央创新区(CID)的战略发布
2025-12-07 07:21:00
日前,山西转型综改示范区入区企业山西恒真真空玻璃科技有限公司自主研发的新产品——“真空发热玻璃”上市。这一产品将高效真空玻璃技术与新型半导体制热技术深度融合
2025-12-07 07:32:00
生产设备共享给清河羊绒带来什么——河北特色产业集群共享智造故事(四)纱线在电脑横机上来回穿梭、电商平台的提示音此起彼伏……随着冬季来临
2025-12-06 08:04:00
厦门移动智慧康养产品亮相首届海峡两岸(厦门)银发博览会
市民现场体验移动随心屏(闺蜜机)的AI舌象问诊功能。厦门网讯 (文/厦门日报记者 许晓婷 王玉婷 通讯员 陈奕珣 图/厦门移动 提供)伸出舌头拍一拍
2025-12-06 08:26:00
厦门网讯 (厦门日报记者 林露虹)刷到一部微短剧,不知不觉被剧情吸引,回过神来看介绍,发现竟是AI参与制作的。类似经历
2025-12-06 08:26:00
从“手搓”到“智造” 厦门跑步机“跑”向全球
厦门网讯 (厦门日报记者 詹文 林健华)在位于同安工业集中区的生产车间里,一节一节钢板正传送上激光切割台,自动切割、打孔
2025-12-06 08:26:00
共建共享破局资源瓶颈:临沂联通与电信合作以5G RedCap创新实现业务与服务双突破
鲁网12月5日讯近日,临沂联通与临沂电信深度践行国家共建共享战略,成功完成全省首个基于电信800M频段的5G RedCap技术承载联通物联网专网业务的商用落地
2025-12-06 13:44:00
中国青年报客户端讯(中青报·中青网记者张均斌)近日,“中央引导地方”专项科技赋能文化方向立项课题——“面向文博场景的智能伴游导览系统研发及示范应用”启动会
2025-12-06 15:25:00
2025教室节能照明标杆盘点 四大品牌绿色护眼解决方案解析
在“双碳”目标引领下,校园节能改造成为教育领域绿色发展的重要方向。据住建部统计,商业建筑能耗中照明系统占比高达35%,学校作为人员密集
2025-12-06 16:09:00
海尔智慧家电亮相迪拜
11月26日至28日,中东地区极具影响力的家电电子展在迪拜世贸中心举办。展会中,海尔智家针对当地高温、多尘等特点,集中展示了洗衣机
2025-12-06 16:10:00
12月1日,豆包手机助手技术预览版正式发布,首发搭载于中兴Nubia工程样机。豆包手机助手是以豆包APP为基础,与手机厂商在操作系统层面合作开发的AI助手软件
2025-12-06 17:41:00
文化中国行|全场听觉无死角 吉林省音乐厅声学揭秘
历经修缮重生的丰乐剧场,以“吉林省音乐厅”之名即将绽放春城。这座历史建筑,从伪满时期影剧院到音乐剧场的跨越,背后藏着一套极致考究的声学设计方案
2025-12-06 18:41:00
伊贝格:让机床行业不再为“头”烦恼
“关键核心技术与高端装备对外依存度高”一直是制约制造业升级的瓶颈。五轴联动铣头作为五轴机床的核心功能部件,过去很长一段时间被欧洲部分知名厂商垄断
2025-12-06 22:07:00
山东重工潍柴集团2026年商务大会圆满召开
鲁网12月6日讯12月6日,以“乘势向上 聚力向新”为主题的山东重工潍柴集团2026年商务大会在潍坊举行。山东重工集团党委书记
2025-12-06 22:43:00