• 我的订阅
  • 头条热搜
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
zyphra推出zamba2-mini1.2b模型
...29日消息,Zyphra于8月27日发布博文,宣布推出Zamba2-mini1.2B模型,共有12亿参数,声称是端侧SOTA小语言模型,在4bit量化下内存占用低于700MB。IT之家注:SOTA全称为state-of-the-art,并不是特指某个具体的模型,而是指在该项研究任务中...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
...U可提供200G带宽,大大提高工作效率,能够充分满足AI推理、模型微调和高性能计算过程中的强大算力需求。强大性能:采用 AMD EPYC 9004处理器提供了高达 64个核心和 128个线程,适合处理需要大量并行处理能力的任务,如数据分析、科学...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
自从 Transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshu...……更多
最强大模型训练芯片H200发布!
...联技术,可以以最高性能运行各种应用负载,包括175B大模型的训练和推理。HGX板的独立性质使其能够插入合适的主机系统,从而允许使用者定制其高端服务器的非GPU部分。接下来是QuadGH200超算节点——它由4个GH200组成,而GH200是...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品
...出了创新的记忆结构设计,打造了专为复杂长视频的分割模型。论文链接:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf 项目链接:https://mark12ding.github……更多
掰开安卓手机 满屏都是三个字:大模型
这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...过。但是,也需要说明这些测试存在局限:仅使用了一种模型,即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说,这个结果很是不错。但到今年年底时,考虑到英伟达 B...……更多
infini-attention:谷歌大内存机制
...歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智能科...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...算力需求大爆发的转折之年,如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现,企业对私有化部署的需求也水涨船高。面向这一行业趋势,2023年世界互联网大会乌镇峰会上,国内云端RISC-V大芯片创企希...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
信号表征指数级强、内存节省35%,量子隐式表征网络
...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能,在参数量更少的情况下,拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...越人类专家。在性能跃升之外,更重要的是,它揭示了大模型进化范式的转变:通过更多的强化学习(训练时计算)和更多的推理(Test-Time 计算),模型可以获得更强大的性能。这又一次让我们想起 Richard Sutton 在《The Bitter Lesso...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...忧——传统软件问题尚能引发如此大的问题,那么站在大模型时代当下,AI+金融,是否又能做到准确可信?正所谓实践是检验真理唯一标准,要回答的这个问题,我们不妨了解一下已经在金融领域“上岗”了的AI大模型。大模型...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...最新这代Blackwell计算引擎的出炉,面向生成式AI的大语言模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年...……更多
更多关于科技的资讯:
鲁网9月28日讯金融是经济的血脉,更是百姓生活的依托。在中国经济迈向高质量发展的今天,中国建设银行青岛市分行以国有大行的责任与担当
2025-09-28 10:37:00
五年连获七家世界知名轴承制造企业认证一根轴承钢转动全球——“铁疙瘩”怎样变成“金娃娃”(九)前不久,河钢集团石钢公司收到日本某国际知名轴承企业高碳铬轴承钢的认证邮件
2025-09-28 08:04:00
锚定新赛道 壮大新动能超31亿元新一代工业软件基地项目开工南报网讯(记者刘安琪)项目兴则产业兴,项目强则经济强。9月26日上午
2025-09-28 07:43:00
山东移动成功入选2025年度山东省中小企业服务支撑机构
近日,山东省轻工联社发布《关于公布2025年度山东省中小企业服务支撑机构名单的通知》,山东移动成功入选。作为推动中小企业数字化转型的主力军
2025-09-27 08:11:00
南报网讯(记者卫凌云通讯员建萱)9月26日,2025南京河西中央科创区生态建设推进会举行,“大厂+大学+大所”创新平台揭牌
2025-09-27 09:53:00
山东移动淄博公司织就高速信息网络,筑牢“数字淄博”智慧生命线
在数字化浪潮席卷而来的今天,信息传输网络如同城市的“神经网络”,是智慧城市运转的核心支撑。作为这一无形“生命线”的守护者
2025-09-27 12:34:00
迭代焕新“吾悦经营五步法”,新城控股再启商业新篇
9月24日-25日,新城控股“2025第八届商业年会暨吾悦商管第一届悦链计划合伙人大会”在上海西岸美高梅酒店举行,新城控股集团董事长王晓松及公司高管
2025-09-27 12:37:00
25日上午,以“上山下山·食在晋安”为主题的晋安区“一县一桌菜”云上发布会举行,12道“云端”盛宴引爆味蕾。
2025-09-27 13:53:00
产业链协同驱动 新奥加速冲刺氢硼聚变
河北新闻网讯(张新)2025年,是我国“十四五”规划收官之年,也是“双碳”目标提出五周年。在此背景下,央视《东方时空》栏目近日推出“可控核聚变专题”
2025-09-27 14:45:00
9月25日,国网山西省电力公司发布消息,该公司成功完成配电网无人机电力北斗定位服务的全面应用,标志着该公司依托电力北斗高精度定位服务
2025-09-27 19:56:00
谢志强:从金融菁英到人才“伯乐”,以产学研融合破局就业困境
谢志强,现任中科汇理信息技术研究院党支部书记、秘书长、中科产学研合作一体化人才培育开发平台项目主任。历任中国银行总行风险管理部业务经理
2025-09-27 20:20:00
聚焦数贸会 | 工匠行:机器狗能听会说还会自主巡逻
在第四届全球数字博览会上,贵州工匠行科技有限公司展出的SomaSeek具身智能平台,让机器人彻底告别了遥控器,也能听会说
2025-09-27 22:17:00
企业新市场何处寻?潍坊这场产业国际精准对接会送来“及时雨”
齐鲁晚报·齐鲁壹点 胡晓雪 李国栋9月26日,2025潍坊纺织服装产业国际精准对接活动在奎文区成功举办,本次活动以“我帮企业组主场·我为企业找订单”为主题
2025-09-27 22:22:00
生产周期缩短1/3,宇捷轴承凭核心技术领跑细分市场
齐鲁晚报·齐鲁壹点 陶春燕 山东省宇捷轴承制造有限公司是国家级专精特新重点“小巨人”企业、国内最大的调心滚子轴承生产企业
2025-09-27 20:05:00
电动车照亮小区应急通道?淄博供电验证居民V2G桩集群放电场景
当小区突发故障停电,地下车库里业主们的电动汽车,瞬间变身为一个巨大“充电宝”,为消防、通风和应急照明系统供电,守护社区安全
2025-09-27 12:35:00