• 我的订阅
  • 头条热搜
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
zyphra推出zamba2-mini1.2b模型
...29日消息,Zyphra于8月27日发布博文,宣布推出Zamba2-mini1.2B模型,共有12亿参数,声称是端侧SOTA小语言模型,在4bit量化下内存占用低于700MB。IT之家注:SOTA全称为state-of-the-art,并不是特指某个具体的模型,而是指在该项研究任务中...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
...U可提供200G带宽,大大提高工作效率,能够充分满足AI推理、模型微调和高性能计算过程中的强大算力需求。强大性能:采用 AMD EPYC 9004处理器提供了高达 64个核心和 128个线程,适合处理需要大量并行处理能力的任务,如数据分析、科学...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
自从 Transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshu...……更多
最强大模型训练芯片H200发布!
...联技术,可以以最高性能运行各种应用负载,包括175B大模型的训练和推理。HGX板的独立性质使其能够插入合适的主机系统,从而允许使用者定制其高端服务器的非GPU部分。接下来是QuadGH200超算节点——它由4个GH200组成,而GH200是...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
华为AI存储助力中国移动构建超大规模智算集群
...转自:人民日报《人民日报》(2024年12月19日第 18 版)大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量...……更多
无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品
...出了创新的记忆结构设计,打造了专为复杂长视频的分割模型。论文链接:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf 项目链接:https://mark12ding.github……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...过。但是,也需要说明这些测试存在局限:仅使用了一种模型,即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说,这个结果很是不错。但到今年年底时,考虑到英伟达 B...……更多
掰开安卓手机 满屏都是三个字:大模型
这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎...……更多
infini-attention:谷歌大内存机制
...歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智能科...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...算力需求大爆发的转折之年,如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现,企业对私有化部署的需求也水涨船高。面向这一行业趋势,2023年世界互联网大会乌镇峰会上,国内云端RISC-V大芯片创企希...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
信号表征指数级强、内存节省35%,量子隐式表征网络
...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能,在参数量更少的情况下,拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...越人类专家。在性能跃升之外,更重要的是,它揭示了大模型进化范式的转变:通过更多的强化学习(训练时计算)和更多的推理(Test-Time 计算),模型可以获得更强大的性能。这又一次让我们想起 Richard Sutton 在《The Bitter Lesso...……更多
...越性能:高达1000AITOPS处理能力和128GB统一内存,实现无缝模型开发和推理先进架构:NVIDIA?GB10GraceBlackwell超级芯片配备BlackwellGPU、20核ArmCPU和NVLink-C2C?技术,可有效提升AI工作负载扩展互联:配置为独立或私有云系统,以在桌面……更多
更多关于科技的资讯:
鲁网12月1日讯泰安联通聚焦精品网络建设核心,持续深化云网融合能力、优化网络运维体系、升级服务保障机制,为区域数字经济发展筑牢通信底座
2025-12-01 13:35:00
冬日有暖意 服务联万家——泰安联通客户日打造贴心服务体验
鲁网12月1日讯初冬时节,寒意渐起,但服务的温度却未曾缺席。近日,泰安联通在全市各营业厅成功举办“联通客户日暖冬回馈季”主题活动
2025-12-01 13:37:00
王倩:以“法律+”思维,护航企业破局新生
巾帼不让须眉:年轻有为的破产破局者,王倩用专业赢得信任当企业陷入债务泥潭,当债权人与债务人的利益激烈碰撞,当投资人寻求危局中的机遇——破产业务从来不是简单的“清算注销”
2025-12-01 09:25:00
重塑健康增长范式,米连科技或将引领互联网发展新路径
在互联网行业经历深刻变革的今天,追求健康、可持续的增长模式已成为企业生存发展的关键。米连科技通过其独特的战略路径,向业界展示了一条超越“烧钱换规模”传统逻辑的新型发展道路
2025-12-01 09:55:00
《和平精英》地铁逃生「冰雪危途」全新赛季火热开启,这把雪赚到底!
列车一响,雪赚开场!《和平精英》地铁逃生全新赛季「冰雪危途」,11月29日,邀你雪赚启航!用创新玩法,拓宽地铁逃生摸金搜打撤的边界
2025-12-01 09:55:00
邮储银行唐山市分行以“政策落地+精准赋能”为主线,积极构建专业化科技金融服务体系,全力支持新质生产力发展。该行创新推出“网点深耕+全链服务”模式
2025-12-01 10:02:00
近日,人保财险唐山燕新路营销服务部组建专项服务小组,走进公司周边场所,开展“面对面、零距离”客户服务行动。活动现场,工作人员以客户需求为导向
2025-12-01 10:06:00
信息技术的迅速发展,尤其是大数据的广泛应用,正在推动医保体系发生深刻变革。传统的医保支付方式已经难以适应现代医疗服务的复杂性与多样化需求
2025-12-01 07:04:00
“一上午加了8位境外采购商”
本报讯(全媒体记者陈春伟、实习生罗家骏)“嘀”的一声,江西华昌竹业集团有限公司外贸经理严慧的微信好友列表里,又多了一位国际采购商
2025-12-01 07:05:00
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00