• 我的订阅
  • 头条热搜
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
...人 、新加坡国立大学校长青年教授尤洋发表了题为《大模型训练的关键技术》的主题演讲。尤洋指出,庞大的AI模型规模对模型训练提出了挑战,现有的硬件设备已无法满足训练所需的大量计算资源和储存空间需求。为解决上述...……更多
chatgpt低成本复现流程来了
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需 1.62GB 显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch,单机训练速度最...……更多
zyphra推出zamba2-mini1.2b模型
...29日消息,Zyphra于8月27日发布博文,宣布推出Zamba2-mini1.2B模型,共有12亿参数,声称是端侧SOTA小语言模型,在4bit量化下内存占用低于700MB。IT之家注:SOTA全称为state-of-the-art,并不是特指某个具体的模型,而是指在该项研究任务中...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
...U可提供200G带宽,大大提高工作效率,能够充分满足AI推理、模型微调和高性能计算过程中的强大算力需求。强大性能:采用 AMD EPYC 9004处理器提供了高达 64个核心和 128个线程,适合处理需要大量并行处理能力的任务,如数据分析、科学...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
自从 Transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshu...……更多
最强大模型训练芯片H200发布!
...联技术,可以以最高性能运行各种应用负载,包括175B大模型的训练和推理。HGX板的独立性质使其能够插入合适的主机系统,从而允许使用者定制其高端服务器的非GPU部分。接下来是QuadGH200超算节点——它由4个GH200组成,而GH200是...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制...……更多
华为AI存储助力中国移动构建超大规模智算集群
...转自:人民日报《人民日报》(2024年12月19日第 18 版)大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智能科...……更多
无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品
...出了创新的记忆结构设计,打造了专为复杂长视频的分割模型。论文链接:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf 项目链接:https://mark12ding.github……更多
掰开安卓手机 满屏都是三个字:大模型
这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎...……更多
infini-attention:谷歌大内存机制
...歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...过。但是,也需要说明这些测试存在局限:仅使用了一种模型,即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说,这个结果很是不错。但到今年年底时,考虑到英伟达 B...……更多
36氪首发|打造分布式AI开发和部署平台,「潞晨科技」完成数亿元A轮融资
...。众所周知,如今生成式AI的“涌现”能力来自于底层大模型的成熟,但训练大模型需要的算力、网络、数据成本非寻常公司能承受。而本文主角潞晨科技,希望为这一难题提供解法。潞晨科技成立于2021年,主要业务是通过打造...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...家本领,来挤开源赛道,突然发布了市面上最大的开源MoE模型。Hunyuan-Large,3890亿总参数,520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰,上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型,但腾讯...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...算力需求大爆发的转折之年,如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现,企业对私有化部署的需求也水涨船高。面向这一行业趋势,2023年世界互联网大会乌镇峰会上,国内云端RISC-V大芯片创企希...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
更多关于科技的资讯:
DeepSeek赋能企业研发:DevOps+AI新时代再升级
近日,嘉为蓝鲸DevOps智能小嘉CAgent重磅接入了DeepSeek-R1和DeepSeek-V3模型,全面升级AI服务和辅助能力
2025-02-27 14:45:00
EMQ 如何用DeepSeek大模型重构可观测性数据分析?
前言在数字化转型浪潮下,全球基础软件行业正经历革命性变革。随着物联网设备数量的激增,企业每天产生的运维日志、设备状态、网络流量等可观测性数据呈指数级增长
2025-02-27 14:45:00
平安寿险数智化转型加速度,客户承保服务体验上新阶
“通过科技赋能,实现一部手机走天下,投保理赔都便利。”“20年前可能要10天半个月才能出单,现在材料齐全的情况下,快至10分钟内即可完成平安寿险承保
2025-02-27 14:48:00
平安保险保单服务能力持续提升,探索数字赋能核保服务
运用前沿技术推动金融保险服务,让服务更智能、更便捷,是数字化金融的必由之路。近年来,平安保险保单服务能力持续提升,在探索数字赋能核保服务之路上行稳致远
2025-02-27 14:48:00
从“卡脖子”到“领跑者” 科技创新赋能产业发展
本文转自:人民网-湖北频道生产薄片像摊煎饼果子?把原材料制成可流动性的浆体,在钢材上摊成薄薄的一层,再加热烘干,就能得到一张“煎饼果子”
2025-02-27 14:50:00
元宇宙:人类新一代生存方式
本文转自:人民网元宇宙:人类新一代生存方式——《元宇宙导论:迈向人类新生存方式的认知框架》简评《元宇宙导论:迈向人类新生存方式的认知框架》一书提出了理解“元宇宙”概念的共识框架
2025-02-27 15:00:00
要推带广告的Office免费版:微软中国客服回应
快科技2月27日消息,近日,有消息称微软正在测试免费版Microsoft Office应用,用户无需订阅Microsoft 365或购买Office许可证
2025-02-27 15:06:00
奔驰中国:业务整合或削减将不可避免涉及部分员工 不断提升公司效率
快科技2月27日消息,针对外界谣传的裁员一事,奔驰中国已经证实。针对“奔驰中国大比例裁员”等传闻,奔驰中国今日发表声明称
2025-02-27 15:06:00
巴奴老板回应“月薪5千不吃巴奴”争议:将他的真实本意曲解了
2月27日下午消息,近期,一张巴奴火锅创始人杜中兵在“毛肚火锅发展研讨会”上发言的截图在网络流传。有网友称,杜中兵在直播中表示“月薪5000你就不要吃巴奴
2025-02-27 15:36:00
一撸撸一串儿!聚餐后各自酒驾:三好友被 “一锅端”
2月27日消息,好朋友嘛,就要有福同享有难同当。据“公安部交通管理局”最新披露的案例显示,本月19日下午14时许,在江西新余
2025-02-27 15:36:00
享界S9迎来“混血”强敌!沃尔沃ES90即将发布 年内有望国产上市
快科技2月27日消息,沃尔沃即将发布全新纯电动轿车ES90,该车型计划于3月5日海外首发,并预计将在今年内上市。而ES90的国内销售版本将在沃尔沃大庆工厂生产
2025-02-27 15:36:00
PCB技术铸就工业机器人未来,造物数科展现核心驱动力
在现代工业的智能化浪潮中,工业机器人正成为制造业转型升级的核心驱动力。从汽车制造到电子装配,从物流仓储到精密加工,工业机器人以其高效
2025-02-27 15:56:00
四川省简阳市:在装备制造、数字经济上持续发力
消费日报网讯(记者 罗颖□宋林 罗玉蓉)四川省简阳市2025年一季度经济“开门红”工作专题会强调,要加快打造成渝装备制造基地
2025-02-27 16:03:00
比亚迪“宝宝巴士”青岛投运:最大载客80人 扶手杆还带加热
快科技2月27日消息,今日,“比亚迪商用车”公众号宣布,500辆比亚迪纯电动公交近日在青岛城运集团有限公司(简称“青岛城运集团”)正式投入运营
2025-02-27 16:06:00
17系列最便宜版本!iPhone 17e曝光
快科技2月27日消息,博主定焦数码透露,苹果e系列机型大概率还有下一代,目前已经看到了新的专案代号,“e”指的就是“经济”
2025-02-27 16:06:00