• 我的订阅
  • 头条热搜
小米开源首个推理大模型Xiaomi MiMo:7B参数就超越OpenAI o1-mini
...官方今天正式宣布,开源首个为推理(Reasoning)而生的大模型——Xiaomi MiMo。据介绍,Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini和……更多
专家模型不要专家并行!微软开源MoE新路径
...日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
轻量级的模型亦有其存在的市场空间。2022年11月底,基于GPT-3.5的ChatGPT刚出来的时候,小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌给ChatGPT抛出一个问题:证明一下勾股定理。最终,ChatGPT给出了一个基于数学归...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
联想发布DeepSeek一体机解决方案:支持千亿参数大模型训练
...2月6日消息,联想集团与沐曦股份联合发布基于DeepSeek大模型的一体机解决方案。该方案以“联想服务器/工作站+沐曦训推一体GPU+自主算法”为核心架构,配合联想AI force智能体开发平台,推出智能体一体机与训推一体服务器双产...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...读】DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进...……更多
以“价值创造”为导向,医渡科技自研大模型即将发布
...生成式AI场景论坛”发表主题演讲,系统分享了医疗垂域大模型的建设与应用。闫峻强调,技术应该从价值出发,否则即使技术再先进,缺乏实际价值也难以持续发展,“以价值创造为导向”也是医渡科技建设垂域大模型的基本理念,公...……更多
国内最大智算中心正式投用:每秒690亿亿次浮点运算 可训练万亿参数大模型
...所有AI加速卡打造成1个集群,用以支持千万亿级参数的大模型进行训练。这个集群智算中心通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,将数据训练完成时间缩短20%,从而...……更多
本文转自:劳动报2024世界人工智能大会探营:最新大模型产品抢先看■劳动报记者 陈宁7月4日至6日,2024世界人工智能大会将在上海拉开帷幕。今年“百模大战”热度依旧不减,大模型依然是这次大会的十大重点议题之一。据...……更多
一文读懂黄仁勋CES重磅发布:最新5090芯片、世界最大AI计算机、首个世界模型
...上最大最快的巨型芯片Grace Blackwell NVLink72、首个世界基础模型Cosmos等,并公布了在AI代理、物理AI等方面的布局和进展。新一代GeForce RTX 50系列芯片,最高售价1999美元黄仁勋开场就开玩笑称“你们现在就在我们的数字孪生世界里...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...。供求关系紧张是产生算力焦虑的根源所在。一方面,大模型训练与推理需求呈几何级数爆发——自2022年以来,人工智能算力需求每3~4个月就翻一番,每年训练AI模型所需算力增幅高达10倍,而生成式AI使上升曲线进一步陡峭,...……更多
谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo
谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最...……更多
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训,而使用的平台就是摩尔线程国产全功能GPU MTT S4000组成的千卡集群,以及无问芯穹的AIStudio PaaS平台。这次实训充分验证了夸娥千卡智算集群在大模型训练场景下...……更多
16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次
快科技7月29日消息,如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。Meta在报告中披露,为了训练自己的Llama ...……更多
轻量化模型架构catvton的优势在哪里
...在话下。 来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、...……更多
...:德宏团结报性能提升30%!中国电信进一步开源12B星辰大模型本报讯 近日,中国电信开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域...……更多
全球首个亿级参数量的地震波大模型在蓉正式发布,年底公测
...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场,全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布,标志着中国在地震监测、预警和前兆...……更多
大模型应用疯狂加速,洗牌却在静悄悄进行了
...场,正面临着这个关键的过渡。 截至8月底,首批8家AI大模型企业通过备案。与上半年“甚嚣尘上”的行业境况不同,具备实力且具备满腔“产业抱负”的实力型玩家,总是姗姗来迟,但却总是能够一鸣惊人,为产业的大规模应...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
生命科学领域,已经率先进入到基础模型时代!今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。就在当下,在第三届中国生物计算...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多
大模型时代的阿里云,将云计算进行到底
文|葛覃大模型与云计算,正在成为新时代的淘金者和卖铲人。自ChatGPT刷屏之后的数月时间,微软Azure与OpenAI的示范效应传导至全球,基本所有能做大模型的厂商都尝试“淘金”,其中,云厂商是一股重要力量,云计算天然适...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
ai绘画侵权实锤,扩散模型可能记住你的照片
AI绘画侵权,实锤了!最新研究表明,扩散模型会牢牢记住训练集中的样本,并在生成时“依葫芦画瓢”。也就是说,像StableDiffusion生成的AI画作里,每一笔背后都可能隐藏着一次侵权事件。不仅如此,经过研究对比,扩散模型...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
这一职业,突然爆火!简历刚投,就被“抢光”……
...招聘职位数量同比增长达56%。业内人士表示,随着大语言模型的快速发展,以及涉及的领域越来越多,人工智能训练师的需求还会继续增加。人工智能训练师:数字时代的“教练”人工智能训练师到底是如何工作的?服务于专业...……更多
更多关于科技的资讯:
鲁网9月28日讯金融是经济的血脉,更是百姓生活的依托。在中国经济迈向高质量发展的今天,中国建设银行青岛市分行以国有大行的责任与担当
2025-09-28 10:37:00
五年连获七家世界知名轴承制造企业认证一根轴承钢转动全球——“铁疙瘩”怎样变成“金娃娃”(九)前不久,河钢集团石钢公司收到日本某国际知名轴承企业高碳铬轴承钢的认证邮件
2025-09-28 08:04:00
锚定新赛道 壮大新动能超31亿元新一代工业软件基地项目开工南报网讯(记者刘安琪)项目兴则产业兴,项目强则经济强。9月26日上午
2025-09-28 07:43:00
山东移动成功入选2025年度山东省中小企业服务支撑机构
近日,山东省轻工联社发布《关于公布2025年度山东省中小企业服务支撑机构名单的通知》,山东移动成功入选。作为推动中小企业数字化转型的主力军
2025-09-27 08:11:00
南报网讯(记者卫凌云通讯员建萱)9月26日,2025南京河西中央科创区生态建设推进会举行,“大厂+大学+大所”创新平台揭牌
2025-09-27 09:53:00
山东移动淄博公司织就高速信息网络,筑牢“数字淄博”智慧生命线
在数字化浪潮席卷而来的今天,信息传输网络如同城市的“神经网络”,是智慧城市运转的核心支撑。作为这一无形“生命线”的守护者
2025-09-27 12:34:00
迭代焕新“吾悦经营五步法”,新城控股再启商业新篇
9月24日-25日,新城控股“2025第八届商业年会暨吾悦商管第一届悦链计划合伙人大会”在上海西岸美高梅酒店举行,新城控股集团董事长王晓松及公司高管
2025-09-27 12:37:00
25日上午,以“上山下山·食在晋安”为主题的晋安区“一县一桌菜”云上发布会举行,12道“云端”盛宴引爆味蕾。
2025-09-27 13:53:00
产业链协同驱动 新奥加速冲刺氢硼聚变
河北新闻网讯(张新)2025年,是我国“十四五”规划收官之年,也是“双碳”目标提出五周年。在此背景下,央视《东方时空》栏目近日推出“可控核聚变专题”
2025-09-27 14:45:00
9月25日,国网山西省电力公司发布消息,该公司成功完成配电网无人机电力北斗定位服务的全面应用,标志着该公司依托电力北斗高精度定位服务
2025-09-27 19:56:00
谢志强:从金融菁英到人才“伯乐”,以产学研融合破局就业困境
谢志强,现任中科汇理信息技术研究院党支部书记、秘书长、中科产学研合作一体化人才培育开发平台项目主任。历任中国银行总行风险管理部业务经理
2025-09-27 20:20:00
聚焦数贸会 | 工匠行:机器狗能听会说还会自主巡逻
在第四届全球数字博览会上,贵州工匠行科技有限公司展出的SomaSeek具身智能平台,让机器人彻底告别了遥控器,也能听会说
2025-09-27 22:17:00
企业新市场何处寻?潍坊这场产业国际精准对接会送来“及时雨”
齐鲁晚报·齐鲁壹点 胡晓雪 李国栋9月26日,2025潍坊纺织服装产业国际精准对接活动在奎文区成功举办,本次活动以“我帮企业组主场·我为企业找订单”为主题
2025-09-27 22:22:00
生产周期缩短1/3,宇捷轴承凭核心技术领跑细分市场
齐鲁晚报·齐鲁壹点 陶春燕 山东省宇捷轴承制造有限公司是国家级专精特新重点“小巨人”企业、国内最大的调心滚子轴承生产企业
2025-09-27 20:05:00
电动车照亮小区应急通道?淄博供电验证居民V2G桩集群放电场景
当小区突发故障停电,地下车库里业主们的电动汽车,瞬间变身为一个巨大“充电宝”,为消防、通风和应急照明系统供电,守护社区安全
2025-09-27 12:35:00