• 我的订阅
  • 头条热搜
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根...……更多
o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理,大模型光有软件不存在护城河这项研究表明,增加测试...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares,实测 o1 preview+mini 后发现:自己肝了大约 1 年的博士代码,o1 竟在 1 小时...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域,还表现出超强...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3,包括两款MoE(混合专家架构)模型,其中具备2350亿参数规模的Qwen3-235B-A22B,在对比测试中成为目前最强大的开...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
huggingface公布“smollm”小语言模型家族
7月20日消息,如今小语言模型开始升温,许多厂商开始推出适用于手机等轻量级设备的“小模型”,本周HuggingFace便公布了“SmolLM”小语言模型家族,其中包含1.35亿、3.6亿及17亿参数模型。据介绍,这些模型号称是以精心策划的...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键词:TF-IDF;决策树...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...理教授(研究)杨林易。o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...家坚持开源的社交巨头,又默默放出了最新一代的开源大模型Llama3。美当地时间4月18日,Meta在官网上发布了两款开源大模型,参数分别达到80亿和700亿,是目前同体量下性能最好的开源模型。马斯克对此评价称“还不错”。Meta...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...武静静编辑|邓咏仪放弃造车后的苹果,正在加速入局大模型战争。当地时间3月15日,苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称,苹果已经收购了一家加拿大AI初创公司DarwinAI。...……更多
专家模型不要专家并行!微软开源MoE新路径
...日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
...外版美国斯坦福大学等机构研究团队近日宣布,在基座大模型基础上,仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心(OpenAI)开发的o1、中国深度求索公司的DeepSeek-R1等,...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
【新智元导读】北京大学研究团队开发的FAN模型能有效捕捉数据中的周期性模式,相比传统模型在多项任务中表现出色,同时降低了参数量和计算量,增强了对周期性特征的建模能力,应用潜力广泛。周期性现象广泛存在,深...……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
引言:MaaS(ModelasaService,模型即服务)是一种将人工智能算法模型及其相关能力封装成服务,以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度,并提升人工智能技术的综合应用效能的模式。 上新了...……更多
amd推出10亿参数语言模型系列amdolmo
...10月31日发布博文,宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo,为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列(LMs),在AMDInstinct™MI250GPU集群上训练,使用了超过1.3...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...,上线Apple Intelligence的首个版本,同时47页的苹果自研大模型技术报告重磅发布。Apple Intelligence首个版本上线了以下AI功能:1、Siri升级。Siri唤醒后具备屏幕边缘发光特效,能理解用户表述不通顺的指令,且能回答关于苹果产品...……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特...……更多
更多关于科技的资讯:
关育兵近日,抖音博主“@爱吃蛋”凭借精确到秒的煮蛋教程,8天时间涨粉356万,被称为“蛋神”“煮蛋仙人”。最初,一名抖音用户分享“爸爸做出的完美水煮蛋”
2025-12-15 11:25:00
部分热门款式甚至卖断货 雪具市场迎“冬”风 国货订单激增
商报讯 随着入冬滑雪季的开启,多家雪场已经陆续“开板”迎客,滑雪装备市场也在悄然升温。国产雪具品牌凭借高性价比、差异化的设计及国潮元素融合等优势
2025-12-15 11:36:00
能源行业最大年度演讲在青岛举办 解码能源行业发展新趋势
12月10日至12日,“进化的能源·马一峰年度演讲2026”暨第21期综合能碳培训资源链接大会在青岛举行。作为能源行业最大的年度演讲和极具影响力的生态盛会
2025-12-15 11:55:00
厦门网讯(厦门日报记者 林露虹)厦门企业海辰储能聚焦长时储能,推出三大突破性的创新解决方案,以破解新能源消纳难题,满足AIDC(人工智能数据中心)能源转型需要
2025-12-15 08:58:00
“眼”观未来“镜”显风采 厦门眼镜产业发力新赛道
连续多年举办的厦门眼镜展。(厦门日报记者 王元晖 摄)艾普光学生产线。(资料图/厦门日报记者 林铭鸿 摄)嘉宾在厦门眼镜展上体验智能眼镜
2025-12-15 08:58:00
AI搜索时代企业信息困局破解:智推互联以权威新闻,重塑品牌认知
AI搜索时代企业信息困局破解:智推互联以权威新闻,重塑品牌认知当AI成为信息分发的核心枢纽,企业却陷入前所未有的传播困境
2025-12-15 09:25:00
影视AI赛道再添强援 长江电影智象未来联合实验室挂牌 打开商业化想象空间
2025年12月11日,湖北长江电影集团与智象未来在武汉正式揭牌成立“长江电影智象未来影视AI联合实验室”,双方同步签订战略合作协议
2025-12-15 09:55:00
从古典中读懂未来:一位小提琴演奏者的“琴弓革命”
在不少人眼中,王辰翔的成长轨迹几乎是古典音乐领域的“标准答案”:四岁半拿起小提琴,少年时期便师从名家;先后进入中央音乐学院附小
2025-12-15 10:25:00
山东移动阳谷分公司助力酒店实现数字化升级
鲁网12月12日讯近日,山东移动阳谷分公司为汉庭酒店西汉庄店量身打造一体化通信解决方案,全面赋能酒店数字化转型升级。通过精准对接酒店在网络带宽
2025-12-15 09:49:00
每集2分钟、一共28集,短剧《昭世录》在美国、英国、泰国等地的短视频平台上线后爆火,海外播放量近2亿。这部短剧由位于嘉兴经开区的嘉兴九州文化传媒有限公司出品
2025-12-15 07:32:00
12月11日,金华市蓝海光电技术有限公司激光雷达事业部总经理刘崇求向记者展示了一款新型机器人导航激光雷达。该雷达除了能360度平面扫描探测
2025-12-15 07:32:00
12月14日,首届全国独角兽企业大赛总决赛在宁波高新区收官。本次总决赛由工业和信息化部火炬高技术产业开发中心、中国电子学会
2025-12-15 07:32:00
12月12日下午,“2025浙江省新消费创新大赛资源对接活动”在杭州余杭未来科技城举办。活动以“潮起新消费 智汇浙未来”为主题
2025-12-15 07:32:00
“亲,这个问题难倒我了”“对不起,我理解不了您的意思”……这些出自AI客服的经典“名言”你熟悉吗?你是不是也被AI客服“逼疯”过呢?随着年终消费季的到来
2025-12-15 07:50:00
杭州故事,叩开世界的“心门”
在中国美术学院举办的“黑神话:悟空”艺术展。记者 步恩撒 摄踏上取经路,比抵达灵山更重要——黑神话:悟空。来西游神话当一回“天命人”
2025-12-15 08:03:00