• 我的订阅
  • 头条热搜
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根...……更多
o1突发内幕曝光?谷歌更早揭示原理 大模型光有软件不存在护城河
发布不到1周,OpenAI最强模型o1的护城河已经没有了。有人发现,谷歌DeepMind一篇发表在8月的论文,揭示原理和o1的工作方式几乎一致。o1突发内幕曝光?谷歌更早揭示原理,大模型光有软件不存在护城河这项研究表明,增加测试...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...成的博士论文代码,竟被 AI 在 1 个小时之内实现了。o1 模型已经强到,能够直出博士论文代码了!来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares,实测 o1 preview+mini 后发现:自己肝了大约 1 年的博士代码,o1 竟在 1 小时...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域,还表现出超强...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3,包括两款MoE(混合专家架构)模型,其中具备2350亿参数规模的Qwen3-235B-A22B,在对比测试中成为目前最强大的开...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
huggingface公布“smollm”小语言模型家族
7月20日消息,如今小语言模型开始升温,许多厂商开始推出适用于手机等轻量级设备的“小模型”,本周HuggingFace便公布了“SmolLM”小语言模型家族,其中包含1.35亿、3.6亿及17亿参数模型。据介绍,这些模型号称是以精心策划的...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键词:TF-IDF;决策树...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...理教授(研究)杨林易。o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...家坚持开源的社交巨头,又默默放出了最新一代的开源大模型Llama3。美当地时间4月18日,Meta在官网上发布了两款开源大模型,参数分别达到80亿和700亿,是目前同体量下性能最好的开源模型。马斯克对此评价称“还不错”。Meta...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...武静静编辑|邓咏仪放弃造车后的苹果,正在加速入局大模型战争。当地时间3月15日,苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称,苹果已经收购了一家加拿大AI初创公司DarwinAI。...……更多
专家模型不要专家并行!微软开源MoE新路径
...日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
...外版美国斯坦福大学等机构研究团队近日宣布,在基座大模型基础上,仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心(OpenAI)开发的o1、中国深度求索公司的DeepSeek-R1等,...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
【新智元导读】北京大学研究团队开发的FAN模型能有效捕捉数据中的周期性模式,相比传统模型在多项任务中表现出色,同时降低了参数量和计算量,增强了对周期性特征的建模能力,应用潜力广泛。周期性现象广泛存在,深...……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
引言:MaaS(ModelasaService,模型即服务)是一种将人工智能算法模型及其相关能力封装成服务,以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度,并提升人工智能技术的综合应用效能的模式。 上新了...……更多
amd推出10亿参数语言模型系列amdolmo
...10月31日发布博文,宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo,为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列(LMs),在AMDInstinct™MI250GPU集群上训练,使用了超过1.3...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...,上线Apple Intelligence的首个版本,同时47页的苹果自研大模型技术报告重磅发布。Apple Intelligence首个版本上线了以下AI功能:1、Siri升级。Siri唤醒后具备屏幕边缘发光特效,能理解用户表述不通顺的指令,且能回答关于苹果产品...……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特...……更多
更多关于科技的资讯:
在杭州城西科创大走廊东首的西湖区紫金港科技城云谷中心,国内最大模型开源社区“魔搭社区”的首个线下实体空间——魔搭社区(杭州)开发者中心(以下简称“开发者中心”)
2025-12-05 08:13:00
眼下,养宠群体逐渐壮大,带来的刚需消费、悦己消费持续升温、充满潜力,宠物经济迅速崛起。最近,省农业农村厅联合省发改委、省商务厅等五部门印发《关于促进宠物经济发展的意见》
2025-12-05 08:13:00
海运到货 福州车厘子上新整体售价稳步回落4日,随着海运而来的智利车厘子到达福州,福州市场上车厘子全面上新,整体售价开始稳步回落
2025-12-05 08:13:00
苏州作为全国数字经济、数字金融的先行城市,始终以敢为人先的魄力,争当保险科技应用的“试验场”与“示范区”。苏州市数字金融高质量发展大会保险科技专题活动在苏州人保财险成功举办
2025-12-05 10:56:00
近日,2025系统医学与健康大会在苏州工业园区举行,四大慢病国家科技重大专项技术总师陈竺,创新药物研发国家科技重大专项技术总师曹雪涛
2025-12-05 11:45:00
《中国电影经济发展研究报告》在海南岛国际电影节首发
孙向辉解读《报告》。中青报·中青网记者 任明超/摄中国青年报客户端讯(李争艳 中青报·中青网记者 任明超)12月4日,《中国电影经济发展研究报告》(以下简称《报告》)在海南岛国际电影节主论坛首发
2025-12-05 11:50:00
近日,由市稳外贸专班主办,苏州市分公司、供应链数字治理研究中心、苏州世标检测有限公司共同承办的“新外贸‘涨’字诀:精通美国知产合规赋能企业竞强价增”活动
2025-12-05 11:54:00
南京企业奋战四季度
进入四季度,南京企业在新品发布与订单签订上成果显著,重点产业创新动能强劲 产业是城市经济发展的基石。进入四季度以来
2025-12-05 12:11:00
AI时代“一人公司”迎来发展良机AI应用爆发前夜,中国第二经济大省江苏的“双子星”——南京、苏州抢先布局“单人成军”的OPC新形态OPC的全称是One Person Company
2025-12-05 12:11:00
潮品、文创、黑科技一站式打卡!河南品牌“秀”出多元消费新体验
大河网讯 蜜雪冰城诠释着国民饮品的亲切感,河南博物院文创产品让厚重历史走入百姓日常生活,力量钻石折射出河南制造闪耀的科技光芒……12月5日
2025-12-05 12:12:00
“智”绘康养,AI上美味!看豫企如何玩“智”变
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 12:12:00
为提升团队惠民保展业能力,夯实业务根基,太湖人保财险成功开展新员工惠民保专项培训,各团队主管全程参与研讨推进,以多维度培训为全体坐席赋能
2025-12-05 12:40:00
解锁服务新玩法!河南品牌靠数智、跨界跑出加速度
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
文创爆品、网红奶茶齐出圈,河南新品牌如何撑起新供给?
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
在当前全球化格局深度调整与数字技术革命交汇的时代背景下,研究生国际联合培养模式的数字化转型,已成为国家教育战略的核心关切
2025-12-05 13:18:00