• 我的订阅
  • 头条热搜
谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo
谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
...策略。我们深入研究了统计学在AI算法开发、数据分析和模型优化方面的作用。通过采用统计学方法,可以提高AI系统的性能、准确性和稳定性,从而更好地满足不同应用领域的需求。此外,我们还探讨了在AI系统中应用统计学方...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
【新智元导读】谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型,又上新了!就...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品|搜狐科技作者|郑松毅2024年已过半,大模型之争热度不减,通往AGI的路究竟该怎么走?近日,清华大学计算机系讲席教授、人工智能研究院基础模...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算领域,与国内主流AI芯片厂商深度合作,共同搭建的「国产千卡智算集群」现已上线...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
...:德宏团结报性能提升30%!中国电信进一步开源12B星辰大模型本报讯 近日,中国电信开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。小模型的战场,打起来了!继GPT-4o mini、Mistral Ne……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
谷歌发布gemma2大语言模型,共有两种大小
...布新闻稿,面向全球研究人员和开发人员发布Gemma2大语言模型,共有90亿参数(9B)和270亿参数(27B)两种大小。Gemma2大语言模型相比较第一代,推理性能更高、效率更高,并在安全性方面取得了重大进步。谷歌在新闻稿中表示...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特...……更多
微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!
...乎「配得上」这个体量?GPT-3.5只有200亿参数?今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusio...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
【CNMO新闻】“大模型时代,夸克有巨大机会创造出革新性搜索产品。”11月22日,夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示,夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单,...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
近日,上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式:SLEICL(基于强模型增强的情景学习,Strong LLM Enhanced ICL),能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...的首个听筒/免提双模卫星通话,首个端侧应用70亿参数大模型,首次亮相的潮汐架构等诸多前沿技术。此次宣布的全新技术组合将全面落地下一代旗舰产品FindX7系列,为2024年旗舰手机树立全新的技术标杆,并为消费者带来刷新...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键词:TF-IDF;决策树...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...新闻网2023年4月17日,昆仑万维发布自研双千亿级大语言模型“天工1.0”。即将到来的2024年4月17日,在“天工”大模型一周年之际,昆仑万维重磅宣布,“天工3.0”正式开启公测!“天工3.0”采用4千亿级参数MoE混合专家模型,并...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
更多关于科技的资讯:
新网银行用“五篇大文章”打开数字金融的未来
三十年前的1995年,中国第一家城市商业银行在深圳落地,开启了城商行服务地方经济、服务中小企业、服务城乡居民的时代篇章
2025-12-03 21:31:00
凤冈:数字技术赋能肉牛产业 智慧养殖引领乡村振兴
多彩贵州网讯 当传统养殖业插上“数字翅膀”,会带来怎样的变革?在凤冈县,肉牛产业正经历一场从“凭经验”到“看数据”的转型
2025-12-03 21:45:00
江南时报讯 作为扎根乡土的金融机构,阜宁农商银行立足数字浪潮与产业变革机遇,以创新、革新、科技为翼,奏响转型发展的昂扬乐章
2025-12-03 22:08:00
实力圈粉!常州创意产业园区企业亮相长三角文博会
近日,第六届长三角国际文化产业博览会在上海国家会展中心圆满闭幕。常州创意产业园区企业印象乾图、有维文化科技、麦拉风受邀参展
2025-12-03 22:11:00
常州科教城瞄准具身机器人产业
当智能制造叠加信息传感、场景应用、工业互联、新材料研发……机器人在当下有了更具象、多元的定义和呈现,为产业创新升级再添亮色
2025-12-03 22:11:00
西太湖,重大项目竣工!
近日,位于常州西太湖科技产业园的威克医疗外科器械研发制造中心项目、天衍医疗扩建项目、科恩新能源智能装备生产项目相继顺利通过竣工验收
2025-12-03 22:11:00
葵花药业×淘宝闪购签署战略合作:共探“AI+超级入口”下的医药即时零售新范式
11月28日,在2025淘宝闪购“聚势共赢”医药即时电商峰会现场,葵花药业集团与淘宝闪购正式签署战略合作协议,成为淘宝闪购医药健康领域首批战略级合作伙伴之一
2025-12-03 10:11:00
解码三一重能:风电龙头的突围与出海
十月的北京,三一重能南口产业园区内,一座数十米高的风力发电机静静运转,园区内却是一派繁忙景象。作为三一集团在京重要产业集群
2025-12-03 10:11:00
摘要:本文通过对不同地区互联网企业中统计学专业毕业生薪资的对比分析,探讨薪资分布的现状及其影响因素。研究发现,一线城市和二线城市在薪资水平上存在显著差异
2025-12-03 06:16:00
“张叔叔,这银行卡的密码可不能随便告诉别人,就连短信验证码也得藏好,那可是您账户的‘第二把钥匙’”。中信银行石家庄分行网点工作人员一边为70多岁的张叔叔递上一杯水
2025-12-02 10:21:00
中国移动成功举办“AI赋能医院后勤管理新发展”论坛
2025年11月27至29日,由全国卫生产业企业管理协会医院后勤管理发展分会主办的2025年学术会议在杭州召开。中国移动受邀参加“新质生产力助力医院后勤高质量发展”主论坛
2025-12-02 11:03:00
腾讯云姚一兆:用全栈AI助力具身智能赛道加速发展
“具身智能是AI赛道中的焦点,其商业化更依赖技术平台、场景适配与生态协同。腾讯云愿意提供全栈AI服务能力,助力具身智能赛道与广大企业共同发展
2025-12-02 11:03:00
在大健康消费升级与抗衰需求爆发的今天,麦角硫因作为“线粒体级”超级抗氧化剂,已成为膳食补充剂领域的核心赛道。据天猫国际发布的《2023全球超级成分趋势白皮书》显示
2025-12-02 11:31:00
企业数字化转型不断深化,业务系统的可用性、数据安全性和架构弹性正成为企业核心竞争力的重要组成部分。云服务器作为企业 IT 基础设施的底座
2025-12-02 11:42:00
11月21日,富德生命人寿保险股份有限公司在河北石家庄举行以“全维健康守护 创造美好生活”为主题的健康险产品矩阵暨服务升级发布会
2025-12-02 12:11:00