• 我的订阅
  • 头条热搜
谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo
谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
...策略。我们深入研究了统计学在AI算法开发、数据分析和模型优化方面的作用。通过采用统计学方法,可以提高AI系统的性能、准确性和稳定性,从而更好地满足不同应用领域的需求。此外,我们还探讨了在AI系统中应用统计学方...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
【新智元导读】谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型,又上新了!就...……更多
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品|搜狐科技作者|郑松毅2024年已过半,大模型之争热度不减,通往AGI的路究竟该怎么走?近日,清华大学计算机系讲席教授、人工智能研究院基础模...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算领域,与国内主流AI芯片厂商深度合作,共同搭建的「国产千卡智算集群」现已上线...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
...:德宏团结报性能提升30%!中国电信进一步开源12B星辰大模型本报讯 近日,中国电信开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域...……更多
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
【新智元导读】小模型时代来了?OpenAI带着GPT-4o mini首次入局小模型战场,Mistral AI、HuggingFace本周接连发布了小模型。如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。小模型的战场,打起来了!继GPT-4o mini、Mistral Ne……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...著的能力跟进,可见其技术发展与创新的潜力。除了Gemini模型外,Gemma这一系列轻量级的SOTA开放模型似乎与我们距离更近。它基于Gemini模型相同的研究和技术构建,旨在让每个人都拥有构建AI的工具。谷歌持续扩展Gemma家族,包...……更多
谷歌发布gemma2大语言模型,共有两种大小
...布新闻稿,面向全球研究人员和开发人员发布Gemma2大语言模型,共有90亿参数(9B)和270亿参数(27B)两种大小。Gemma2大语言模型相比较第一代,推理性能更高、效率更高,并在安全性方面取得了重大进步。谷歌在新闻稿中表示...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
12月22日,国内首个官方“大模型标准符合性评测”结果公布,百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称,上述四款模型符合《人工智能大规模预训练模型第2部分:评...……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下,模型在特...……更多
微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!
...乎「配得上」这个体量?GPT-3.5只有200亿参数?今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusio...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
【CNMO新闻】“大模型时代,夸克有巨大机会创造出革新性搜索产品。”11月22日,夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示,夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单,...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
近日,上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式:SLEICL(基于强模型增强的情景学习,Strong LLM Enhanced ICL),能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
2024年4月17日,在「天工」大模型一周年之际,昆仑万维重磅宣布,「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天,第一版天工大模型正式对外发布上线,一年来我们不断迭代模型,迭代应用...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...的首个听筒/免提双模卫星通话,首个端侧应用70亿参数大模型,首次亮相的潮汐架构等诸多前沿技术。此次宣布的全新技术组合将全面落地下一代旗舰产品FindX7系列,为2024年旗舰手机树立全新的技术标杆,并为消费者带来刷新...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键词:TF-IDF;决策树...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...新闻网2023年4月17日,昆仑万维发布自研双千亿级大语言模型“天工1.0”。即将到来的2024年4月17日,在“天工”大模型一周年之际,昆仑万维重磅宣布,“天工3.0”正式开启公测!“天工3.0”采用4千亿级参数MoE混合专家模型,并...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
更多关于科技的资讯:
人工智能不仅是一种技术,也是一个产业,更是一个时代。最近,AI杭州的目光纷纷投向钱江世纪城。先是长三角首个“芯-模-用”全链条AI产业社区芯模社区启航
2025-12-08 07:52:00
为期三天的消费狂欢落下帷幕!12月7 日,第六届杭州市中小商贸流通企业服务节暨2025惠民汽车消费季在拱墅区运河广场圆满收官
2025-12-08 07:52:00
刘沛雨摘要:本文主要从转型升级时期中小企业的管理创新方面展开分析,在市场发展变化迅速的局面下,通过应用一些管理创新手段和方法
2025-12-08 05:10:00
正值中国首个跨境电商综试区——杭州综试区设立十周年,也恰逢亚马逊全球开店(以下简称“亚马逊”)业务在中国开展运营十周年的重要里程碑
2025-12-08 07:21:00
杭州商业航天产业迎来重磅落子。近日,箭元科技与钱塘(新)区签署协议,其“元行者一号”液体运载火箭回收复用基地正式落地钱塘(新)区前进智造园
2025-12-07 08:23:00
近日,一项重要国家标准——《电磁兼容 电磁兼容标准起草导则》工作会议在云栖小镇召开。这份由上海机器人产业技术研究院牵头起草的文件
2025-12-07 08:53:00
湖北农发旗下米来生物荣获2025欧洲食品配料展食品与饮料技术创新大奖
12月2日,法国巴黎,在欧洲食品科技领域最具影响力的盛会——欧洲食品配料展(Food Ingredients Europe
2025-12-07 16:44:00
当城市核心区的物理空间增长几近饱和,未来的竞争力新高地何在?12月5日,一场发布会以别开生面的“数字气味”体验开场,为上城区加快建设中央创新区(CID)的战略发布
2025-12-07 07:21:00
日前,山西转型综改示范区入区企业山西恒真真空玻璃科技有限公司自主研发的新产品——“真空发热玻璃”上市。这一产品将高效真空玻璃技术与新型半导体制热技术深度融合
2025-12-07 07:32:00
生产设备共享给清河羊绒带来什么——河北特色产业集群共享智造故事(四)纱线在电脑横机上来回穿梭、电商平台的提示音此起彼伏……随着冬季来临
2025-12-06 08:04:00
厦门移动智慧康养产品亮相首届海峡两岸(厦门)银发博览会
市民现场体验移动随心屏(闺蜜机)的AI舌象问诊功能。厦门网讯 (文/厦门日报记者 许晓婷 王玉婷 通讯员 陈奕珣 图/厦门移动 提供)伸出舌头拍一拍
2025-12-06 08:26:00
厦门网讯 (厦门日报记者 林露虹)刷到一部微短剧,不知不觉被剧情吸引,回过神来看介绍,发现竟是AI参与制作的。类似经历
2025-12-06 08:26:00
从“手搓”到“智造” 厦门跑步机“跑”向全球
厦门网讯 (厦门日报记者 詹文 林健华)在位于同安工业集中区的生产车间里,一节一节钢板正传送上激光切割台,自动切割、打孔
2025-12-06 08:26:00
共建共享破局资源瓶颈:临沂联通与电信合作以5G RedCap创新实现业务与服务双突破
鲁网12月5日讯近日,临沂联通与临沂电信深度践行国家共建共享战略,成功完成全省首个基于电信800M频段的5G RedCap技术承载联通物联网专网业务的商用落地
2025-12-06 13:44:00
中国青年报客户端讯(中青报·中青网记者张均斌)近日,“中央引导地方”专项科技赋能文化方向立项课题——“面向文博场景的智能伴游导览系统研发及示范应用”启动会
2025-12-06 15:25:00