• 我的订阅
  • 头条热搜
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多
最强数学大模型易主!阿里千问新模型成绩超GPT-4o
最强数学大模型,现在易主!阿里千问大模型团队发布的Qwen2-Math,不仅超越了Llama 3.1-405B,也战胜了GPT-4o、Claude 3.5等一系列闭源模型。而且还会解决竞赛级试题,在GPT-4只能做对一道的AIME 24中,Qwen2-Math答对的题目数量达到了两...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
长时间交通状况预测,可以用大模型实现了。香港大学联合华南理工大学和百度,推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强,可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...赵晨阳,卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算领域,与国内主流AI芯片厂商深度合作,共同搭建的「国产千卡智算集群」现已上线...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测, 仅在未来三年内,大模型规模以惊人的速度继续扩张,将增长 1000 倍。一方面,模型的参数量与其能够处理和学习的复杂性...……更多
开源大模型的ChatGPT时刻?备受期待的Llama 3 405B即将发布
...顶配,405B版本拥有4050亿个参数,是迄今为止最大的开源模型之一。昨夜凌晨,META突发Llama 3.1-405B评测数据的泄漏事件,有网友预计可能还会同时发布一个Llama 3.1-70B版本,因为“(模型提前泄露)是META的老传统了,去年的Llama模...……更多
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...爆全球AI浪潮以来,AI圈子已经迅速走过了造出了通用大模型的第一道关卡,如今最关键的问题在于——如何让大模型高效地在实际应用场景中落地?百川智能的最新实践是:用大模型+增强技术,可以大大提升企业应用大模型的...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
文 | 周鑫雨编辑 | 邓咏仪当大模型加速应用落地,运行成本就成为各厂商的现实考量。将模型做小,成为现实市场需求下的趋势。但模型的Scaling Law(规模定律)已指出,参数规模是决定模型性能的最关键因素。如何用更小的参...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
近日,上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式:SLEICL(基于强模型增强的情景学习,Strong LLM Enhanced ICL),能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多
“言出必行”马斯克,全球最大开源模型Grok真的来了
刚刚开源的 Grok,一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日,xAI 正式宣布开源大模型Grok-1的权重和网络架构。xAI 表示,开源版大模型Grok-1是一个由 xAI 从头开始训练的 314...……更多
亚马逊开发史上最大文本转语音模型
...能研究团队宣布开发了一个据称是史上最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。近年来,像ChatGPT这...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智能科...……更多
全球首个亿级参数量的地震波大模型在蓉正式发布,年底公测
...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场,全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布,标志着中国在地震监测、预警和前兆...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
苹果发布mm1.5-ui模型
...13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模型文...……更多
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训,而使用的平台就是摩尔线程国产全功能GPU MTT S4000组成的千卡集群,以及无问芯穹的AIStudio PaaS平台。这次实训充分验证了夸娥千卡智算集群在大模型训练场景下...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
Databricks推出目前最强开源 AI
3月31日消息,Databricks近日在推出了一款通用大语言模型DBRX,号称是“目前最强开源AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。从官方新闻稿中得知,DBRX是一个基于Transformer的大语言模型,采用MoE(Mixture...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看为此,Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
ibm开源“最先进”和高性能的granite代码模型
...BM现已开源其“最先进”和高性能的Granite(花岗岩)代码模型。IT之家附开源链接如下:GitHub:点此进入HuggingFace:点此进入Granite代码模型的参数范围从3B到34B,并且有基础模型和指令跟随模型两种变体,适用于复杂应用现代化...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...The Information 在最新的报道中披露,两位测试过「草莓」模型的人士表示,OpenAI 可能将在接下来的两周内发布「草莓」模型,并上线 ChatGPT。但不同于 GPT-4o、GPT-4o mini 是在优化使用体验和成本,「草莓」的目标是再一次让大模型...……更多
更多关于科技的资讯:
中新经纬12月22日电 据国家市场监督管理总局网站消息,为严格落实获证生产企业质量安全主体责任,充分发挥CCC认证管理制度“事前发力
2025-12-23 08:07:00
日前,杭州市人民政府办公厅印发《关于支持类脑智能未来产业创新发展的若干措施》,提出了一系列措施支持类脑智能产业研发创新
2025-12-23 08:15:00
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(八):产品设计共享给白沟箱包带来什么
产品设计共享给白沟箱包带来什么——河北特色产业集群共享智造故事(八)11月27日,白沟箱包数字化转型赋能中心工作人员(左二)向商户展示通过共享设计平台生成的效果图
2025-12-23 08:24:00
中旅酒店品牌焕新:以客户为中心诠释中国待客之道
当前,中国旅游市场正经历从高速增长向高质量发展的深刻转型。随着"体验经济"时代的全面到来,消费者的需求已超越简单的住宿与观光
2025-12-23 08:56:00
RGB-Mini LED、激光电视双料加冕,海信电视斩获音视频领域最高奖项
12月19日,中国电子视像行业协会在北京隆重举办了第二十一届中国音视频产业大会。会上对音视频产业取得的重大创新科技成果进行表彰
2025-12-23 08:56:00
中新经纬12月23日电 23日凌晨,快手方面对中新经纬表示,22日22时左右,平台遭到黑灰产攻击,目前已紧急处理修复中
2025-12-23 09:32:00
走进杭州西溪湿地,水道是这里的路网,船只是来往的车辆。船行鸟不惊、人过鱼不散,勾勒出一幅人与自然和谐共生的生动图景。林深处
2025-12-23 09:47:00
把资产交还给公众的人——专访闽籍网络大咖、阿里集团前副总裁卢维兴
近日,港股上市公司鼎石资本(00804.HK)发布公告,阿里集团前副总裁、阿里拍卖及阿里资产前总经理卢维兴出任联席主席
2025-12-23 09:55:00
全直营等八大服务优势加持 一嗨租车以高质量服务体系建设现代出行新生态
在国家深入实施扩大内需战略与绿色低碳转型的时代背景下,现代服务业正迎来高质量发展的关键时期。作为国民经济支柱产业之一,汽车租赁行业不仅是连接汽车制造与大众消费的关键纽带
2025-12-23 10:27:00
河北新闻网讯(田红伟)近日,邢台交建集团华赢公交公司依托自有运营数据与智能调度系统,与高德地图深化跨界合作,通过双方技术优势互补
2025-12-23 10:32:00
纽扣家庭教育获评国家级高新技术企业,以科技创新引领家庭教育
近日,纽扣家庭教育集团正式通过国家级高新技术企业认定,这一由科技部、财政部、税务总局共同监督管理的国家资质,标志着集团在核心自主知识产权
2025-12-23 10:47:00
近日,央视财经曝光旧衣回收产业链内幕、直播间售卖乱象频出的问题,坤腾再生资源有限公司被点名。据央视财经此前报道,有些主打“大牌尾货”“孤品样衣”的直播间
2025-12-23 11:40:00
钉钉发布全球首个工作智能操作系统Agent OS,专为AI打造
12月23日,AI钉钉1.1新品发布暨生态大会在杭州举办,钉钉正式发布全球首个为AI打造的工作智能操作系统——Agent OS
2025-12-23 13:39:00
长白时评评论员 唐小兰很多人有过这样的经历:拨打客服热线或点开网站的客服功能,出现的经常是智能客服。对话时对方听不懂诉求
2025-12-23 14:13:00
TATA木门以技术创新破局,筑牢可持续发展根基
随着生活水平的提高,人们对家居环境的要求也越来越高,尤其是对宁静、舒适的生活空间的需求日益增长。近日,2026TATA木门美好人居创新大会举办
2025-12-23 14:28:00