• 我的订阅
  • 头条热搜
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率,还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞:很棒的总结!尽管一些实验在之前的研究中已经被展示过了,...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型。12月1日,三款新模型如约而至——包括Qwen-72B、Qwen-1.8B和Qwen-Audio大模型,通义千问大模型也升级到...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
...闻网中新网北京6月3日电 (记者 夏宾)近年来,为了追求大模型的智慧能力,各国公司不停加码投入,4月,Meta宣布追加10亿美元投资,用于其AI芯片研发和AI数据中心建设;亚马逊为了建设新数据中心投入110亿美元。但在大模型扩...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
微软推出14b参数“最先进”小型语言模型
...13日消息,微软今天宣布推出14B参数“最先进”小型语言模型(SLM)Phi-4,除了传统的语言处理外,它还擅长数学等领域的复杂推理。Phi-4是Phi系列小型语言模型的最新成员,官方表示其展示了微软继续探索SLM边界的可能性。官方...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于高度复...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
?Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏快科技6月7日消息,Intel官方宣布,旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的全球发布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tülu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...机器之心编辑部在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、3...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」 知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
5月6日 记者获悉,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是...……更多
更多关于科技的资讯:
内功修炼+市场开拓 河钢张宣科技镀锌产线强势创效
河北新闻网讯(董佳倩)近日,河钢集团张宣科技传来捷报,其镀锌产线凭借“内功修炼+市场开拓”实现经营创效。9月份,该公司镀锌丝产品销量环比增长77%
2025-10-27 18:01:00
全球合同管理系统市场正以15.5%的年复合增长率狂奔,443.9亿元的庞大市场背后,是AI技术对传统合同管理方式的彻底颠覆
2025-10-27 17:36:00
鲁网10月27日讯10月24日,记者在青岛市崂山区委宣传部召开的媒体见面会上获悉,近年来,青岛市崂山区以前瞻布局推动虚拟现实产业高质量发展
2025-10-27 16:24:00
京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验
随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术
2025-10-27 15:39:00
电机能效提升领域再添标杆!25 项产品 / 技术入选全国节能降碳示范名单
为深入贯彻国家 “双碳” 战略,加快电机领域节能降碳技术创新与成果转化,中国电子节能技术协会此前启动 “全国节能降碳示范产品 / 技术推荐” 征集工作
2025-10-27 15:42:00
吉刻现场|硬核登场!吉林选手角逐第三届全国博士后创新创业大赛
10月26日,第三届全国博士后创新创业大赛在福建泉州(晋江)开幕。本届大赛,吉林省派出23个项目团队组成的参赛队伍角逐三个大赛道
2025-10-27 14:09:00
厦心医院实现手术\
厦门网讯(厦门日报记者 楚燕 通讯员 许良友 付磊 刘云芳)10月23日,一项载入医学史册的创新手术在厦门大学附属心血管病医院(以下简称“厦心医院”)圆满完成
2025-10-27 08:11:00
新闻纵深·解码钢铁大模型|邯钢构建六大领域全链条智能大模型:“聪明大脑”带来极致能效
邯钢构建六大领域全链条智能大模型“聪明大脑”带来极致能效编者按当钢铁遇上人工智能,一场“智变”正悄然发生。为生动展现人工智能为钢铁产业生产
2025-10-27 08:12:00
第十一届NJSD软件开发者会议在软件谷举行江苏规模最大,1400名软件工程师在宁“聚会”南报网讯(记者于洁尘通讯员林园园)70多位业界“大咖”登台演讲
2025-10-27 08:20:00
南报网讯(通讯员郑瑞于品华杨刚记者徐宁)近日,南化公司自主研发的橡胶防老剂中间产品RT培司(4-氨基二苯胺)除盐技术取得突破
2025-10-27 08:21:00
南报网讯(通讯员杨淏涵记者张希)日前,南京林业大学与乐惠国际南京基地签署《校企全面合作协议》《产业研究院共建协议》,全面开启校企战略合作
2025-10-27 08:22:00
高效,是都市青年的通行证:InstaShake以“一杯营养”重塑健康生活方式 —— 新锐品牌以“零添加、无预制、纯手工”的坚守,为上海都市人群注入鲜活能量
在生活节奏不断加速的上海,追求健康与追求效率似乎成为一道单选题。然而,新锐健康饮品品牌InstaShake正以其独特的“零添加
2025-10-27 08:39:00
济宁银行锚定金融“五篇大文章” 多维发力赋能区域经济高质量发展
鲁网10月27日讯近年来,济宁银行围绕做好金融“五篇大文章”,深入洞察科技企业、中小微企业以及重点产业链金融需求,以产品创新破解融资难题
2025-10-27 11:07:00
汪昌莲据《经济日报》报道,“两三元就能买品牌饼干薯片”“上百种散装零食任意挑选”……从县城到乡镇,在街角与量贩零食店不期而遇已成逛街“标配”
2025-10-27 11:10:00
受冷空气影响,气温先降后升,27日早晨气温较低。26日夜间到27日白天晴间多云,北风转南风2~3级,最低气温市区4℃左右
2025-10-27 11:28:00