• 我的订阅
  • 头条热搜
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率,还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞:很棒的总结!尽管一些实验在之前的研究中已经被展示过了,...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型。12月1日,三款新模型如约而至——包括Qwen-72B、Qwen-1.8B和Qwen-Audio大模型,通义千问大模型也升级到...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
...闻网中新网北京6月3日电 (记者 夏宾)近年来,为了追求大模型的智慧能力,各国公司不停加码投入,4月,Meta宣布追加10亿美元投资,用于其AI芯片研发和AI数据中心建设;亚马逊为了建设新数据中心投入110亿美元。但在大模型扩...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于高度复...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
?Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏快科技6月7日消息,Intel官方宣布,旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的全球发布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...机器之心编辑部在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、3...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
5月6日 记者获悉,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是...……更多
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
...生一周年之际,法国AI初创公司Mistral再次连发两个轻量级模型Ministral 3B和Ministral 8B,性能赶超Llama 3 8B。Mistral 7B仅仅发布一周年,法国AI初创小模型「les Ministraux」就打败它了。它堪称是,世界上最好的边缘模型。Ministra……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
amd推出10亿参数语言模型系列amdolmo
...10月31日发布博文,宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo,为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列(LMs),在AMDInstinct™MI250GPU集群上训练,使用了超过1.3...……更多
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型优异成绩。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI fo...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
更多关于科技的资讯:
极越07经历两次雷击测试:全车正常工作 一个故障码都没
快科技11月24日消息,日前,极越汽车CEO夏一平发视频称,为了验证车辆被雷劈后是否会起火、车机能否正常工作,极越联合天津中汽中心进行了一场极越07雷击测试
2024-11-24 07:58:00
微信、支付宝突然下架中国移动30元小额话费充值 河南等六省受影响
快科技11月24日消息,日前,中国移动手机号突然无法在微信、支付宝等第三方平台充值30元及以下面额的话费,对充值小面额话费的消费者非常不便
2024-11-24 07:58:00
今年前三季度厦门共举办展览120场 会展经济动能十足
厦门咖啡展汇聚全球400多家咖啡品牌企业,现场人气高涨。市民游客在亚洲运动用品与时尚展(厦门站)上体验产品。厦门网讯(厦门日报记者 吴君宁 图/主办方提供)这个周末
2024-11-24 08:28:00
意风区 “老爷车”巡展 扫码阅读手机版
天津北方网讯:“老爷车”来啦!作为中国国际消费中心城市(天津)精品消费月的重头戏之一,昨日,传统经典车巡展活动在河北区举行
2024-11-24 08:54:00
前三季度百万级豪车销量榜:仰望U8排名第十 成唯一上榜的国产车
快科技11月24日消息,日前,易车榜发布了2024年前三季度百万级豪车销量榜。榜单显示,路虎是国内百万级豪车的最大赢家
2024-11-24 08:58:00
中建八局一公司举办2024年高处作业机械设备实训营活动
大众网记者 魏俊怡 济南报道为提升安全管理人员对高空作业机械设备的操作技能和安全管理能力,中建八局一公司于11月21日举办2024年高处作业机械设备实训营活动
2024-11-24 09:18:00
丰田86总工程师多田哲哉体验比亚迪海豹:日本电动车跟它比全输了
快科技11月24日消息,近期,丰田86总工程师多田哲哉将比亚迪海豹评选为了年度车型,并发表了体验评价。多田哲哉表示,许多日本人对中国制造持负面态度
2024-11-24 09:58:00
史诗级加强!微信Windows PC版支持发布朋友圈:落后苹果macOS三年
快科技11月24日消息,日前,微信Windows PC版发布4.0.1内测更新,微信迎来史诗级加强——支持发布朋友圈。在微信PC 4
2024-11-24 09:58:00
两台蔚来自动泊车抢同一个车位:没有撞 两车还会相互礼让
快科技11月24日消息,日前,有博主使用两台蔚来ET7,进行自动泊车抢同一个车位的测试。视频中,两台蔚来ET7横向停放在车位前方
2024-11-24 10:28:00
贵州王丙乾酒业与金六福珠宝达成战略合作,共谱品质生活新篇章
2024年11月23日,一场意义非凡的战略合作仪式在贵州省贵阳市贵州王丙乾全国运营中心隆重举行。贵州王丙乾全国运营中心与享有盛誉的金六福珠宝集团正式达成战略合作
2024-11-24 10:54:00
一夜涨粉超百万!前体操冠军吴柳芳擦边争议后直播发声:做好自己
快科技11月24日消息,日前,奥运会冠军管晨辰与前体操冠军吴柳芳在评论区大战引起网友热议。事情起因是,吴柳芳发布了一系列跳舞视频
2024-11-24 10:58:00
成都财博立新教育咨询有限公司:电商创业的新起点
随着互联网的飞速发展,电商行业在我国逐渐崛起,吸引了无数创业者投身其中。在众多电商培训机构中,成都财博立新教育咨询有限公司脱颖而出
2024-11-24 11:15:00
新书揭秘黄仁勋1997年豪言:我们要消灭Intel!
快科技11月24日消息,专栏作家Tae Kim即将出版的新书《NVIDIA Way》中,揭示了NVIDIA与Intel之间的一段竞争史
2024-11-24 11:28:00
被中国版宾利豪车梦拖累!网传大运汽车发布重整声明
快科技11月24日消息,据腾讯新闻《一线》报道,11月23日,大运汽车内部发布《关于大运汽车重整的声明》,回应近期破产相关传闻
2024-11-24 11:58:00
台积电37年首次赴美举行董事会!真要成“美积电”了
快科技11月24日消息,据媒体报道,台积电成立37年来,明年第一季将首度移师美国召开董事会。台积电董事之一的刘镜清证实
2024-11-24 12:28:00