• 我的订阅
  • 头条热搜
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Gr...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B以下,两个版本分别只有125M和350M参数,但却实现了比更大规模模型更优的性能。从5月和6月...……更多
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率,还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞:很棒的总结!尽管一些实验在之前的研究中已经被展示过了,...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...12日消息,360公司日前在GitHub上开源了360智脑7B(70亿参数模型)。360智脑大模型采用3.4万亿Tokens的语料库训练,以中文、英文、代码为主,开放4K、32K、360K三种不同文本长度。360表示,360K(约50万字)是当前国产开源模型文本长...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型。12月1日,三款新模型如约而至——包括Qwen-72B、Qwen-1.8B和Qwen-Audio大模型,通义千问大模型也升级到...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instru...……更多
开源社区分水岭:Meta大模型Llama 3发布,参数最高或达4000亿
为了保持公司在AI(人工智能)开源大模型领域的地位,社交巨头Meta推出了旗下最新开源模型。当地时间4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,...……更多
...闻网中新网北京6月3日电 (记者 夏宾)近年来,为了追求大模型的智慧能力,各国公司不停加码投入,4月,Meta宣布追加10亿美元投资,用于其AI芯片研发和AI数据中心建设;亚马逊为了建设新数据中心投入110亿美元。但在大模型扩...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于高度复...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
?Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏快科技6月7日消息,Intel官方宣布,旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的全球发布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...机器之心编辑部在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、3...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
5月6日 记者获悉,国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是...……更多
开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI革命开启
...生一周年之际,法国AI初创公司Mistral再次连发两个轻量级模型Ministral 3B和Ministral 8B,性能赶超Llama 3 8B。Mistral 7B仅仅发布一周年,法国AI初创小模型「les Ministraux」就打败它了。它堪称是,世界上最好的边缘模型。Ministra……更多
amd推出10亿参数语言模型系列amdolmo
...10月31日发布博文,宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo,为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列(LMs),在AMDInstinct™MI250GPU集群上训练,使用了超过1.3...……更多
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型优异成绩。基于Qwen-72B,大中型企业可开发商业应用,高校、科研院所可开展AI fo...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
专家模型不要专家并行!微软开源MoE新路径
...日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法...……更多
更多关于科技的资讯:
中新经纬10月31日电 (魏薇)“跨境支付服务远不止‘把钱收回来’,更包括基于跨境贸易生态的增值服务、基于交易数据的供应链金融等
2025-10-31 19:12:00
邢台市经开区:创力科技与中建科工举行签约仪式
图片来源:河北省科学技术厅近日,邢台市经开区河北创力机电科技有限公司与中建科工智能科技有限公司举行签约仪式。邢台市经开区相关负责同志
2025-10-31 20:51:00
中新经纬10月31日电 国家发展改革委政策研究室副主任、新闻发言人李超表示,鼓励小、散、低效的存量算力设施向集约化、高效率转变
2025-10-31 13:34:00
企业选型终极指南:基于预算与行业,中国GEO服务商推荐(附TOP10指标对比)
在AI重构流量分配规则的2025年,生成式AI搜索优化(GEO)已成为企业不可或缺的战略投入。然而,面对市场上众多的GEO服务商
2025-10-31 11:00:00
增压好的热水器推荐:万和多款热水器待你选择
在城镇化加速与高层住宅普及的当下,老旧小区管道老化、高层建筑水压衰减等问题愈发突出,不少家庭正遭受 “细流澡”“忽冷忽热” 的沐浴困扰
2025-10-30 08:16:00
创新,是让世界重新认识中国制造
“创新”,这个词我们每天都在说。要让世界记住中国制造的创新,一定是要让人们能看得见、记得住、感受到。我给大家分享几个小故事
2025-10-30 08:35:00
河北日报讯(记者孙青)为激发青年创业活力,点燃青年创业梦想,日前,团石家庄市委正式启动“青年创业训练营——青年小店孵化计划”
2025-10-30 08:36:00
当故宫的红墙金瓦凝缩成书签的精致纹路,当敦煌的飞天壁画跃然咖啡杯的杯身,博物馆中的千年文明正通过文创产品打开新的传承通道
2025-10-30 08:44:00
校宝智慧校园发布招生智能化解决方案,为民办教育注入增长新动能
2025年10月29日,校宝智慧校园正式推出面向民办、国际化学校的招生智能化解决方案,包含流量获取、线索转化、组织建设与数据决策四大核心板块
2025-10-30 09:10:00
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话
近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人
2025-10-30 09:10:00
服务效能持续提升 中老年多元化保障需求凸显近日,中宏保险正式发布了《2025年第三季度中宏保险个险理赔服务报告》(以下简称"报告")
2025-10-30 09:10:00
AI+人工双核验:深瞳查重如何以精准核查守护科研诚信
在科研诚信日益重要的今天,图片查重已成为维护科研诚信的关键环节手段。作为国内首家推出图片查重服务的深瞳查重,深瞳查重始终将结果的准确性和可靠性放在首位
2025-10-30 09:10:00
德明利亮相安博会,推出面向智能安防的多维度存储解决方案
10月28日,深圳CPSE安博会在福田会展中心顺利开幕,展会聚焦AI与大数据的智能安防创新。德明利携工业级存储产品及多维矩阵方案亮相
2025-10-30 09:10:00
碧欧宝亮相2025德国品牌周,于外滩百年地标演绎德式健康美学
2025年10月23日,由德国工商总会主办的“Discover Germany 德国品牌周”在外滩百年地标老市府隆重启幕
2025-10-30 10:10:00
留学常用APP与交友软件推荐:学习、生活、社交一站式搞定
即将远赴海外求学,除了收拾行囊,在手机里提前装好实用的留学APP,也成了许多准留学生的必备功课。面对应用商店里海量的留学常用APP选择
2025-10-30 10:56:00