模型,参数,模型,基准,问题,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

继旗下xAI公司宣布正式开源大模型Grok-1后，特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Gr...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

全球最强开源大模型Llama 3发布：使用15T数据预训练，

就在刚刚，Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍，Llama 3 在 24K GPU 集群上训练，使用了 15T 的数据，提供了 8B 和 70B 的预训练和指令微调版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

挑战Scaling Law，Meta发布移动端350M小模型

【新智元导读】Scaling Law还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。从5月和6月...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

微软发布旗下最小语言模型phi-2

...会已拉开帷幕，微软在本次活动中发布了旗下最小的语言模型Phi-2，共有27亿参数，相比较此前版本有明显提升。注：微软于今年6月发布Phi-1，只有13亿代码，适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

苹果最新杀入开源大模型战场，而且比其他公司更开放。推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部训练过程和资源。要知道，不久前Nature杂志编辑Elizabeth Gibney还撰文批评：许多声称开源的AI模型，实际上在...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

Hugging Face发布SmolVLM开源 AI 模型：

...日（11 月 26 日）发布博文，宣布推出 SmolVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

精准狙击Llama 3.1？Mistral AI开源Larg

...所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

打乱/跳过Transformer层会怎样？最新研究揭开其信息

...得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率，还能帮助改进架构开发新的变体。谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞：很棒的总结！尽管一些实验在之前的研究中已经被展示过了，...……更多

2024-07-27 09:29:00流动,机制,研究,信息,中间层,顺序

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时，阿里云就已经预告，接下来还要再发更大规模的开源模型。12月1日，三款新模型如约而至——包括Qwen-72B、Qwen-1.8B和Qwen-Audio大模型，通义千问大模型也升级到...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instru...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

开源社区分水岭：Meta大模型Llama 3发布，参数最高或

为了保持公司在AI（人工智能）开源大模型领域的地位，社交巨头Meta推出了旗下最新开源模型。当地时间4月18日，Meta在官网上宣布公布了旗下最新大模型Llama 3。目前，Llama 3已经开放了80亿（8B）和700亿（70B）两个小参数版本，...……更多

2024-04-19 15:58:00分水,分水岭,模型,参数,社区,模型

直面大模型“大成本”挑战，如何提高算力效率？

...闻网中新网北京6月3日电 (记者夏宾)近年来，为了追求大模型的智慧能力，各国公司不停加码投入，4月，Meta宣布追加10亿美元投资，用于其AI芯片研发和AI数据中心建设；亚马逊为了建设新数据中心投入110亿美元。但在大模型扩...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

文生图参数量升至240亿！Playground v3发布：深

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于高度复...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿

?Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿捏快科技6月7日消息，Intel官方宣布，旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2（Qwen2）的全球发布提供支持，已取得ModelScope、阿里云PAI、OpenVINO等...……更多

2024-07-18 14:57:00三条,通义,阿里,模型,参数,通义

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...之心开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型‘Grok-1’，以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。在...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...，一大波测评刷屏全网。更惊喜的是，苹果AI背后的基础模型47页技术报告，也一并上线了。一大早，人们期待已久的「苹果AI」首个预览版，正式向开发者们推送了！iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中，全都植入了苹...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

...机器之心编辑部在 OpenAI 发布会的前一天，来自中国的大模型公司零一万物，让开源大模型社区活跃了起来：Yi 大模型家族新成员「Yi-1.5」模型正式开源。在项目主页可以看到，Yi-1.5 包括一系列预训练和微调模型，分为 6B、9B、3...……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群，——还...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

位列第一梯队，腾讯混元再度领跑国内大模型

5月6日记者获悉，国内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中，腾讯混元大模型位列国内大模型第一梯队，在基础和场景应用上均处于领先位置，位于卓越领导者象限。SuperCLUE是...……更多

2024-05-06 16:52:00腾讯,梯队,模型,腾讯,模型,能力

开源版OpenAI再出「神作」，小模型吊打Llama 3！M

...生一周年之际，法国AI初创公司Mistral再次连发两个轻量级模型Ministral 3B和Ministral 8B，性能赶超Llama 3 8B。Mistral 7B仅仅发布一周年，法国AI初创小模型「les Ministraux」就打败它了。它堪称是，世界上最好的边缘模型。Ministra……更多

2024-10-23 09:56:00模型,边缘,革命,模型,指令,性能