模型,性能,训练,模型,训练,数据头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。在...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

全球最强开源大模型Llama 3发布：使用15T数据预训练，

就在刚刚，Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍，Llama 3 在 24K GPU 集群上训练，使用了 15T 的数据，提供了 8B 和 70B 的预训练和指令微调版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

中科大联合华为诺亚Entropy Law，揭秘大模型性能、数

...力于推动人工智能领域的技术创新和发展。数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。直觉上，高质量的样本在教授 LLM 上预期会有更好的效率。因此，现有方法通常专注于基于质量的数据选择。...……更多

2024-07-23 09:41:00诺亚,华为,模型,性能,联合,数据

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

浪潮信息推出as13000g7-n系列

...步伐，于近日推出分布式全闪存储AS13000G7-N系列，专为大模型优化而设，为数据存储带来革命性的突破。该系列依托浪潮信息自研分布式文件系统，搭载新一代数据加速引擎DataTurbo，通过盘控协同、GPU直访存储、全局一致性缓存...……更多

2024-06-16 10:27:00浪潮信息,浪潮,信息,模型,数据,训练

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经成为克服训练故障、保障训练进度和提...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。在多个权威评测中，元象MoE效果大幅超越多...……更多

2024-09-18 13:36:00中国,商用,模型,参数,模型,专家

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

壁仞科技申请一种模型训练的节点组网方法及装置专利，可提高整体

...息显示，北京壁仞科技开发有限公司申请一项名为“一种模型训练的节点组网方法及装置”的专利，公开号CN 119676089 A，申请日期为2024年12月。专利摘要显示，本公开提供一种模型训练的节点组网方法及装置，其中所述方法包括...……更多

2025-03-26 21:23:00训练,节点,装置,模型,整体,性能

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

【新智元导读】小模型时代来了？OpenAI带着GPT-4o mini首次入局小模型战场，Mistral AI、HuggingFace本周接连发布了小模型。如今，苹果也发布了70亿参数小模型DCLM，性能碾压Mistral-7B。小模型的战场，打起来了！继GPT-4o mini、Mistral Ne……更多

2024-07-22 09:41:00血战,强势,模型,苹果,模型,数据

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

让大模型能快速、准确、高效地吸收新知识！被EMNLP 2024收录的一项新研究，提出了一种检索增强的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

模型即服务，卓世科技MaaS平台 2.0 正式上线

引言：MaaS(ModelasaService，模型即服务)是一种将人工智能算法模型及其相关能力封装成服务，以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度，并提升人工智能技术的综合应用效能的模式。上新了...……更多

2024-08-07 09:45:00模型,服务,平台,科技,模型,数据

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

大模型时代结束？大佬齐预测：AI模型或需先缩小规模，才能再次

【新智元导读】小模型强势来袭，「大模型时代」或将落幕？「小模型周」过去了，小模型的最新战场才刚刚开辟。上周GPT-4o mini和Mistral NeMo二连发，「麻雀虽小，五脏俱全」的小模型成为业界大佬密切关注的新方向。这么说...……更多

2024-07-23 09:40:00大佬,模型,规模,再次,时代,模型

具身智能竞速时刻，百度百舸提供全栈加速方案

...晰。每一家企业都面临着同样的核心命题：如何将前沿的模型能力，转化为在真实世界各类场景中可规模化应用落地的机器人产品？这背后，是研发团队对模型迭代速度的极致追求。企业亟需突破算力瓶颈、简化工程复杂性、缩...……更多

2025-08-13 17:25:00百舸,竞速,时刻,智能,方案,模型

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模

...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型，旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同，语义分割模型能够为图...……更多

2023-11-15 01:02:00语义,全息,高质量,模型,任务,学习

全球科研团队竞逐低成本AI模型研发新范式

...外版美国斯坦福大学等机构研究团队近日宣布，在基座大模型基础上，仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心（OpenAI）开发的o1、中国深度求索公司的DeepSeek-R1等，...……更多

2025-02-27 05:08:00范式,模型,科研,团队,成本,全球

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

苹果最新杀入开源大模型战场，而且比其他公司更开放。推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部训练过程和资源。要知道，不久前Nature杂志编辑Elizabeth Gibney还撰文批评：许多声称开源的AI模型，实际上在...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

OpenCity大模型预测交通路况，零样本下表现出色，来自港

长时间交通状况预测，可以用大模型实现了。香港大学联合华南理工大学和百度，推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强，可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

微软、英伟达纷纷押注小模型，大模型不香了？

...发展的道路上，科技巨头们曾经竞相开发规模庞大的语言模型，但如今出现了一种新趋势：小型语言模型（SLM）正逐渐崭露头角，挑战着过去“越大越好”的观念。视觉中国当地时间8月21日，微软和英伟达相继发布了最新的小型...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

NeurIPS 2024 | FaceChain团队新作，开

...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后，FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作，FaceChain-FACT。继 TransFace 之后，FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸