模型,模型,数据,内存,性能,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

反击OpenAI，谷歌放出最强悍大模型Gemini

...斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

京东云发布八大领先智算产品，助力企业火速用上大模型

...，京东云发布八大极致性价比的智算产品，五种全场景大模型部署模式，同时推出“开发训练+场景应用”双引擎一站式平台，助力企业实现DeepSeek等大模型开箱即用、智能体深度开发与应用，全面打通从模型落地到产业智能升级...……更多

2025-02-27 14:14:00京东,模型,领先,产品,企业,京东

3天把Llama训成Mamba，性能不降，推理更快！

...尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。至于...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

DeepSeek的能力，到底从哪里来？

...ixabay撰文 | 张天祁● ● ●今年年初，DeepSeek发布DeepSeek-R1模型，引发全球的关注。在公开评测中，它的综合能力逼近当时的顶尖大模型，尤其在逻辑推理和数学题上展现出强劲性能，而且它的成本要远低于作比较的其他大模型。...……更多

2025-05-27 10:23:00里来,能力,模型,训练,推理,能力

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...面，DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型，分别实现了比肩OpenAI 4o和o1模型的能力。第二，DeepSeek研发的这两款模型成本更低，仅为OpenAI 4o和o1模型的十分之一左右。第三，DeepSeek把这一两大模型的技术都开源..……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

自研芯片三国杀，头部智驾新战场，蔚小理谁强？

...种不同路径；为什么一代FSD算力不大，却能跑端到端大模型；蔚来神玑一颗顶四颗，到底是多少算力？ 1颗小鹏图灵芯片，相当于3颗OrinX。 01 新势力为什么执着自研智驾芯片？最直接的原因是成本。以市场上高阶智驾车型普...……更多

2024-10-11 09:53:00头部,战场,芯片,三国,芯片,小鹏

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

智东西11月5日报道，今日，腾讯宣布开源MoE大语言模型混元Large、腾讯混元3D生成模型Hunyuan3D-1.0正式开源，并全面披露腾讯混元的全系列多尺寸模型、C端应用、B端应用版图。腾讯称混元Large是业界参数规模最大、效果最好的开...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

中国电信进一步开源12B星辰大模型

...：德宏团结报性能提升30%！中国电信进一步开源12B星辰大模型本报讯近日，中国电信开源12B参数规模星辰语义大模型TeleChat-12B，相较1月开源7B版本，内容、性能和应用等方面整体效果提升30%，其中，多轮推理、安全问题等领域...……更多

2024-04-28 11:38:00进一,中国电信,中国,星辰,模型,电信

苹果公司公布“mm1”多模态大模型

...dalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各种变量...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前的 CAD 软件普遍缺乏简易的交互工具，这在...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...赵晨阳，卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

NeurIPS Spotlight｜从分类到生成：无训练的可

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为...……更多

2024-12-06 09:52:00生成,训练,分类,生成,样本,指导

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

...。供求关系紧张是产生算力焦虑的根源所在。一方面，大模型训练与推理需求呈几何级数爆发——自2022年以来，人工智能算力需求每3~4个月就翻一番，每年训练AI模型所需算力增幅高达10倍，而生成式AI使上升曲线进一步陡峭，...……更多

2024-04-28 11:52:00小步,主动权,集群,大步,主动,国产

解析AMD Zen5架构CPU：架构革新，性能飞跃

...现各种AI加持下的文生图、图生图、重绘等操作，且具备模型管理功能。总的来说，锐龙AI300系列将为你带来完整的生态系统体验、丰富多样的产品形式、强悍极致的AI应用、卓越的性能表现以及超长的电池续航。AMDRDNA3.5架构从...……更多

2024-07-17 20:22:00架构,革新,飞跃,性能,架构,处理

AMD最强AI芯片发布：性能是英伟达H100的1.3倍！

...推出的Gaudi3将提供144GB的容量。大型内存池在LLM（大语言模型）中非常重要，LLM大多是与内存绑定的，AMD可以通过在HBM内存容量上的领先地位来提升器人工智能能力。具体来说，AMD的MI300X与英伟达的H100加速器相比：内存容量提高...……更多

2023-12-07 22:24:00英伟,芯片,性能,性能,芯片,内存

人工智能训练师与数据科学家的区别

...重于数据的收集、清洗、分析和可视化，并通过构建数据模型来解释数据。另一方面，人工智能训练师的核心职责是训练和优化AI模型。他们专注于使用机器学习和深度学习算法来开发和改进AI系统。AI训练师需要对数据进行预处...……更多

2024-06-29 02:26:00人工智能,科学家,人工,训练,智能,科学

Scaling Law百度最早提出！OpenAI/Claud

...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系，并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律，还在图像和音频上进行了测试。只不过他们使用的是 LSTM，而不是Transforme...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

中国首款操作系统级端侧模型UOS LM发布：不联网避免隐私

...日消息，今日，统信软件宣布，中国首款操作系统级端侧模型UOS LM正式发布，其中包括1.5B模型和7B模型。目前，UOS LM端侧模型面向所有统信UOS社区版（deepin V23）用户发起定向邀约内测。官方表示，统信软件率先实现国产突破，...……更多

2024-08-08 19:41:00中国,模型,隐私,系统,数据,模型

DeepSeek第二炸：开源首个用于 MoE 模型训练通信库

...出了开源代码库DeepEP王炸。据了解，DeepEP是首个用于 MoE 模型训练和推理的开源 EP 通信库，它填补了MoE模型专用通信工具的空白，为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。在这里，简单介绍一下DeepEP的技...……更多

2025-02-25 11:33:00模型,训练,通信,推理,通信,场景

RTX 40系GPU AI性能首测

...把玩家输入的语音转化为文字，然后上传至云端的大语言模型给出对应的对话回复，接着在云端把这答复转换为语音回传本地，在本地利用NVIDIAAudio2Face为游戏角色创建脸部表情动画，让嘴型对得上声音，最后通过游戏引擎输出...……更多

2024-05-04 17:17:00性能,生成,测试,创作,火星,图片

清华提出时间序列大模型：面向通用时序分析的生成式Transf

【新智元导读】大模型在语言、图像领域取得了巨大成功，时间序列作为多个行业的重要数据类型，时序领域的大模型构建尚处于起步阶段。近期，清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练，获得...……更多

2024-07-22 09:44:00时间序列,时序,清华,序列,生成,模型

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

文 | 周鑫雨编辑 | 邓咏仪当大模型加速应用落地，运行成本就成为各厂商的现实考量。将模型做小，成为现实市场需求下的趋势。但模型的Scaling Law（规模定律）已指出，参数规模是决定模型性能的最关键因素。如何用更小的参...……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

大模型应用疯狂加速，洗牌却在静悄悄进行了

...场，正面临着这个关键的过渡。截至8月底，首批8家AI大模型企业通过备案。与上半年“甚嚣尘上”的行业境况不同，具备实力且具备满腔“产业抱负”的实力型玩家，总是姗姗来迟，但却总是能够一鸣惊人，为产业的大规模应...……更多

2023-10-07 15:24:00模型,疯狂,应用,模型,腾讯,能力

宋亭亭等：DeepSeek或催化中高阶智驾加速渗透

...家架构)以及MTP(多token预测)等多种技术手段，显著提升了模型性能和训练效率。这些技术不仅有望被各家企业借鉴，以加速智驾模型的训练速度并降低训练成本，还可能直接替代此前车企选择的VLM/VLA(视觉语言模型/视觉语言动作...……更多

2025-02-12 11:10:00亭亭,高阶,催化,模型,数据,训练

AI数据之战：大模型的“燃料”还能烧多久？

...高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。近日有外媒报道，OpenAI使用所有公开可用的数据来训练ChatGPT，包括来自互联网的书籍和文章。事实上，在大模型发展如火如荼的当下，任何大模型公司对于高...……更多

2024-07-09 17:41:00燃料,模型,数据,数据,模型,语料

谷歌迄今最强芯！第七代TPU发布：内存容量高达192GB

...性能最强、最节能的 TPU。它专为大规模支持思考和推理AI模型而设计。首先在计算性能上，Ironwood实现4614 TFLOP的峰值算力，配备192GB专用RAM和7.4Tbps超高带宽，确保数据高速传输。其次，芯片间互连(ICI)带宽提升至1.2Tbps，较前代提...……更多

2025-04-10 10:47:00七代,高达,容量,内存,芯片,前代

5项重大更新，NVIDIA助力人形机器人研发迈入新阶段

...人大讲堂梳理来看，会议主要包括 Project GR00T（通用基础模型）、Jetson Thor （新计算平台）、NVIDIA Isaac Manipulator（AI 软件模块）、Isaac Perceptor（视觉 AI）、新 Isaac Lab（仿真平台）这五个方面机器人亮点。（图片来……更多

2024-05-16 15:10:00人形,机器人,机器,阶段,更新,机器人