力大,架构,模型,模型,架构,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...型大小）实现了更好的性能。最后，作者结合 Transformer 架构的最新进展，例如逐层缩放、使用 MoE 的稀疏 Transformer，以提高大规模训练的性能。作者提出的低成本训练 pipeline 减少了实验开销。除了使用真实图像，作者还考虑在...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

快手「可灵」爆火：海外AI圈巨震，中国版Sora一号难求

...披露了更具参考意义的信息，主要包括从数据准备、模型架构、训练方案及优化策略几个方面。数据准备依托快手在视频技术领域的多年积累，可灵大模型团队已经构建了完备的标签体系，包括从视频基础质量、美学、自然度等...……更多

2024-06-14 09:10:00快手,中国,生成,视频,模型,文生

LeCun最新万字演讲：纯语言模型到不了人类水平，我们基本已

...此之外，他还谈到当前大模型的局限性、以目标驱动的AI架构，包括利用世界模型进行推理和规划，最后强调了开源AI的重要性。对于未来发展，他提到，最终机器将超越人类智能，但它们将受到控制，因为它们是目标驱动的。...……更多

2024-10-18 09:42:00模型,人类,水平,语言,系统,模型

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

【新智元导读】Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20

...队提出了一种名为归一化Transformer（nGPT）的新型神经网络架构。这一架构在超球面（hypersphere）上进行表示学习，能够显著提升大型语言模型（LLM）的训练速度，最高可达20倍，同时保持了模型的精度。nGPT架构的核心在于将所有...……更多

2024-10-20 15:52:00速度,训练,全新,模型,球面,上下文

Scaling Law百度最早提出！OpenAI/Claud

...。深度学习Scaling是可预测的在深度学习领域，随着模型架构的不断探索、训练数据集的不断增大以及计算能力的不断提升，模型的性能也在不断提高。然而，对于训练集大小、计算规模和模型精度之间的具体关系，一直缺乏深...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

证券行业大模型在重庆两江新区发布

...供赋能，如知识中心、研报撰写、机构自建产品线等，助力大模型技术满足多样化的复杂场景需求。RAG技术即检索增强生成是该模型的一大技术特点。基于此，在具体应用中，可自由定制构建企业的知识库，以及提供智能客服、...……更多

2024-07-11 12:56:00两江,证券行,重庆,新区,模型,证券

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...本，秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现4k分辨率。一台16GB的4090笔记本，仅需0.37秒，直接吐出1024×1024像素图片。如此神速AI生图工具，...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

黄仁勋对话Transformer七子：我们被困在原始模型里，

...名为Attention is all you need 的论文，其中所提出的Transformer架构，为当下大热的ChatGPT、Gemini等大模型打下基础，人工智能领域从此变天。论文的八位作者，也被称为“Transformer八子”。不过，八位作者后来也陆续离开谷歌。除Lukasz K.……更多

2024-03-22 00:03:00架构,模型,对话,模型,数据,资源

$大模型\\\$

大模型\"吞金\"时代，CTO们\"存力焦虑\"怎么解？

...的要求会更高，届时唯有具备弹性扩展能力的分布式存储架构，才能支撑未来3-5年的AI进化需求。在与多个客户深入交流后，京东云方面发现，除了国产化层面的要求，对海外存储厂商的祛魅逐渐成为行业共识，国外的月亮不一...……更多

2025-04-08 17:41:00焦虑,模型,时代,存储,京东,数据

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...用扩散模型（diffusionprobabilisticmodels）技术，基于Transformer架构，但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

戴尔以技术创新推动AI基础架构升级

...化AI计算平台加速智能跃迁众所周知,传统数据中心的典型架构是以CPU为中心,而今天在大模型训练和推理需求的推动下,CPU+GPU为代表的异构计算正在成为主流,GPU成为越来越多服务器的标准配置。顺应市场的需求,戴尔科技推出了多...……更多

2024-04-22 18:00:00戴尔,技术创新,架构,升级,基础,技术

开源AI进入企业！红帽揭秘混合AI落地关键，端到端AI平台三

...帽大中华区资深市场总监赵文斌、红帽大中华区解决方案架构部高级总监王慧慧、红帽中国首席架构师张家驹与智东西等少数媒体进行了深入交流。谈到算力目前受到极高的关注度，曹衡康谈道，算力只是短期的一个焦点问题，...……更多

2024-06-14 09:13:00三步走,红帽,落地,混合,关键,平台

听得懂、看得见、找得到！理想汽车下一代自动驾驶架构MindV

...听得懂、看得见、找得到。该技术基于端到端和VLM双系统架构，通过3D空间编码器和逻辑推理生成合理的驾驶决策，并利用扩散模型优化驾驶轨迹，整个过程需在车端实时运行。 MindVLA采用3D高斯作为中间表征，利用海量数据进...……更多

2025-03-18 11:55:00下一代,架构,驾驶,理想,汽车,模型

马斯克打脸OpenAI！全球最大模型Grok-1开源

...开源开放，用户可直接通过磁链下载基本模型权重和网络架构信息。（图/钛媒体）xAI表示，Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家（MOE）模型，远超OpenAI的GPT模型。...……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...最基础的介绍，而最最重要的信息就是，它不再是一个DiT架构的模型，也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说，在这个项目里最大的发现就是：数据，算力...……更多

2024-10-08 09:51:00模型,不用,奇迹,视频,视频,模型

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...，加速行业创新步伐。据技术报告，在混元视频生成模型架构设计与训练中，采用了多个创新技术：包括通过新一代本文编码器提升语义遵循，自研 3D 视觉编码器支持图像视频混合训练，通过全注意力机制提升画面运镜能力，...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

比AI更热的行业，跑出了头部选手

...技术也正在迎来技术变革。那么首先要变革的，就是底层架构。在车辆的电子电气架构方面，特斯拉是早期变革者，在2012年 Model S有较为明显的功能域划分，包括动力域、底盘域、车身域， ADAS模块，到2017 年特斯拉又在Model3 突...……更多

2023-12-31 10:42:00头部,选手,行业,架构,新能源,技术

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...现模型成本的降低的呢？郑纬民指出，“DeepSeek自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

...覆性技术路线创新，北京将设立创新专项，前瞻布局新型架构芯片、脑智能、类脑智能等新路径探索，《若干措施》择优纳入市级科技研发计划，最高支持3000万元。在数据方面，鼓励各类主体开放共享高质量训练数据，根据数...……更多

2024-04-28 11:00:00大佬,清华,微软,重磅,北京,蚂蚁

中昊芯英与深圳联通携手共建广东首个国产TPU 智算中心

...积累与优势互补。据了解，中吴芯英作为国内领先的TPU 架构AI 芯片企业，此次提供了搭载其自主研发的高性能 TPU 芯片“刹那®”的人工智能服务器及大规模AI计算集群系统“泰则®”，为项目搭建坚实的AI 计算底座。深圳联通则...……更多

2024-09-13 11:54:00中昊,广东,深圳,国产,中昊,深圳

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...头共享键和值的分组查询注意力。研究团队注意到，这种架构与许多 Mamba 系统中使用的架构不同，这种初始化允许用线性 RNN 块替换任何注意力块。该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

amd推出10亿参数语言模型系列amdolmo

...力。IT之家援引新闻稿，OLMo模型采用解码器（decoder-only）架构，并通过下一个标记预测（next-tokenprediction）进行训练，这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比，AMDOLMo在推理能力和聊天能力上表...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础，但其核心算法注意力机制存在先天问题：为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较，导致处理文本越长...……更多

2025-02-19 18:43:00文锋,对大,注意力,模型,意味,机制

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...空间。从模型本身角度看，需要更具突破式创新的新模型架构，它应该更高效压缩视频信息，更充分融合文本和视频内容，贴合用户指令的同时，让生成内容真实感更高。2.自研DiT架构清影底座的视频生成模型是CogVideoX，它将文...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

Sora背后团队：成立不到1年，站在谷歌肩头，应届博士带队

...空Patch）技术和DiffusionTransformer（DiT，或扩散型Transformer）架构。Sora官网截图记者查询这两项技术的原作论文发现，时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导..……更多

2024-02-19 15:59:00肩头,背后,团队,博士,团队,架构