力大,架构,模型,模型,架构,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

【新智元导读】Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20

...队提出了一种名为归一化Transformer（nGPT）的新型神经网络架构。这一架构在超球面（hypersphere）上进行表示学习，能够显著提升大型语言模型（LLM）的训练速度，最高可达20倍，同时保持了模型的精度。nGPT架构的核心在于将所有...……更多

2024-10-20 15:52:00速度,训练,全新,模型,球面,上下文

Scaling Law百度最早提出！OpenAI/Claud

...。深度学习Scaling是可预测的在深度学习领域，随着模型架构的不断探索、训练数据集的不断增大以及计算能力的不断提升，模型的性能也在不断提高。然而，对于训练集大小、计算规模和模型精度之间的具体关系，一直缺乏深...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

证券行业大模型在重庆两江新区发布

...供赋能，如知识中心、研报撰写、机构自建产品线等，助力大模型技术满足多样化的复杂场景需求。RAG技术即检索增强生成是该模型的一大技术特点。基于此，在具体应用中，可自由定制构建企业的知识库，以及提供智能客服、...……更多

2024-07-11 12:56:00两江,证券行,重庆,新区,模型,证券

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...本，秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现4k分辨率。一台16GB的4090笔记本，仅需0.37秒，直接吐出1024×1024像素图片。如此神速AI生图工具，...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

黄仁勋对话Transformer七子：我们被困在原始模型里，

...名为Attention is all you need 的论文，其中所提出的Transformer架构，为当下大热的ChatGPT、Gemini等大模型打下基础，人工智能领域从此变天。论文的八位作者，也被称为“Transformer八子”。不过，八位作者后来也陆续离开谷歌。除Lukasz K.……更多

2024-03-22 00:03:00架构,模型,对话,模型,数据,资源

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...用扩散模型（diffusionprobabilisticmodels）技术，基于Transformer架构，但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

开源AI进入企业！红帽揭秘混合AI落地关键，端到端AI平台三

...帽大中华区资深市场总监赵文斌、红帽大中华区解决方案架构部高级总监王慧慧、红帽中国首席架构师张家驹与智东西等少数媒体进行了深入交流。谈到算力目前受到极高的关注度，曹衡康谈道，算力只是短期的一个焦点问题，...……更多

2024-06-14 09:13:00三步走,红帽,落地,混合,关键,平台

戴尔以技术创新推动AI基础架构升级

...化AI计算平台加速智能跃迁众所周知,传统数据中心的典型架构是以CPU为中心,而今天在大模型训练和推理需求的推动下,CPU+GPU为代表的异构计算正在成为主流,GPU成为越来越多服务器的标准配置。顺应市场的需求,戴尔科技推出了多...……更多

2024-04-22 18:00:00戴尔,技术创新,架构,升级,基础,技术

马斯克打脸OpenAI！全球最大模型Grok-1开源

...开源开放，用户可直接通过磁链下载基本模型权重和网络架构信息。（图/钛媒体）xAI表示，Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家（MOE）模型，远超OpenAI的GPT模型。...……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...最基础的介绍，而最最重要的信息就是，它不再是一个DiT架构的模型，也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说，在这个项目里最大的发现就是：数据，算力...……更多

2024-10-08 09:51:00模型,不用,奇迹,视频,视频,模型

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...，加速行业创新步伐。据技术报告，在混元视频生成模型架构设计与训练中，采用了多个创新技术：包括通过新一代本文编码器提升语义遵循，自研 3D 视觉编码器支持图像视频混合训练，通过全注意力机制提升画面运镜能力，...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

比AI更热的行业，跑出了头部选手

...技术也正在迎来技术变革。那么首先要变革的，就是底层架构。在车辆的电子电气架构方面，特斯拉是早期变革者，在2012年 Model S有较为明显的功能域划分，包括动力域、底盘域、车身域， ADAS模块，到2017 年特斯拉又在Model3 突...……更多

2023-12-31 10:42:00头部,选手,行业,架构,新能源,技术

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...现模型成本的降低的呢？郑纬民指出，“DeepSeek自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

...覆性技术路线创新，北京将设立创新专项，前瞻布局新型架构芯片、脑智能、类脑智能等新路径探索，《若干措施》择优纳入市级科技研发计划，最高支持3000万元。在数据方面，鼓励各类主体开放共享高质量训练数据，根据数...……更多

2024-04-28 11:00:00大佬,清华,微软,重磅,北京,蚂蚁

中昊芯英与深圳联通携手共建广东首个国产TPU 智算中心

...积累与优势互补。据了解，中吴芯英作为国内领先的TPU 架构AI 芯片企业，此次提供了搭载其自主研发的高性能 TPU 芯片“刹那®”的人工智能服务器及大规模AI计算集群系统“泰则®”，为项目搭建坚实的AI 计算底座。深圳联通则...……更多

2024-09-13 11:54:00中昊,广东,深圳,国产,中昊,深圳

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...头共享键和值的分组查询注意力。研究团队注意到，这种架构与许多 Mamba 系统中使用的架构不同，这种初始化允许用线性 RNN 块替换任何注意力块。该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

amd推出10亿参数语言模型系列amdolmo

...力。IT之家援引新闻稿，OLMo模型采用解码器（decoder-only）架构，并通过下一个标记预测（next-tokenprediction）进行训练，这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比，AMDOLMo在推理能力和聊天能力上表...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...空间。从模型本身角度看，需要更具突破式创新的新模型架构，它应该更高效压缩视频信息，更充分融合文本和视频内容，贴合用户指令的同时，让生成内容真实感更高。2.自研DiT架构清影底座的视频生成模型是CogVideoX，它将文...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

Sora背后团队：成立不到1年，站在谷歌肩头，应届博士带队

...空Patch）技术和DiffusionTransformer（DiT，或扩散型Transformer）架构。Sora官网截图记者查询这两项技术的原作论文发现，时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导..……更多

2024-02-19 15:59:00肩头,背后,团队,博士,团队,架构

火山引擎发布大模型训练视频预处理方案已应用于豆包

...频中的特征和知识，提升训练效果和效率。抖音集团视频架构负责人王悦表示，对大模型厂商而言，上述过程中面临着诸多挑战。“首先，超大规模视频训练数据集导致计算和处理成本激增，”王悦说，“其次是视频样本数据参...……更多

2024-10-15 15:07:00豆包,预处理,火山,模型,训练,引擎

谷歌推出“文生视频”扩散模型

...扩散模型，主打采用自家最新开发的“Space-TimeU-Net”基础架构，号称能够一次生成“完整、真实、动作连贯”的视频。▲图源谷歌官方新闻稿（下同）谷歌表示，业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连...……更多

2024-01-29 11:15:00文生,模型,视频,视频,生成,模型

探索终端操作系统领域AI大模型创新趋势 OpenHarmon

...办。在下午举办的OS原生智能分论坛中,华为昇思MindSpore总架构师金雪锋担任出品人,华为AI大模型应用开发平台架构师王磊担任主持人,与来自华为、中软国际有限公司、深圳市若芯科技有限公司等企业界技术领袖和来自清华大学...……更多

2023-11-06 14:46:00终端,模型,趋势,大会,领域,智能

智谱AI新一代基座大模型GLM-4在司南评测中跻身前列，位居

...工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构，三年多来始终坚持全自研路线，新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴、开...……更多

2024-02-04 14:00:00司南,基座,前列,新一代,模型,评测

3天把Llama训成Mamba，性能不降，推理更快！

...a这样的大型Transformer提炼成了Mamba模型，并且成功在Mamba架构上应用了带有硬件感知的推测解码算法，提高了整个模型的推理速度。为什么要把Llama变成Mamba？因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了，相关...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

滴普科技董事长兼CEO赵杰辉：从数据驱动到智能驱动，大模型释

...度释放生产力。他认为，未来，整个企业领域的数据智能架构将基于数据的基础设施建设，加上基于大模型的AI Agent，形成一个新的数字经济体架构。演讲正文如下：大家好，非常荣幸有机会在36氪WISE平台上跟大家分享我们的行...……更多

2023-11-29 18:40:00王大,赵杰,驱动,数据,生产力,董事长

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...，作为百川智能的首个MoE模型，Baichuan4-Air 行业首创了PRI架构，巧妙融合了Pyramid（金字塔架构）、Residual（残差结构）、Interval（区间结构）三种配置方式。与标准的MoE架构相比，Baichuan4-Air的MoE架构保持了MLP（多层感知机）和Atte.……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本