架构,模型,优势,模型,训练,模块头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

英伟达深夜炸场，世界最强AI芯片H200震撼发布，性能飙升9

...达的GPU已经千金难求。英伟达此前也表示，两年一发布的架构节奏将转变为一年一发布。就在英伟达宣布这一消息之际，AI公司们正为寻找更多H100而焦头烂额。英伟达的高端芯片价值连城，已经成为贷款的抵押品。至于H200系统...……更多

2023-11-14 13:41:00英伟,芯片,性能,世界,英伟,显存

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...的 LLM 模型建立了新的 SOTA。 Llama 3 是如何炼成的？模型架构、预训练数据、扩大预训练规模和指令微调，是 Llama 3 成为最强开源 LLM 的四个关键要素。其中：1）模型架构Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama ...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

为了强化AI，iPhone拉着三星让内存「独立」

...产生更大的疑问，毕竟这和M1芯片开始采用的「统一内存架构」似乎截然相反。简单来说，苹果在Mac上刚把内存塞进芯片没几年，而在iPhone上却要把芯片和内存拆开。另一方面，手机的AI化也已经在2024年成为了行业共识，理论上...……更多

2024-12-11 20:12:00三星,内存,独立,内存,封装,带宽

山东移动全面接入DeepSeek，加速产业数智升级

...团队，联合中国移动研究院借助“芯合”算力原生平台跨架构迁移能力完成DeepSeek-R1-671B完整模型部署，支撑业务需求落地，通过自研AI+技术平台支持DeepSeek全尺寸大模型私有化部署，大幅提高模型部署与交付效率。丰富完备的算...……更多

2025-02-22 08:22:00山东,接入,升级,移动,产业,模型

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...，作为百川智能的首个MoE模型，Baichuan4-Air 行业首创了PRI架构，巧妙融合了Pyramid（金字塔架构）、Residual（残差结构）、Interval（区间结构）三种配置方式。与标准的MoE架构相比，Baichuan4-Air的MoE架构保持了MLP（多层感知机）和Atte.……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可

...三个维度融合起来。该模型参考Sora算法设计，采用了DiT架构，相比前代CogVideo模型推理速度提升了6倍。智谱AI成立于2019年6月，起源于清华大学计算机系知识工程实验室，专注于开发新一代认知智能大模型。一直以来，智谱AI以...……更多

2024-07-27 09:18:00实测,人手,中国,视频,清影,视频

谷歌大模型推理范式，主要分为两个阶段

...在推理过程，同时还不提高模型的推理成本。自发现步骤架构由此而来。它主要分为两个阶段。第一阶段指导大语言模型从原子推理模块中进行挑选、调整、整合，搭建出一个可以解决特定任务的推理结构。比如“创造思维”可...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

大模型到了该「验收」的时候

...型知识引擎采用的是目前主流的RAG（检索增强生成）技术架构为基础，不仅整合了OCR文档解析、向量检索、多模态大模型等技术，更能让企业通过模块化的应用模板快速开发落地。除了上文提到的汽车、法律等领域，腾讯云大模...……更多

2024-09-19 10:07:00验收,模型,时候,模型,腾讯,知识

企业级SaaS架构实战（2）：架构视图与视角

...将其做好分类，便于快速获取相应信息？本文将介绍SaaS架构视图与视角，便于你了解相关内容，更好展开工作。把企业级SaaS系统架构描述清楚，是一项极其复杂的工作。因为企业级SaaS系统涉及的利益干系人众多，例如：客户、...……更多

2024-03-17 02:00:00架构,视图,视角,实战,企业,架构

扩散模型训练方法一直错了！谢赛宁：Representatio

...远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明，即使你只对生成像素感兴趣（例如使用扩散 Transformer 生成漂亮图片），也应该包含特征预测损失，以便解码器的内部表征...……更多

2024-10-15 09:57:00模型,训练,方法,模型,训练,视觉

智驾的遮羞布被掀开

...线没有了标准答案。理想在 AI TALK 上公布下一代自动驾驶架构 VLA（视觉-语言-行为大模型）；小鹏最新技术架构则是打造一个云端世界基座模型，通过蒸馏方法，生产出小尺寸的车端模型XVLA；华为乾崑ADS4 引入了 WEWA 架构——WE...……更多

2025-05-26 19:23:00遮羞布,模型,数据,小鹏,技术,华为

amd推出10亿参数语言模型系列amdolmo

...力。IT之家援引新闻稿，OLMo模型采用解码器（decoder-only）架构，并通过下一个标记预测（next-tokenprediction）进行训练，这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比，AMDOLMo在推理能力和聊天能力上表...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

角逐数据智能下半场，谁能引领下一个十年？

...发展基于AI与大模型的能力，进行着原有产品与技术体系架构的迭代升级，从最早期的数据中台演进到湖仓一体，再到结合大模型技术演进为ToB领域的数智基建。不过，囿于投资与业务价值不匹配及GPU市场价格的波动，当前大模...……更多

2024-09-19 18:43:00智能,数据,数据,模型,企业,基建

这个大模型，真的治好了我的论文阅读障碍

...问才能形成对于论文的完整认知。而且，一些关键的模型架构图、实验结果图还要自己去论文里找，实际节省的时间非常有限。在腾讯「元宝」的最近一次更新中，我们看到了这些问题的解决方案。他们新推出的「深度阅读模式...……更多

2024-08-13 09:40:00模型,障碍,论文,论文,元宝,模块

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

...的应用都需要进行额外的安全测试和调整。Spirit LM模型的架构比较简单，训练过程就是基本的「预测下一个词」，不过「词」是通过编码器从语音或文本中提取的，然后通过解码器以原来的模态进行重新呈现；训练数据包括三种...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

清华郑纬民院士：AI for Science的出现，让高性能

...扑感知的混合并行模式”。具体而言，刚才提到，该体系架构节点内部通信很快，但超节点之间通信比较慢。因此在混合并行模式下，一个通信超节点内部，采用数据并行；超节点之间则采用专家并行或模型并行。除此之外，还...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

字节版Sora火爆24小时，同名论文再次被热议

...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例，其最大特色在于多主体交互，一致性多镜头生成。啥意思？？——直接来看几个官方demo。First kill，现在手上有这...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

zyphra推出zamba2-mini1.2b模型

...一，内存占用减少了27%。Zamba2-mini1.2B主要通过高度优化的架构实现，融合了不同神经网络设计的优势，既能保持大型密集变压器的高质量输出，又能以更小模型的计算和内存效率运行。与前代Zamba1相比，Zamba2-mini的关键进步之一...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...在短问答方面表现出明显的优势，而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。△不同LLM在LooGLE上展现的长文本理解能力△不同模型在LooGLE短程问答上的性能△不同模型在LooGLE...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...头共享键和值的分组查询注意力。研究团队注意到，这种架构与许多 Mamba 系统中使用的架构不同，这种初始化允许用线性 RNN 块替换任何注意力块。该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...现模型成本的降低的呢？郑纬民指出，“DeepSeek自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

5.17世界电信日｜高通万卫星：将AI理念贯穿整颗SoC设计

...了加速，提出微切片技术专门针对DDR利用率做了优化，在架构上对硬件进行了升级。除了硬件之外，高通在软件方面也做了大量工作。“我们之前推出了高通AI Stack，即高通AI软件栈产品，会在软件层面上兼容、支持目前高通异...……更多

2024-05-17 10:06:00高通,卫星,理念,电信,设计,世界

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础，但其核心算法注意力机制存在先天问题：为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较，导致处理文本越长...……更多

2025-02-19 18:43:00文锋,对大,注意力,模型,意味,机制

联汇科技荣登「AI中国」机器之心2022年度评选两大重量榜单

...务，且已获得该领域主导型市场地位。联汇科技预训练大模型拥有国际领先的能力优势，自研多模态预训练大模型OmModel是全球最早一批基于大规模自监督学习的多模态人工智能算法之一，在ECCV 2022等多个顶会竞赛中领先谷歌、...……更多

2023-02-01 10:00:00联汇,之心,中国,重量,机器,年度

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...些集群算力指标上又有所提升。此次，百舸 4.0 在整体架构上相较 3.0 版本有了略微调整，从底层硬件往上依次分为资源层、组件层、大模型加速层和工具层。四层架构，各司其职，针对大模型的训推、部署和调优等全流程进一...……更多

2024-09-26 13:37:00万卡,百舸,通途,集群,模型,百舸

马斯克打脸OpenAI！全球最大模型Grok-1开源

...开源开放，用户可直接通过磁链下载基本模型权重和网络架构信息。（图/钛媒体）xAI表示，Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家（MOE）模型，远超OpenAI的GPT模型。...……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

中国石油发布700亿参数昆仑大模型建设成果

...同调度能力有效加强；在实践探索中形成“1+4+N”大模型架构体系，提炼“三阶十步”的大模型项目建设方法论；启动中国石油人工智能创新应用大赛，大力营造人工智能创新氛围，积极培育人工智能文化，持续打造高水平人工...……更多

2024-11-29 09:25:00昆仑,中国,模型,成果,参数,石油

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

...将自然语言描述转化为动态视觉内容的复杂系统。在模型架构设计中，CogVideoX特别采用了因果3D卷积（Causal 3D Convolution），以高效捕捉时空维度上的复杂变化，使得模型能够更加精确地理解和生成富有细节的场景。同时，该模型...……更多

2024-11-09 09:54:00画质,音效,高清,国产,电影,生成

小鹏P7+18万开卖：何小鹏一夜封神！

...技术体系我们之前详细介绍过，传感器端应用了车规LOFIC架构摄像头，视野更好?。算法端，小鹏目前的端到端超越简单的“一段式”或“多段式”，采用了车端+云端大模型的方式：车端模型就是XNGP，真正大幅提升体验的关键是...……更多

2024-11-08 16:43:00小鹏,封神,小鹏,雷达,续航,空间

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...最基础的介绍，而最最重要的信息就是，它不再是一个DiT架构的模型，也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说，在这个项目里最大的发现就是：数据，算力...……更多

2024-10-08 09:51:00模型,不用,奇迹,视频,视频,模型

page 9/2667 首页上一页 4 5 6 7 8910 11 12 13 14 下一页末页

更多关于科技的资讯：

“杭小助”AI智能体上线构建残疾人服务数字化新生态

“我是一名肢残三级的残疾人，请问能享受哪些补贴？”输入文字，几秒钟过后，手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来

2025-12-06 10:21:00

辛集市公路桥梁养护启用无人机巡检

河北日报讯（张晓超、李娜）11月19日，辛集市教育北路高架桥上空，一架搭载高清摄像头与专业传感器的无人机缓缓升空，按照预设航线开展桥梁日常检测

2025-12-05 14:56:00

烟台南山学院斩获省部级科技奖荣誉

近日，2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”

2025-12-05 15:00:00

盐城盐都：“芯”智散热赋能科创驱动前行

江南时报讯以科创破局散热赛道，以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮，盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势

2025-12-05 15:07:00

中新建电力集团发电产业：智慧电厂新蓝图

近日，中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级，上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划

2025-12-05 15:09:00

建行石家庄分行全省系统“人工智能＋”竞赛获佳绩

日前，建行河北省分行2025年“人工智能＋”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛，经过严格的初审选拔

2025-12-05 15:09:00

全国首台套！助力煤矸石全量高值转化

12月1日，由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运

2025-12-05 15:10:00

如何“反内卷”？54.5%职场人将“优化薪酬激励机制”列为首

什么是“好工作”？工作有哪些特质会让员工有“好”感受？日前，智联招聘通过问卷调研的方式，对平台用户展开调研，回收3525份有效样本

2025-12-05 15:26:00

国航举办“国航+”生态主题发布会

海外网北京12月5日电（记者严冰）12月5日，中国国际航空股份有限公司（以下简称“国航”）在北京举办“云端无界凤启耀星河——‘国航+’生态主题发布会”

2025-12-05 15:33:00

乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业！

12月5日，国内仓储式品牌特卖开创者荟品仓，在房山区瑞来广场盛大开业，带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣

2025-12-05 15:55:00

易生支付“智慧分账”赋能安心鲜生驱动社区零售全国布局

在社区零售数字化转型加速深化的背景下，易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力

2025-12-05 16:09:00

ED用药怎么选？金钢鸟领衔西地那非口崩片品牌阵营，购买渠道全

第91届全国药交会上，金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相，让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点

2025-12-05 16:09:00

苏州黄埭镇推动“产学研”深度融合

江南时报讯日前，苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作，联合启动轮式双臂机器人研发项目，致力于推动创新成果向现实生产力加速转化

2025-12-05 16:13:00

近邻碰碰：以 “邻里经济”打造智慧社区消费新生态 —— 专访

鲁网12月4日讯“远亲不如近邻”，这句家喻户晓的俗语，如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备

2025-12-05 16:47:00

东湖评论：“巨型吊牌”现象值得全行业深思

今年双十一，A4纸大小的巨型吊牌成为女装电商的“标配”。这种硬材质、高存在感的“防白嫖神器”，在社交平台引发热议，同时也揭露了线上服装行业的信任危机

2025-12-05 17:00:00

头条订阅服务