架构,模型,优势,模型,训练,模块头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球最强开源大模型Llama 3发布：使用15T数据预训练，最大模型参数将超4000亿

...的 LLM 模型建立了新的 SOTA。 Llama 3 是如何炼成的？模型架构、预训练数据、扩大预训练规模和指令微调，是 Llama 3 成为最强开源 LLM 的四个关键要素。其中：1）模型架构Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama ...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

新视角设计下一代时序基础模型，Salesforce推出Moi

...领域正在经历重大转型，从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。目前虽然有不少基础模型已经提出，但如何有效地在高度多样化的时序数据上训练基础模型仍是一个开放问题。近期，来自...……更多

2024-11-01 09:27:00时序,下一代,视角,模型,基础,设计

为了强化AI，iPhone拉着三星让内存「独立」

...产生更大的疑问，毕竟这和M1芯片开始采用的「统一内存架构」似乎截然相反。简单来说，苹果在Mac上刚把内存塞进芯片没几年，而在iPhone上却要把芯片和内存拆开。另一方面，手机的AI化也已经在2024年成为了行业共识，理论上...……更多

2024-12-11 20:12:00三星,内存,独立,内存,封装,带宽

山东移动全面接入DeepSeek，加速产业数智升级

...团队，联合中国移动研究院借助“芯合”算力原生平台跨架构迁移能力完成DeepSeek-R1-671B完整模型部署，支撑业务需求落地，通过自研AI+技术平台支持DeepSeek全尺寸大模型私有化部署，大幅提高模型部署与交付效率。丰富完备的算...……更多

2025-02-22 08:22:00山东,接入,升级,移动,产业,模型

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...，作为百川智能的首个MoE模型，Baichuan4-Air 行业首创了PRI架构，巧妙融合了Pyramid（金字塔架构）、Residual（残差结构）、Interval（区间结构）三种配置方式。与标准的MoE架构相比，Baichuan4-Air的MoE架构保持了MLP（多层感知机）和Atte.……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可

...三个维度融合起来。该模型参考Sora算法设计，采用了DiT架构，相比前代CogVideo模型推理速度提升了6倍。智谱AI成立于2019年6月，起源于清华大学计算机系知识工程实验室，专注于开发新一代认知智能大模型。一直以来，智谱AI以...……更多

2024-07-27 09:18:00实测,人手,中国,视频,清影,视频

谷歌大模型推理范式，主要分为两个阶段

...在推理过程，同时还不提高模型的推理成本。自发现步骤架构由此而来。它主要分为两个阶段。第一阶段指导大语言模型从原子推理模块中进行挑选、调整、整合，搭建出一个可以解决特定任务的推理结构。比如“创造思维”可...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

大模型到了该「验收」的时候

...型知识引擎采用的是目前主流的RAG（检索增强生成）技术架构为基础，不仅整合了OCR文档解析、向量检索、多模态大模型等技术，更能让企业通过模块化的应用模板快速开发落地。除了上文提到的汽车、法律等领域，腾讯云大模...……更多

2024-09-19 10:07:00验收,模型,时候,模型,腾讯,知识

企业级SaaS架构实战（2）：架构视图与视角

...将其做好分类，便于快速获取相应信息？本文将介绍SaaS架构视图与视角，便于你了解相关内容，更好展开工作。把企业级SaaS系统架构描述清楚，是一项极其复杂的工作。因为企业级SaaS系统涉及的利益干系人众多，例如：客户、...……更多

2024-03-17 02:00:00架构,视图,视角,实战,企业,架构

扩散模型训练方法一直错了！谢赛宁：Representatio

...远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明，即使你只对生成像素感兴趣（例如使用扩散 Transformer 生成漂亮图片），也应该包含特征预测损失，以便解码器的内部表征...……更多

2024-10-15 09:57:00模型,训练,方法,模型,训练,视觉

智驾的遮羞布被掀开

...线没有了标准答案。理想在 AI TALK 上公布下一代自动驾驶架构 VLA（视觉-语言-行为大模型）；小鹏最新技术架构则是打造一个云端世界基座模型，通过蒸馏方法，生产出小尺寸的车端模型XVLA；华为乾崑ADS4 引入了 WEWA 架构——WE...……更多

2025-05-26 19:23:00遮羞布,模型,数据,小鹏,技术,华为

amd推出10亿参数语言模型系列amdolmo

...力。IT之家援引新闻稿，OLMo模型采用解码器（decoder-only）架构，并通过下一个标记预测（next-tokenprediction）进行训练，这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比，AMDOLMo在推理能力和聊天能力上表...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

角逐数据智能下半场，谁能引领下一个十年？

...发展基于AI与大模型的能力，进行着原有产品与技术体系架构的迭代升级，从最早期的数据中台演进到湖仓一体，再到结合大模型技术演进为ToB领域的数智基建。不过，囿于投资与业务价值不匹配及GPU市场价格的波动，当前大模...……更多

2024-09-19 18:43:00智能,数据,数据,模型,企业,基建

这个大模型，真的治好了我的论文阅读障碍

...问才能形成对于论文的完整认知。而且，一些关键的模型架构图、实验结果图还要自己去论文里找，实际节省的时间非常有限。在腾讯「元宝」的最近一次更新中，我们看到了这些问题的解决方案。他们新推出的「深度阅读模式...……更多

2024-08-13 09:40:00模型,障碍,论文,论文,元宝,模块

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

...的应用都需要进行额外的安全测试和调整。Spirit LM模型的架构比较简单，训练过程就是基本的「预测下一个词」，不过「词」是通过编码器从语音或文本中提取的，然后通过解码器以原来的模态进行重新呈现；训练数据包括三种...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

清华郑纬民院士：AI for Science的出现，让高性能

...扑感知的混合并行模式”。具体而言，刚才提到，该体系架构节点内部通信很快，但超节点之间通信比较慢。因此在混合并行模式下，一个通信超节点内部，采用数据并行；超节点之间则采用专家并行或模型并行。除此之外，还...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

字节版Sora火爆24小时，同名论文再次被热议

...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例，其最大特色在于多主体交互，一致性多镜头生成。啥意思？？——直接来看几个官方demo。First kill，现在手上有这...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

zyphra推出zamba2-mini1.2b模型

...一，内存占用减少了27%。Zamba2-mini1.2B主要通过高度优化的架构实现，融合了不同神经网络设计的优势，既能保持大型密集变压器的高质量输出，又能以更小模型的计算和内存效率运行。与前代Zamba1相比，Zamba2-mini的关键进步之一...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...头共享键和值的分组查询注意力。研究团队注意到，这种架构与许多 Mamba 系统中使用的架构不同，这种初始化允许用线性 RNN 块替换任何注意力块。该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...在短问答方面表现出明显的优势，而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。△不同LLM在LooGLE上展现的长文本理解能力△不同模型在LooGLE短程问答上的性能△不同模型在LooGLE...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...现模型成本的降低的呢？郑纬民指出，“DeepSeek自研的MLA架构和DeepSeek MOE架构，为其自身的模型训练成本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础，但其核心算法注意力机制存在先天问题：为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较，导致处理文本越长...……更多

2025-02-19 18:43:00文锋,对大,注意力,模型,意味,机制

5.17世界电信日｜高通万卫星：将AI理念贯穿整颗SoC设计

...了加速，提出微切片技术专门针对DDR利用率做了优化，在架构上对硬件进行了升级。除了硬件之外，高通在软件方面也做了大量工作。“我们之前推出了高通AI Stack，即高通AI软件栈产品，会在软件层面上兼容、支持目前高通异...……更多

2024-05-17 10:06:00高通,卫星,理念,电信,设计,世界

联汇科技荣登「AI中国」机器之心2022年度评选两大重量榜单

...务，且已获得该领域主导型市场地位。联汇科技预训练大模型拥有国际领先的能力优势，自研多模态预训练大模型OmModel是全球最早一批基于大规模自监督学习的多模态人工智能算法之一，在ECCV 2022等多个顶会竞赛中领先谷歌、...……更多

2023-02-01 10:00:00联汇,之心,中国,重量,机器,年度

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...些集群算力指标上又有所提升。此次，百舸 4.0 在整体架构上相较 3.0 版本有了略微调整，从底层硬件往上依次分为资源层、组件层、大模型加速层和工具层。四层架构，各司其职，针对大模型的训推、部署和调优等全流程进一...……更多

2024-09-26 13:37:00万卡,百舸,通途,集群,模型,百舸

马斯克打脸OpenAI！全球最大模型Grok-1开源

...开源开放，用户可直接通过磁链下载基本模型权重和网络架构信息。（图/钛媒体）xAI表示，Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家（MOE）模型，远超OpenAI的GPT模型。...……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

中国石油发布700亿参数昆仑大模型建设成果

...同调度能力有效加强；在实践探索中形成“1+4+N”大模型架构体系，提炼“三阶十步”的大模型项目建设方法论；启动中国石油人工智能创新应用大赛，大力营造人工智能创新氛围，积极培育人工智能文化，持续打造高水平人工...……更多

2024-11-29 09:25:00昆仑,中国,模型,成果,参数,石油

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

...将自然语言描述转化为动态视觉内容的复杂系统。在模型架构设计中，CogVideoX特别采用了因果3D卷积（Causal 3D Convolution），以高效捕捉时空维度上的复杂变化，使得模型能够更加精确地理解和生成富有细节的场景。同时，该模型...……更多

2024-11-09 09:54:00画质,音效,高清,国产,电影,生成

小鹏P7+18万开卖：何小鹏一夜封神！

...技术体系我们之前详细介绍过，传感器端应用了车规LOFIC架构摄像头，视野更好?。算法端，小鹏目前的端到端超越简单的“一段式”或“多段式”，采用了车端+云端大模型的方式：车端模型就是XNGP，真正大幅提升体验的关键是...……更多

2024-11-08 16:43:00小鹏,封神,小鹏,雷达,续航,空间

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...最基础的介绍，而最最重要的信息就是，它不再是一个DiT架构的模型，也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说，在这个项目里最大的发现就是：数据，算力...……更多

2024-10-08 09:51:00模型,不用,奇迹,视频,视频,模型

page 9/2667 首页上一页 4 5 6 7 8910 11 12 13 14 下一页末页

更多关于科技的资讯：

潮聚湾区创玩未来——《广州潮玩产业招商研究报告》发布会暨行

为精准把握潮玩产业蓬勃发展的时代脉搏，助力广州建设具有全球影响力的潮玩产业高地，12月11日，由广州市投资发展委员会办公室主办

2025-12-13 16:43:00

第十届中国设计智造大奖颁奖企业出题高校应题产业转化

12日晚，第十届中国设计智造大奖（DIA）颁奖盛典在中国美术学院良渚校区举行。第十届中国设计智造大奖征集自2024年12月12日启动

2025-12-13 07:36:00

全球首个甲骨文智能体“殷契行止” 上线最懂甲骨文的AI来了

小程序“了不起的甲骨文”，展示甲骨文“其”的不同字形。（本组图/小程序截图）甲骨拓本甲骨文“门”字甲骨文摹本甲骨文“马”字扫码看视频厦门网讯（厦门日报教育工作室首席专家佘峥通讯员王志鹏）你只需往电脑上传一张甲骨图片

2025-12-12 08:28:00

厦门临空经济片区场景创新平台推广暨供需对接活动举行

厦门网讯（厦门日报记者曾嫣艳通讯员曾焕滨）昨日，厦门临空经济片区场景创新平台推广暨供需对接与企业路演活动在翔安创新实验室举办

2025-12-12 08:28:00

从流程到质量：制片人为短剧工业化提供的“52集样本”

在短剧行业从 “流量争夺” 转向 “品质与流程双竞争” 的关键阶段，如何在有限周期内平衡效率、成本与成片质量，成为所有制作机构必须破解的难题

2025-12-12 08:29:00

剧想天开，造梦未来｜一场关于“儿童剧人物造型”的想象力实验

儿童戏剧，是投射在少年儿童心灵舞台上的第一束光。人物造型，作为这束光中最具象、最绚烂的色彩，不仅定义角色的灵魂，更深刻影响着儿童认知世界的方式与审美情感的塑造

2025-12-12 08:29:00

聚焦“中文+职业”融合：星禾星穗在世界中文大会展示校企合作新

在近期举办的2025世界中文大会上，教育企业星禾星穗多维度参与，展现了其在“中文+专业/职业”领域的系统思考与实践成果

2025-12-12 08:30:00

会打拳的机器人带你触摸未来走进国家“芯火”双创基地象屿园区

元启创新的人形机器人正在打拳。（元启创新供图）厦门网讯（厦门日报记者吴晓菁） “灵犀，灵犀，表演一段佛山醒狮。”昨日

2025-12-12 08:59:00

“数字丝路”赋能文化出海，中国数字文化扬帆全球新蓝海

2025年12月9日下午，一场聚焦数字文化出海与青年文化交流的“共建数字丝绸之路”研讨会在上海举行。中国传媒大学经济与管理学院教授方英

2025-12-12 09:00:00

AI眼镜将会取代手机？杭州企业从蛰伏到突起

AI 眼镜似乎成了AI具身智能行业中最“靓”的仔，无论是苹果、谷歌这些大厂，还是国内的科技巨头，纷纷下场。本周二，谷歌在The Android Show活动上宣布

2025-12-12 09:10:00

苏州人保财险：行业唯一反洗钱征文荣获三等奖

近日，中国人民银行苏州市分行反洗钱科公布2025年苏州市反洗钱征文比赛评审结果，苏州人保财险撰写的《破局与重构：保险公司在反洗钱履职的实践困境与创新路径研究》一文凭借深刻的问题剖析

2025-12-12 10:46:00

常熟人保财险：培训赋能促协作沟通提效助发展

为提升员工职场软实力，优化内部沟通效能，12月7日，常熟人保财险琴川学府组织开展了“赋能职场进阶，高情商沟通与协作”专题培训

2025-12-12 10:56:00

“大小字陷阱”丢了信任也失了格局-中国吉林网

长白时评评论员刘颂寒声称“下载App必得大额红包”，旁边又用小字解释“仅限新人或以实际情况为准”；宣称“全场5折”，又在大大的“5折”后面跟个极小的“起”字……在日常的消费中

2025-12-12 10:56:00

虎丘人保财险：精打细算降成本，按需采购提效益

在当前行业竞争加剧与市场环境多变的背景下，虎丘支公司持续推动降本增效工作，这既是应对挑战的必要举措，也是实现长期稳健经营的重要保障

2025-12-12 10:58:00

民生商品升级换代需要及时解疑释惑

劳利近日“水银体温计明年起禁产”的话题引发热议。根据国家药监局此前发布的通知，自2026年1月1日起全面禁止生产含汞体温计产品

2025-12-12 11:01:00

头条订阅服务