• 我的订阅
  • 头条热搜
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...型大小)实现了更好的性能。最后,作者结合 Transformer 架构的最新进展,例如逐层缩放、使用 MoE 的稀疏 Transformer,以提高大规模训练的性能。作者提出的低成本训练 pipeline 减少了实验开销。除了使用真实图像,作者还考虑在...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...披露了更具参考意义的信息,主要包括从数据准备、模型架构、训练方案及优化策略几个方面。数据准备依托快手在视频技术领域的多年积累,可灵大模型团队已经构建了完备的标签体系,包括从视频基础质量、美学、自然度等...……更多
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
...此之外,他还谈到当前大模型的局限性、以目标驱动的AI架构,包括利用世界模型进行推理和规划,最后强调了开源AI的重要性。对于未来发展,他提到,最终机器将超越人类智能,但它们将受到控制,因为它们是目标驱动的。...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
【新智元导读】Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数...……更多
有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍
...队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。nGPT架构的核心在于将所有...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...。深度学习Scaling是可预测的在深度学习领域,随着模型架构的不断探索、训练数据集的不断增大以及计算能力的不断提升,模型的性能也在不断提高。然而,对于训练集大小、计算规模和模型精度之间的具体关系,一直缺乏深...……更多
...供赋能,如知识中心、研报撰写、机构自建产品线等,助力大模型技术满足多样化的复杂场景需求。RAG技术即检索增强生成是该模型的一大技术特点。基于此,在具体应用中,可自由定制构建企业的知识库,以及提供智能客服、...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如此神速AI生图工具,...……更多
黄仁勋对话Transformer七子:我们被困在原始模型里,还需要更强大的新架构
...名为Attention is all you need 的论文,其中所提出的Transformer架构,为当下大热的ChatGPT、Gemini等大模型打下基础,人工智能领域从此变天。论文的八位作者,也被称为“Transformer八子”。不过,八位作者后来也陆续离开谷歌。除Lukasz K.……更多
大模型\\\
...的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来3-5年的AI进化需求。在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅逐渐成为行业共识,国外的月亮不一...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...用扩散模型(diffusionprobabilisticmodels)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力...……更多
戴尔以技术创新推动AI基础架构升级
...化AI计算平台加速智能跃迁众所周知,传统数据中心的典型架构是以CPU为中心,而今天在大模型训练和推理需求的推动下,CPU+GPU为代表的异构计算正在成为主流,GPU成为越来越多服务器的标准配置。顺应市场的需求,戴尔科技推出了多...……更多
开源AI进入企业!红帽揭秘混合AI落地关键,端到端AI平台三步走
...帽大中华区资深市场总监赵文斌、红帽大中华区解决方案架构部高级总监王慧慧、红帽中国首席架构师张家驹与智东西等少数媒体进行了深入交流。谈到算力目前受到极高的关注度,曹衡康谈道,算力只是短期的一个焦点问题,...……更多
听得懂、看得见、找得到!理想汽车下一代自动驾驶架构MindVLA亮相
...听得懂、看得见、找得到。该技术基于端到端和VLM双系统架构,通过3D空间编码器和逻辑推理生成合理的驾驶决策,并利用扩散模型优化驾驶轨迹,整个过程需在车端实时运行。 MindVLA采用3D高斯作为中间表征,利用海量数据进...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...开源开放,用户可直接通过磁链下载基本模型权重和网络架构信息。(图/钛媒体)xAI表示,Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家(MOE)模型,远超OpenAI的GPT模型。...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...最基础的介绍,而最最重要的信息就是,它不再是一个DiT架构的模型,也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说,在这个项目里最大的发现就是:数据,算力...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...,加速行业创新步伐。据技术报告,在混元视频生成模型架构设计与训练中,采用了多个创新技术:包括通过新一代本文编码器提升语义遵循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉...……更多
比AI更热的行业,跑出了头部选手
...技术也正在迎来技术变革。那么首先要变革的,就是底层架构。在车辆的电子电气架构方面,特斯拉是早期变革者,在2012年 Model S有较为明显的功能域划分,包括动力域、底盘域、车身域, ADAS模块,到2017 年特斯拉又在Model3 突...……更多
让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里
...现模型成本的降低的呢?郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV...……更多
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...覆性技术路线创新,北京将设立创新专项,前瞻布局新型架构芯片、脑智能、类脑智能等新路径探索,《若干措施》择优纳入市级科技研发计划,最高支持3000万元。在数据方面,鼓励各类主体开放共享高质量训练数据,根据数...……更多
中昊芯英与深圳联通携手共建广东首个国产TPU 智算中心
...积累与优势互补。据了解,中吴芯英作为国内领先的TPU 架构AI 芯片企业,此次提供了搭载其自主研发的高性能 TPU 芯片“刹那®”的人工智能服务器及大规模AI计算集群系统“泰则®”,为项目搭建坚实的AI 计算底座。深圳联通则...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。 该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多
amd推出10亿参数语言模型系列amdolmo
...力。IT之家援引新闻稿,OLMo模型采用解码器(decoder-only)架构,并通过下一个标记预测(next-tokenprediction)进行训练,这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比,AMDOLMo在推理能力和聊天能力上表...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础,但其核心算法注意力机制存在先天问题:为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较,导致处理文本越长...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。2.自研DiT架构清影底座的视频生成模型是CogVideoX,它将文...……更多
Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队
...空Patch)技术和DiffusionTransformer(DiT,或扩散型Transformer)架构。Sora官网截图记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导..……更多
火山引擎发布大模型训练视频预处理方案 已应用于豆包
...频中的特征和知识,提升训练效果和效率。抖音集团视频架构负责人王悦表示,对大模型厂商而言,上述过程中面临着诸多挑战。“首先,超大规模视频训练数据集导致计算和处理成本激增,”王悦说,“其次是视频样本数据参...……更多
谷歌推出“文生视频”扩散模型
...扩散模型,主打采用自家最新开发的“Space-TimeU-Net”基础架构,号称能够一次生成“完整、真实、动作连贯”的视频。▲图源谷歌官方新闻稿(下同)谷歌表示,业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连...……更多
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...办。在下午举办的OS原生智能分论坛中,华为昇思MindSpore总架构师金雪锋担任出品人,华为AI大模型应用开发平台架构师王磊担任主持人,与来自华为、中软国际有限公司、深圳市若芯科技有限公司等企业界技术领袖和来自清华大学...……更多
更多关于科技的资讯:
河北日报讯(张晓超、崔虹)近日,第八届中国国际进口博览会在上海举办,河北省39家企业的70余类“燕赵好物”集中亮相,吸引了国内外客商的目光
2025-12-05 07:40:00
当人类基因组的30亿个碱基对如浩瀚星河般铺展,当大脑1000亿个神经元织就复杂网络,这本写满生命奥秘的“天书”,曾让科学家们望“脑”兴叹
2025-12-05 07:42:00
12月3日上午,一票跨境电商网购保税进口商品经杭州海关所属义乌海关审核验放后,从义乌保税物流中心发往购买的消费者手中。值得注意的是
2025-12-04 09:42:00
腾讯游戏魔方工作室迎来十五周年,《暗区突围》手游爆料地图更新
12月3日,腾讯游戏魔方工作室迎来十五周年庆。魔方多款游戏主创来到直播现场爆料,为玩家带来产品最新进度,备受玩家关注的《洛克王国》IP新作《洛克王国
2025-12-04 14:20:00
从日常随拍到户外探索 年轻人用手持设备定格热爱
脚踩陆冲板的年轻人手持全景相机,以第三人称视角“跟拍”运动瞬间;旅行博主捕捉下360°无死角的风景,剪辑时通过手动调整视角制作出炫酷转场
2025-12-04 14:20:00
在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到
2025-12-04 15:20:00
中国移动AI听障康复智能体落地 为2780万听障人士架起沟通桥梁
12月3日是国际残疾人日。当日早间,央视财经频道《第一时间》重磅报道了中国移动自主研发的全国首个AI听障康复智能体——“中移无障碍”
2025-12-04 15:22:00
防沉迷+护安全,墨宝·AI学生机成未成年人用机优选
在数字化设备快速发展的当今,未成年教育正面临着网络沉迷、电子产品使用导致近视等前所未有的挑战。那么,究竟有没有科学、有效且合理的解决方案呢
2025-12-04 15:23:00
当地时间12月3日,国际权威财经媒体英国《银行家》(The Banker)杂志在伦敦揭晓年度银行榜单,中信银行荣膺“2025年中国年度银行”(Bank of the Year China 2025)大奖
2025-12-04 15:37:00
重新定义测序技术 “金标准”! Sequel® II CNDx三代测序仪正式上市
近日,贝瑞基因与PacBio在京举行三代Sequel® II CNDx基因测序仪上市发布会,正式宣布这款基于三代测序技术平台的产品获得国家药品监督管理局批准的医疗器械注册证
2025-12-04 16:38:00
165无限满帧体验,一加 Ace 6T首销到手价2399元起
2025 年 12 月 3 日,一加正式发布「性能旗舰新选择」一加 Ace 6T。作为一加Ace系列全新力作,一加 Ace 6T全球首发搭载第五代骁龙8移动平台
2025-12-04 19:41:00
“质造+智创”领航户外照明赛道
当前,国内户外照明市场呈现明显的区域集群效应,长三角(江浙沪)与珠三角(广东)形成双核引领格局。其中,高杆路灯作为重要细分品类
2025-12-04 22:41:00
南京作为我国软件产业发展的先行区和重要聚集地,产业规模居全国前列。在迈向高质量发展的过程中,软件企业普遍出现研发周期长
2025-12-04 20:11:00
国内首个AI钢管智能检测模型在中油宝世顺公司投入运用
河北新闻网讯(张辉、李少波)“焊缝影像在屏幕如放电影一样一帧接一帧闪过,1分钟能完成4米钢管检测,两分钟能审核1000张检测影像并标注疑似缺陷的位置
2025-12-04 17:15:00
浙江日报义乌12月3日电 (记者 拜喆喆 何贤君 共享联盟·义乌 吴峰宇) 3日,义乌今年第1亿个跨境电商进口订单完成打包
2025-12-04 08:41:00