• 我的订阅
  • 头条热搜
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的 LLM 模型建立了新的 SOTA。 Llama 3 是如何炼成的?模型架构、预训练数据、扩大预训练规模和指令微调,是 Llama 3 成为最强开源 LLM 的四个关键要素。其中:1)模型架构Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama ...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。目前虽然有不少基础模型已经提出,但如何有效地在高度多样化的时序数据上训练基础模型仍是一个开放问题。近期,来自...……更多
为了强化AI,iPhone拉着三星让内存「独立」
...产生更大的疑问,毕竟这和M1芯片开始采用的「统一内存架构」似乎截然相反。简单来说,苹果在Mac上刚把内存塞进芯片没几年,而在iPhone上却要把芯片和内存拆开。另一方面,手机的AI化也已经在2024年成为了行业共识,理论上...……更多
山东移动全面接入DeepSeek,加速产业数智升级
...团队,联合中国移动研究院借助“芯合”算力原生平台跨架构迁移能力完成DeepSeek-R1-671B完整模型部署,支撑业务需求落地,通过自研AI+技术平台支持DeepSeek全尺寸大模型私有化部署,大幅提高模型部署与交付效率。丰富完备的算...……更多
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型
...,作为百川智能的首个MoE模型,Baichuan4-Air 行业首创了PRI架构,巧妙融合了Pyramid(金字塔架构)、Residual(残差结构)、Interval(区间结构)三种配置方式。与标准的MoE架构相比,Baichuan4-Air的MoE架构保持了MLP(多层感知机)和Atte.……更多
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
...三个维度融合起来。该模型参考Sora算法设计,采用了DiT架构,相比前代CogVideo模型推理速度提升了6倍。智谱AI成立于2019年6月,起源于清华大学计算机系知识工程实验室,专注于开发新一代认知智能大模型。一直以来,智谱AI以...……更多
谷歌大模型推理范式,主要分为两个阶段
...在推理过程,同时还不提高模型的推理成本。自发现步骤架构由此而来。它主要分为两个阶段。第一阶段指导大语言模型从原子推理模块中进行挑选、调整、整合,搭建出一个可以解决特定任务的推理结构。比如“创造思维”可...……更多
大模型到了该「验收」的时候
...型知识引擎采用的是目前主流的RAG(检索增强生成)技术架构为基础,不仅整合了OCR文档解析、向量检索、多模态大模型等技术,更能让企业通过模块化的应用模板快速开发落地。除了上文提到的汽车、法律等领域,腾讯云大模...……更多
企业级SaaS架构实战(2):架构视图与视角
...将其做好分类,便于快速获取相应信息?本文将介绍SaaS架构视图与视角,便于你了解相关内容,更好展开工作。把企业级SaaS系统架构描述清楚,是一项极其复杂的工作。因为企业级SaaS系统涉及的利益干系人众多,例如:客户、...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像素感兴趣(例如使用扩散 Transformer 生成漂亮图片),也应该包含特征预测损失,以便解码器的内部表征...……更多
智驾的遮羞布被掀开
...线没有了标准答案。理想在 AI TALK 上公布下一代自动驾驶架构 VLA(视觉-语言-行为大模型);小鹏最新技术架构则是打造一个云端世界基座模型,通过蒸馏方法,生产出小尺寸的车端模型XVLA;华为乾崑ADS4 引入了 WEWA 架构——WE...……更多
amd推出10亿参数语言模型系列amdolmo
...力。IT之家援引新闻稿,OLMo模型采用解码器(decoder-only)架构,并通过下一个标记预测(next-tokenprediction)进行训练,这种架构在生成文本和理解上下文方面表现出色。与其他同类开源模型相比,AMDOLMo在推理能力和聊天能力上表...……更多
角逐数据智能下半场,谁能引领下一个十年?
...发展基于AI与大模型的能力,进行着原有产品与技术体系架构的迭代升级,从最早期的数据中台演进到湖仓一体,再到结合大模型技术演进为ToB领域的数智基建。不过,囿于投资与业务价值不匹配及GPU市场价格的波动,当前大模...……更多
这个大模型,真的治好了我的论文阅读障碍
...问才能形成对于论文的完整认知。而且,一些关键的模型架构图、实验结果图还要自己去论文里找,实际节省的时间非常有限。在腾讯「元宝」的最近一次更新中,我们看到了这些问题的解决方案。他们新推出的「深度阅读模式...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...的应用都需要进行额外的安全测试和调整。Spirit LM模型的架构比较简单,训练过程就是基本的「预测下一个词」,不过「词」是通过编码器从语音或文本中提取的,然后通过解码器以原来的模态进行重新呈现;训练数据包括三种...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...扑感知的混合并行模式”。具体而言,刚才提到,该体系架构节点内部通信很快,但超节点之间通信比较慢。因此在混合并行模式下,一个通信超节点内部,采用数据并行;超节点之间则采用专家并行或模型并行。除此之外,还...……更多
字节版Sora火爆24小时,同名论文再次被热议
...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。以PixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。啥意思??——直接来看几个官方demo。First kill,现在手上有这...……更多
zyphra推出zamba2-mini1.2b模型
...一,内存占用减少了27%。Zamba2-mini1.2B主要通过高度优化的架构实现,融合了不同神经网络设计的优势,既能保持大型密集变压器的高质量输出,又能以更小模型的计算和内存效率运行。与前代Zamba1相比,Zamba2-mini的关键进步之一...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。 该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。算法 2...……更多
让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里
...现模型成本的降低的呢?郑纬民指出,“DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...在短问答方面表现出明显的优势,而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。△不同LLM在LooGLE上展现的长文本理解能力△不同模型在LooGLE短程问答上的性能△不同模型在LooGLE...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...DeepSeek此次是剑指大模型最核心的注意力机制。Transformer架构是现有大部分大模型繁荣的基础,但其核心算法注意力机制存在先天问题:为了理解和生成,会阅读文本里的每个词,并拿它与其他所有词作比较,导致处理文本越长...……更多
...了加速,提出微切片技术专门针对DDR利用率做了优化,在架构上对硬件进行了升级。除了硬件之外,高通在软件方面也做了大量工作。“我们之前推出了高通AI Stack,即高通AI软件栈产品,会在软件层面上兼容、支持目前高通异...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...些集群算力指标上又有所提升。 此次,百舸 4.0 在整体架构上相较 3.0 版本有了略微调整,从底层硬件往上依次分为资源层、组件层、大模型加速层和工具层。四层架构,各司其职,针对大模型的训推、部署和调优等全流程进一...……更多
联汇科技荣登「AI中国」机器之心2022年度评选两大重量榜单
...务,且已获得该领域主导型市场地位。联汇科技预训练大模型拥有国际领先的能力优势,自研多模态预训练大模型OmModel是全球最早一批基于大规模自监督学习的多模态人工智能算法之一,在ECCV 2022等多个顶会竞赛中领先谷歌、...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...开源开放,用户可直接通过磁链下载基本模型权重和网络架构信息。(图/钛媒体)xAI表示,Grok-1是一个由xAI 2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家(MOE)模型,远超OpenAI的GPT模型。...……更多
中国石油发布700亿参数昆仑大模型建设成果
...同调度能力有效加强;在实践探索中形成“1+4+N”大模型架构体系,提炼“三阶十步”的大模型项目建设方法论;启动中国石油人工智能创新应用大赛,大力营造人工智能创新氛围,积极培育人工智能文化,持续打造高水平人工...……更多
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
...将自然语言描述转化为动态视觉内容的复杂系统。在模型架构设计中,CogVideoX特别采用了因果3D卷积(Causal 3D Convolution),以高效捕捉时空维度上的复杂变化,使得模型能够更加精确地理解和生成富有细节的场景。同时,该模型...……更多
小鹏P7+18万开卖:何小鹏一夜封神!
...技术体系我们之前详细介绍过,传感器端应用了车规LOFIC架构摄像头,视野更好?。算法端,小鹏目前的端到端超越简单的“一段式”或“多段式”,采用了车端+云端大模型的方式:车端模型就是XNGP,真正大幅提升体验的关键是...……更多
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...最基础的介绍,而最最重要的信息就是,它不再是一个DiT架构的模型,也就是和现在几乎所有最知名的文生视频模型架构都不一样。用Meta视频生成团队的研究科学家Andrew Brown的话说,在这个项目里最大的发现就是:数据,算力...……更多
更多关于科技的资讯:
济宁能源融汇数易:为客户提供一站式数字服务
鲁网12月22日讯(记者 徐景春 周正杰)近日,记者来到济宁能源融汇数易采访,在融汇数易供应链综合服务平台监控中心,大屏幕上实时跳动着物流订单
2025-12-22 11:45:00
章剑华散文集《人生简史》新书出版分享会在南京召开
近日,由江苏散文学会主办的章剑华散文集《人生简史》新书出版分享会在南京召开,作家出版社有限公司董事长、社长鲍坚,江苏省作家协会原一级巡视员
2025-12-22 11:59:00
让AI有“情商” 具身情感智能平台在合肥发布
大皖新闻讯 随着人工智能技术的发展,“人机共生”已成必然。但是,当前绝大多数AI都严重缺乏“情商”,成为“人机共生”核心瓶颈之一
2025-12-22 12:04:00
从南京先锋书店的牛皮纸袋,到直播间里一句“想要治愈系书单”的即时回应,再到书店老板用盲盒一夜清空库存——图书盲盒作为将“纸质书”与“盲盒经济”糅合的产物
2025-12-22 12:14:00
友成基金会“香橙妈妈守艺计划”非遗创变营圆满落幕
2025年12月10日,友成基金会“香橙妈妈守艺计划”非遗焕新创变营在成都红仓·萌想星球107文创产业园开营。来自全国12个省市18区县的18位非遗受益人齐聚
2025-12-22 12:20:00
密切警企协作,米连科技以技术风控守护用户安全
在网络诈骗手段花样翻新、线上安全成为社会普遍关切的当下,营造清朗的网络空间需要社会各方的协同努力。作为在线情感社交领域的参与者
2025-12-22 13:20:00
景秀游戏《偃武》联动昆明市博物馆 让古滇文明触手可及
近日,景秀游戏旗下三国题材策略游戏《偃武》与昆明市博物馆正式启动“古滇文明数字复兴”计划,作为深耕数字娱乐领域的企业,景秀游戏始终希望以游戏为载体
2025-12-22 13:20:00
[摘要]随着人工智能技术的迅猛发展,高等教育正在经历深刻变革。这就要求高校在研究生培养模式上深化改革,大胆创新,积极推动人工智能(AI)技术在研究生培养中的融合路径与实践
2025-12-22 11:10:00
据媒体报道,今年以来,杭州知名“网红大楼”丽晶国际大厦——这座巅峰时期汇聚了近两万名主播与从业者、“一栋楼的GDP堪比一个县”的楼宇
2025-12-22 08:18:00
味蕾实验TASTELAB首次亮相引领零食行业科学化升级新征程
2025年12月20日,全新零食品牌味蕾实验TASTELAB在上海正式举办品牌发布会。本次活动以“让味觉被看见”为核心主题
2025-12-22 08:49:00
乌江榨菜全民创意共创:深度对话Z世代的品牌焕新
当传统品牌纷纷叩响年轻化的大门,仅靠历史底蕴已不足以触动Z世代的心。作为榨菜行业的领军者,乌江榨菜早已展开前瞻布局:从早年携手B站打破次元壁
2025-12-22 08:49:00
在保险行业向专业化、精细化、集约化发展的背景下,富德生命人寿以科技引领创新,积极布局集约化运营模式,构建起以总部为核心的全国理赔集中运营格局
2025-12-22 10:32:00
彰显实力!大咖素质训练营荣获“2025年度影响力教育品牌”奖项
近日,由新浪教育与微博教育联合主办的“新浪&微博 2025 教育盛典”于北京圆满落幕。大咖素质训练营凭借在素质教育领域的深耕积淀
2025-12-22 10:49:00
不用提前抢,西湖消费券带火实体商户:3天,星巴克黄龙广场店增收50%
作为促消费的首创实践,杭州西湖区“疯狂碰友日・西湖首发季”交出亮眼成绩单:首期三天,21 万市民参与“即碰即用”消费券活动
2025-12-22 10:49:00
近日,深耕青少年语言教育领域近十年的创业者徐萌,凭借其专业的课程体系与显著的教学成效,受到教育界广泛关注。徐萌毕业于中国传媒大学播音与主持专业
2025-12-22 08:49:00