• 我的订阅
  • 头条热搜
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。 基于架构的方...……更多
架构优先、先易后难,华为的制造业生成式AI方法论
...投入大的挑战,华为中国政企业务副总裁郭振兴提出了“架构优先、先易后难,化零为整,缓进急战”十六个字原则,加速推进AI与制造行业深度融合的进程。基于统一平台,将AI大模型应用逐步落地在向制造强国的迈进过程中...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Sp...……更多
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...究团队提出了轨迹基础模型的构建范式,旨在通过其模型架构设计和数据集支撑的流程,克服现有方法的局限性,实现跨任务、跨区域的泛化能力,并在不同数据质量下保持鲁棒性。具体来说,研究团队首先收集了一个全球范围...……更多
...的360通过其首创的CoE(Collaboration of Experts,专家协同)技术架构及混合大模型对“慢思考”进行落地实践,该技术架构已落地在360 AI搜索、360 AI浏览器等多款产品中。AI助手通过CoE架构还接入了很多小参数专家模型,在回答简单问...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...型,但后来有朋友告知,这个大厂新模型完全就是LLaMA的架构,但为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。此外,海外也有工程师直接指出了这一点。“我们是小公司也不想得罪大佬...……更多
中国算力大会启幕  联想举办异构智算产业生态联盟技术论坛
9月27日,2024中国算力大会在河南郑州拉开帷幕。作为全球领先的算力基础设施和服务提供商,联想集团参会参展并携手异构智算产业联盟承办2024异构智算产业生态联盟技术论坛。论坛发布了新一代AI服务器、AI应用部署解决方...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...材”可以帮助大模型更好地适应不同类型的问题。模型的架构和训练过程,包括模型大小和训练超参数的选择,对于模型性能很重要,可以理解为在“建造大模型大楼”的过程中,需要选择“合适的建筑材料”和“施工方法”。...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
...86B等。MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...igurable Dataflow Unit)为代表的动态可重构数据流(Dataflow)架构的芯片,能够通过并行处理和高效数据移动来优化性能和效率,近年越来越被认为是一个重要的发展方向。数倍于 GPU 推理性能来自 SambaNova 最新一代 RDU SN40L近日的芯...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸...……更多
Yandex推出开源大语言模型训练工具,称可节省高达20%的图形处理器资源
...内存使用量的公开可用的最有效工具,与FSDP相比,根据架构和参数数量,其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间,可以节省高达20%的图形处理器资源。Yandex公司高级开发人员、YaFSDP开发团队成员米哈...……更多
...成更困难、更复杂的任务。“空天·灵眸”3.0版内核工作架构是基于热传导,这是联合团队自主研发的一套小而精的原创性架构。受传热学物理思想启发,联合团队将场景目标间视觉语义传播建模为热能扩散过程,从而使该架构...……更多
谷歌推出aihypercomputer超级电脑架构
...语言模型Gemini1.0、云端AI芯片TPUv5p外,还推出了超级电脑架构AIHypercomputer。获悉,AIHypercomputer电脑架构号称“软硬结合”,整合了为AI优化的硬件、开源软件、主流深度学习框架,并号称采用灵活的定价模式,便于商业及研究部...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...星通话,首个端侧应用70亿参数大模型,首次亮相的潮汐架构等诸多前沿技术。此次宣布的全新技术组合将全面落地下一代旗舰产品FindX7系列,为2024年旗舰手机树立全新的技术标杆,并为消费者带来刷新标准的创新旗舰体验发布...……更多
meta推出“v-jepa”视频预测模型
...Cun在2022年推出了JEPA(JointEmbeddingPredictiveArchitectures)模型架构,次年基于JEPA架构开发了一款“I-JEPA”图片预测模型,目前又推出了一款名为“V-JEPA”的视频预测模型。据介绍,相关JEPA架构及I-JEPA/V-JPA模型主打“预……更多
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同,HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵,分别处理不同的任务,从而避免任务间的干扰...……更多
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
...一个模型,同时胜任所有任务?近些年来,包括Transformer架构在内的一系列工作,虽然在细分任务上展现出色的性能,但由于缺乏灵活和通用的时序特征的提取能力,无法成为通用的模型架构。为了解决这些问题,来自MIT、港科...……更多
RNN回归!Bengio新作大道至简与Transformer一较高下
...学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序...……更多
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
...出得更早,方法更前瞻,落地应用也更快。他们所采用的架构,已经可以和o1匹敌,如果更新到下一代大模型,甚至还有可能实现领先。没错,这次周鸿祎和OpenAI所采用的路线殊途同归,不谋而合了。360首创的CoE架构,已经可以...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...型大小)实现了更好的性能。最后,作者结合 Transformer 架构的最新进展,例如逐层缩放、使用 MoE 的稀疏 Transformer,以提高大规模训练的性能。作者提出的低成本训练 pipeline 减少了实验开销。除了使用真实图像,作者还考虑在...……更多
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...披露了更具参考意义的信息,主要包括从数据准备、模型架构、训练方案及优化策略几个方面。数据准备依托快手在视频技术领域的多年积累,可灵大模型团队已经构建了完备的标签体系,包括从视频基础质量、美学、自然度等...……更多
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
硬件发展速度跟不上 AI 需求,就需要精妙的架构和算法。根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。可以看到,AI 对算力的需求每年都以 10 倍幅度增长,而硬件速...……更多
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
...此之外,他还谈到当前大模型的局限性、以目标驱动的AI架构,包括利用世界模型进行推理和规划,最后强调了开源AI的重要性。对于未来发展,他提到,最终机器将超越人类智能,但它们将受到控制,因为它们是目标驱动的。...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
【新智元导读】Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数...……更多
有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍
...队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。nGPT架构的核心在于将所有...……更多
...供赋能,如知识中心、研报撰写、机构自建产品线等,助力大模型技术满足多样化的复杂场景需求。RAG技术即检索增强生成是该模型的一大技术特点。基于此,在具体应用中,可自由定制构建企业的知识库,以及提供智能客服、...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如此神速AI生图工具,...……更多
黄仁勋对话Transformer七子:我们被困在原始模型里,还需要更强大的新架构
...名为Attention is all you need 的论文,其中所提出的Transformer架构,为当下大热的ChatGPT、Gemini等大模型打下基础,人工智能领域从此变天。论文的八位作者,也被称为“Transformer八子”。不过,八位作者后来也陆续离开谷歌。除Lukasz K.……更多
更多关于科技的资讯:
河北新闻网1月24日讯 今天,河北省商务厅发布《2025年河北省家电以旧换新及手机等数码产品购新补贴有关工作的公告》,公告称
2025-01-25 07:44:00
天津哪些店买手机能用国补了?津云实地探访 扫码阅读手机版
手机、平板、智能手表(手环)购新补贴(简称“国补”)在全国陆续开启市场情况怎么样?消费者反馈如何?享受补贴的过程中需要注意哪些问题
2025-01-25 07:48:00
全村希望看尊界 江淮汽车:预计2024年亏损约17.7亿元
快科技1月25日消息,江淮汽车昨日发布的业绩预告显示,预计2024年净亏损约17.7亿元,与上年同期(法定披露数据)相比
2025-01-25 08:04:00
打赌喝马桶水给1万事后反悔起诉索回:酒后行为、纯属娱乐
1月25日消息,在日常生活中,有人经常会和朋友做一些“无伤大雅”的赌约。那么这种“游戏”赌约到底该不该履行?双方是否需要承担法律责任呢
2025-01-25 08:34:00
抖音电商上线国家补贴手机销量大增300%:小米15系列销量创新高
快科技1月25日消息,日前,抖音电商发布2025年货节数据,1月2日至22日,抖音商城日均成交额较去年同比增长69%,71个商家成交额破亿元
2025-01-25 08:34:00
前期货量稀少!英伟达RTX 5090马上上市:价格热炒至5W+
快科技1月25日消息,随着RTX 5090上市时间临近,一些黄牛已经行动,想趁机大赚一波(毕竟前期供应量也会非常少)。据悉
2025-01-25 08:34:00
哪吒新车出事故两个月还没修 女车主:4S店说没配件
快科技1月25日消息,据报道,去年年初,朱女士花费13万元购买了一辆哪吒X。但在去年11月5日时,她妹妹因为驾驶技术不熟练
2025-01-25 08:34:00
从商业卫星出海,到入选探月工程,地卫二空间技术(杭州)有限公司(以下简称“地卫二”)再次迎来令人瞩目的“飞升”。1月24日
2025-01-25 09:04:00
绝地传奇再续新篇
迪斯尼正运用双管齐下策略,一头是利维负责,与天行者无关的独立篇章;另一头留用黛西·雷德利出演蕾伊,故事设定于《天行者崛起》(2019)十五年后
2025-01-25 09:04:00
反向春运票价低至2折 长沙至广州硬座仅需18元
快科技1月25日消息,据央视财经报道,近年来,“反向春运”旅客越来越多,不少老人选择来到儿女工作的城市过年。春运期间,铁路客流呈明显单向特征
2025-01-25 09:04:00
网易云音乐回应下架韩国SM旗下全部歌曲:暂时保留 争取长期稳定版权合作
快科技1月25日消息,今日,网易云音乐发布SM版权续约最新进展的公告,版权到期后暂时无需下架。公告表示,经过广大歌迷朋友们的大力支持和热切呼吁
2025-01-25 09:04:00
本文转自:人民网-江西频道有了上下料视觉机器人、AGV物流小车等科技加持,13条智能加工产线只需配备6名看线员;一个通用直料部件餐椅后腿
2025-01-25 09:11:00
深圳餐馆老板“亏损喜报”走红网络 回应:我心里其实很开心
快科技1月25日消息,据媒体报道,近日,深圳市福田区一家餐馆因其老板张贴的特别“喜报”在网络上迅速走红。该喜报的标题为“家有喜事
2025-01-25 09:34:00
没影响!泰国曼谷在春节航线目的地仍排第一:单日入境中国游客超2万人
1月25日消息,据国内媒体报道称,2025年春节假期(2025年1月28日至2月4日)国内航线机票预订量超过958万张
2025-01-25 09:34:00
车险好投保”平台今日上线:高赔付风险新能源汽车投保 险企不得拒保
快科技1月25日消息,据中国保险行业协会官方消息,为贯彻落实金融监管总局、工业和信息化部、交通运输部、商务部《关于深化改革加强监管促进新能源车险高质量发展的指导意见》
2025-01-25 09:34:00