• 我的订阅
  • 头条热搜
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设...……更多
史无前例!Seq2Seq和GAN同获NeurIPS时间检验奖,Ilya连续2年获奖
...范式转变,该领域受益于这项工作奠定的基础。这是建立编码器-解码器架构的基础工作,启发了后来基于注意力的改进,导致了今天的基础模型研究。 值得一提的是,三人的另一项工作——word2vec,也斩获了去年的NeurIPS时间检...……更多
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...究表示了认可:「我们知道,当使用自监督学习训练视觉编码器时,使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...目前的大模型主要基于Transformer架构,有三种主流架构:编码器(encoder-only,例如BERT)、编码器-解码器(encoder-decoder,例如T5),以及解码器(decoder-only,例如GPT)。这几个架构都是国外设计并流行起来的。“国内在原始创新和自主研发...……更多
腾讯云在msu世界视频编码器大赛上表现出色
腾讯云官方发布公告称,其编码器产品在MSU世界视频编码器大赛上表现出色。该赛事由莫斯科国立大学主办,是业界最具权威和影响力的比赛之一。视频编码技术对于降低视频存储、传输和播放的成本至关重要。以一部两小时...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...SAM 2 的关键部件包括一个用于提取帧特征的大型多级图像编码器,以及一个用于存储过去帧上下文以帮助当前帧分割的存储机制。多级图像编码器和内存模块的高计算复杂度限制了其在实际任务中的应用,例如移动设备上的视频...……更多
关注世界互联网大会 | 创新发展典型案例揭晓 快手、360等十大项目入选
...备高质量、高密度、智能化的特点。相比业内常用的硬件编码器,SL200具备更高的视频压缩质量和编解码密度,相比x265 medium节省约30%码率,单卡可支持8K@120fps或8路4K@60fps转码,达到业界领先水平。高质量视频压缩与高密度编解...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
.../2410.10629Sana的核心设计包含了以下几个要素:深度压缩自编码器(AE):传统自编码器只能将图像压缩8倍,全新AE可将图像压缩32倍,有效减少了潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的...……更多
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
...个表示空间中进行预测。两个嵌入将被破坏的版本X送入编码器,将Y送入编码器,然后训练系统从X的表示中预测Y的表示。那么如何做到这一点呢?如果单纯使用梯度下降和反向传播这样的方法来训练系统,以减少预测误差,那...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...律性。 动态交通模式:除了周期性变化外,作者的时间编码器还捕捉交通数据随时间演变的复杂、非线性时态动态和趋势。周期性交通转换建模作者利用时间嵌入D和空间嵌入C捕获交通中的周期性模式,目标是揭示历史交通模式...……更多
无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品
...器和内存模块的多次处理上。然而,这些模块相较于图像编码器来说非常轻量。例如,SAM 2-Large 的图像编码器包含 212M 个参数,而模型其余的参数只有 12M,大约仅占模型的 5%。因为 SAM2Long 也只需要处理一次图像编码器,所以内...……更多
美国东北大学提出视频数据增强方法,能让视频模型学到更好的表征
...热门的多模态大模型的研究,本次方法可被用于视频模态编码器的训练中,从而让模型提取更好的关于视频模态的表征。除此之外,该团队所提出的可用于解决色调变换所导致的分布偏移的方法——Variation Alignment,也是一个能...……更多
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...础模型 UniTraj在模型的架构设计上,UniTraj 采用了灵活的编码器 - 解码器架构,为了提升模型的计算效率、鲁棒性和对各种数据质量的适应能力,作者在模型训练过程中进一步集成了一系列的重采样策略和掩码策略。重采样策略...……更多
在视频编码领域锐意进取
...影响更加明显,比如《王冠》中某集烟雾弥漫的场景堪称编码器的噩梦。这些挑战影响到了安妮的日常生活,她散步时会考虑这些问题,拿起镶满水钻的手机壳时会想到《芭比梦幻屋》中的喷泉,甚至自己的孩子也会指着某样东...……更多
...一步解析Sora的技术原理,Sora是将原始视频通过一个视觉编码器编码到隐空间形成隐时空块,这些隐时空块(结合文本信息)通过三维Transformer结构做扩散模型的训练和生成,将生成的隐时空块再通过视觉解码器解码到像素空间...……更多
索泰rtx4080super测评
...和编解码方面的性能表现,GEFORCERTX4080SUPER配备了2个NVENC编码器,且支持新一代AV1视频编码技术,相同视频大小下能够提供更加快速的视频编码和更高质量的流媒体传输性能。国内的剪映专业版已经实现了对NVIDIAAV1视频编码器的...……更多
【玖越机器人】堆叠降噪自动编码器(SDAE)
自动编码器(Auto-Encoder,AE)自编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层 h,可以产生编码(code)表示输入。该网络可以看作由两部分组成:一个由函数 h = f(x) 表...……更多
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
...了解决这些问题,智谱 AI 自研了一个高效的三维变分自编码器结构(3D VAE),可以将原视频空间极致压缩到 2%,使得模型训练成本大幅下降,训练难度也大大降低。模型结构采用因果三维卷积(Causal 3D convolution)为主要模型组...……更多
...多变的行业5G网络环境,如钢铁现场、煤矿作业。基于自编码器的物理层安全传输技术能够进行针对性安全编码设计,通过机器学习算法完成信道模型的自动建模和编码,实现数据驱动的自动化编译码、最大化通信保密速率。面...……更多
智谱ai训练cogvlm2-video开源
...的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出CogVLM2-Video模型。智谱AI表示,CogVLM2-Video不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。 ……更多
Meta 公司发布 Imagine Yourself AI 模型
...括:生成合成配对数据以鼓励多样性; 整合了三个文本编码器和一个可训练视觉编码器的完全并行注意力架构; 以及一个从粗到细的多阶段微调过程这些创新技术使该模型能够生成高质量、多样化的图像,同时保持强大的身...……更多
200小时满载连轴转稳定无压力,惠普战99商用台式机全面评测
...,极大提升了视频处理效率。↑直播软件支持IntelQSV视频编码器 当启用QuickSyncVideo时,惠普战99台式机能够轻松实现4K60帧的高清直播,且不会发生掉帧现象。这一过程中,GPU承担了大量视频编码的负载,有效地减轻了CPU的压力,...……更多
微软确认 Win11 24H2 将不再内置 AC-3 编解码器(杜比数字)
...些会用到AC-3 解码器的老片时将无法打开。 实际上,AC-3 编码器(Dolby Digital)目前已经在被逐步淘汰,因此大部分流媒体平台和媒体公司都已经不再使用该编码器。如果你要用到一些使用 AC-3 编码的较旧文件,还可以从 Microsoft ...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...这也就是所谓的 token 化。」图像的 token 化通常需要一个编码器 ENC、一个量化算法 QUANT 和一个解码器 DEC。目前,主流的图像 token 化方案有两种:VQGAN 和 BAE;它们的主要区别是离散化隐向量的方式 。经过 token 化处理之后,图像...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...训练,其他映射器被冻结。在 Stage 2,研究者冻结了视觉编码器,并训练了 LLM 和多模态映射器。在 Stage 3,研究者针对短数据指令遵循任务对模型全面进行微调,比如使用图像和短视频数据集。在 Stage 4,研究者以持续预训练的...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与图像之间的相似度(image-to-image metric),而无法判断文本和图像之间的相似度(text-to-image metric)...……更多
显卡对于游戏的重要性,你知道多少?
...专门针对游戏玩家直播的需求推出了一项解决方法:NVENC编码器,通过与直播软件的合作优化,从硬件级层面把显卡的编码能力利用起来,让游戏玩家可以把自己游戏的视频清晰同步到直播网站上。这可不是一项简单的操作,如...……更多
2022-12-15 09:36:00重要性,显卡
...的视频编辑体验。经测试,借助RTX 5090 D上多达三个专用编码器以及RTX 5080和5070 Ti 上的两个专用编码器,Wondershare Filmora/万兴喵影的用户在使用搭载RTX 5070 Ti 及以上级别GPU的电脑进行视频剪辑时,其视频导出速度较上一代GPU相比...……更多
更多关于科技的资讯:
近日,兴业数金上线投产跨境人民币理财项目,建立基于手机银行APP的“跨境理财通”线上功能专区,助力本行成为第二家实现“跨境理财通”业务全线上办理的内地商业银行
2025-12-06 16:08:00
“我是一名肢残三级的残疾人,请问能享受哪些补贴?”输入文字,几秒钟过后,手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来
2025-12-06 10:21:00
河北日报讯(张晓超、李娜)11月19日,辛集市教育北路高架桥上空,一架搭载高清摄像头与专业传感器的无人机缓缓升空,按照预设航线开展桥梁日常检测
2025-12-05 14:56:00
烟台南山学院斩获省部级科技奖荣誉
近日,2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”
2025-12-05 15:00:00
盐城盐都:“芯”智散热赋能 科创驱动前行
江南时报讯 以科创破局散热赛道,以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮,盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势
2025-12-05 15:07:00
中新建电力集团发电产业:智慧电厂新蓝图
近日,中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级,上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划
2025-12-05 15:09:00
日前,建行河北省分行2025年“人工智能+”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛,经过严格的初审选拔
2025-12-05 15:09:00
全国首台套!助力煤矸石全量高值转化
12月1日,由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运
2025-12-05 15:10:00
如何“反内卷”?54.5%职场人将“优化薪酬激励机制”列为首选
什么是“好工作”?工作有哪些特质会让员工有“好”感受?日前,智联招聘通过问卷调研的方式,对平台用户展开调研,回收3525份有效样本
2025-12-05 15:26:00
国航举办“国航+”生态主题发布会
海外网北京12月5日电(记者严冰)12月5日,中国国际航空股份有限公司(以下简称“国航”)在北京举办“云端无界 凤启耀星河——‘国航+’生态主题发布会”
2025-12-05 15:33:00
乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业!
12月5日,国内仓储式品牌特卖开创者荟品仓,在房山区瑞来广场盛大开业,带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣
2025-12-05 15:55:00
易生支付“智慧分账”赋能安心鲜生 驱动社区零售全国布局
在社区零售数字化转型加速深化的背景下,易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力
2025-12-05 16:09:00
ED用药怎么选?金钢鸟领衔西地那非口崩片品牌阵营,购买渠道全解析
第91届全国药交会上,金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相,让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点
2025-12-05 16:09:00
苏州黄埭镇推动“产学研”深度融合
江南时报讯 日前,苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作,联合启动轮式双臂机器人研发项目,致力于推动创新成果向现实生产力加速转化
2025-12-05 16:13:00
近邻碰碰:以 “邻里经济”打造智慧社区消费新生态 —— 专访小门神传媒科技集团董事长付信中
鲁网12月4日讯“远亲不如近邻”,这句家喻户晓的俗语,如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备
2025-12-05 16:47:00