• 我的订阅
  • 头条热搜
DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代
...故事生成等新能力架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...的研究,可能推动新一代规模更大的模型的发展。 更高分辨率的多模态学习最近,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,相比上代模型,Qwen2-VL 的基础性能全面提升:读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用; 具备...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Sta...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...了一个全新的视觉编码器。基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。最近,提升多模态大模型处理高分辨率图...……更多
metareality推出sapiensai视觉模型
...几何形状非常有价值。Meta公司表示该模型可原生支持1K高分辨率推理,并且非常容易针对个别任务进行调整,只需在超过3亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺或完全是合成数据的情况下,所生成的...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...回归学习,采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。 这种简单直观的方法使得自回归(AR)Transformer能够快速学习视觉分布,并且具有较好的泛化能力:VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Tran...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...1、文本特征作为起始token map,根据起始token map生成更高分辨率的token map这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性2、在每个transformer层引入...……更多
AI视觉进入“大模型时代”不仅“看得见”还“看得懂”
...泉卫星发射中心发射,能满足目标识别级的遥感感知的高分辨率、视频等多种探测需求。在今年夏天京津冀地区的防汛工作中,‘珞珈二号’观测到堤防决口的影像,第一时间发布预警,帮6300余名群众当天完成转移。”动态监...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...颈,尤其是对于抽象图表而言,因此未来提升编码器图像分辨率可以增强LLM的细粒度认知能力参考资料:https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/https://arxiv……更多
meta推出全新ai图像生成器,可创建高分辨率图像
...现有的Emu图像生成模型提供支持,可根据文本提示创建高分辨率图像。它目前对美国的英语用户免费使用(后续是否收费未知),并且每个提示都会生成四个图像。此前,Meta图像生成模型因带有种族偏见的图像贴纸而面临争议...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...效果苹果做了各种变量实验,通过修改数据源、修改图像分辨率等,来看各种因素对模型效果的影响。△摘自苹果发布的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》目前,苹果发现让多模态大模型变得更聪明.……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相...……更多
谷歌大幅更新生成式AI,推出视频模型VEO 2和最新版Imagen3
...型的风格,指定镜头,建议电影效果,Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如,要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头,Veo 2都能实现。提示“18mm镜头”,Veo 2知...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...。采用文生视频和图生视频功能生成的视频最长为5秒,分辨率最高为720P,帧率为每秒24帧。采用生成扩展功能的视频最多可延长2秒,视频背景音效延长10秒。Firefly视频模型作为Adobe生成式AI套件的扩展,已经被集成到其云端套装...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...消融研究,STIV 尽管设计简单,却表现出了强大的性能。分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中,同样……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...o-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如此神速AI生图工具,竟是出自英伟达MIT清华全华人团队之笔!正如其名字一样,Sana能以惊人速度合...……更多
谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺
...的视频。从官方介绍中看,此次主要有三个方面的升级。分辨率能达到4K;能够理解有关镜头控制的Prompt;更注重现实物理世界与人类表情的理解和展示。在官方账号底下,大家都对这些效果表示了惊叹:我真的想谷歌输掉比赛...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...束位置ID固定后,在中间插值位置ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。相比之下,「扩展-PE」(expand-PE)方法按序列长度成比例增加位置ID,不使用任何技巧或归一化,性能表现良好,没...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。LLaVA模型架构基于大量的图像-文本配对的数据集...……更多
英伟达超快stylegan回归
...数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。它的整体架构如下:具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本...……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...型能够以线性复杂度实现有效的序列建模,在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。 然而,Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax ...……更多
DLSS 4显神威!《星际战士2》DLSS 4和3画面对比
DLSS 4的一大升级便是超分辨率增强,模型从CNN换成了Transfomer,后者可以让玩家在开启DLSS时游戏图像质量更加清晰,比如下图这张《战锤40K:星际战士2》的对比。可以看到DLSS 4性能模式下的截图仍然比DLSS 3质量模式下的截图更...……更多
标贝科技上亿像素点图像标注能力 实现标注精度和效率双提升
...据需求向精细化、场景化发展,需要使用更大像素、更高分辨率的图像以提供丰富细致的信息进行训练和推理,标注数据的规模和复杂性也随之增加。如何提高超大像素图像数据标注的效率和精度,成为当前亟待解决的问题。例...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...b/main/assets/hunyuanvideo.pdf二、腾讯混元的下一步:提高视频分辨率和生成速度腾讯混元多模态生成技术负责人凯撒谈道,文生视频与图像生成在技术上有着密切联系。虽然视频生成建立在图像生成的基础上,但它对动态时序信息和...……更多
meta推出两款基于ai的图像编辑工具
...同,EmuVideo更简单,仅使用2个扩散模型,就能生成512x512分辨率、每秒16FPS、长4秒钟的视频。IT之家发现,Meta援引评估数据,证明EmuVideo生成的视频品质以及“遵循提示词的忠实程度”相对业内竞品更好。在品质方面,有96%受访...……更多
更多关于科技的资讯:
“你好,顺丰快递,来送‘国补’数码产品。”10月21日,市民陈洁收到了网购的手机。这款手机享受“国补”和以旧换新后,比市场价便宜了不少
2025-10-24 08:05:00
集美加快布局新能源商用车赛道
“集链聚能 智驭未来”——2025厦门新能源商用车产业“四链融合”对接会吸引资源对接。(本组图/集美区 提供)企业展示的各类新能源商用车
2025-10-24 08:58:00
第三届“苏颂杯”未来产业技术创新赛圆满收官
大赛组委会为一等奖项目颁奖。台下,选手们仔细聆听台上评委点评。 海外嘉宾发来视频点评本届“苏颂杯”大赛。(本组图/市科技局 提供)厦门网讯(厦门日报记者 李晓平 通讯员 庄佩贞)经过激烈角逐
2025-10-24 08:58:00
珍爱网受邀参与“清朗网络守护者”启动大会 筑牢网络安全坚实屏障
在数字化快速发展的今天,网络安全已成为国家安全的重要组成部分。近日,由政府相关部门指导,深圳广播电影电视集团主办的以“聚焦网络空间治理 护航社会高质量发展”为主题的“清朗网络守护者”启动大会在深圳正式举行
2025-10-24 08:59:00
90 载科学传承:GNC 以城市环游诠释运动营养真谛
以骑行运动为突破口,GNC加速深耕中国运动健康市场2025年10月23日,首届环贵州公园省国际公路自行车赛圆满落幕。GNC健安喜作为铂金赞助商及官方唯一指定营养补充剂品牌
2025-10-24 08:59:00
“微米”社交APP以线下实名社交破局
近日,一款名为“微米(WEMET)”的创新型社交应用正式面世,其以“地图社交+线下实体联动”为核心模式,围绕“真实、附近
2025-10-24 08:59:00
全国首例!吉大中日联谊医院成功植入超百通道侵入式柔性脑机接口
10月22日,记者从吉林大学中日联谊医院获悉,神经外科高宇飞、张金男团队与北京智冉医疗科技有限公司联手,在全国率先成功完成首例超百通道侵入式柔性脑机接口的临床植入手术
2025-10-24 11:08:00
客如云AI碰碰贴“商业增长引擎”,让营销触手可及
在数字经济深度融入实体经济的当下,实体门店正面临“营销落地难、用户互动低效、场景覆盖有限”的共性挑战——传统推广依赖人工操作与分散物料
2025-10-24 11:20:00
继感知位置后!海尔空调将发布可感知呼吸的新品,可自适应送风
曾经,手动调节、躲避直吹是使用空调时的日常烦恼;如今,随着“主动感知”成为可能,空调正变得真正“懂你”。继10月21日首发可感知人体位置的海尔麦浪舒适风空调后
2025-10-24 11:22:00
“今天查,明天做”ICL晶体云柜正式落户福州普瑞眼科 高清视界无需等待
廿载耕耘,瞩目焕新!在普瑞眼科成立20周年之际,福州普瑞眼科迎来又一重大技术升级——正式启用EVOICL官方授权“云柜系统”
2025-10-24 11:29:00
厦门新能源商用车应用场景清单发布东南网10月24日讯(海峡导报记者 康泽辉)厦门市新能源商用车应用场景清单发布,聚焦5类道路场景43个应用场景项目
2025-10-24 11:30:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战
2025-10-24 13:21:00
鲁网10月24日讯作为支撑信息通信网络稳定运行的“核心枢纽”,通信机房承载着海量高功耗数据设备,其温度精准控制直接关系到网络畅通与服务质量
2025-10-24 13:47:00
鲁网10月24日讯近日,东平农商银行向东平县百通电子商务有限公司发放400万元创业担保贷款,为企业扩大经营规模、优化供应链提供强有力的金融支持
2025-10-24 13:48:00
鲁网10月24日讯东平农商银行始终以客户需求为导向,创新构建“三快”服务体系。通过深化协同服务、优化业务流程、强化跟踪保障
2025-10-24 13:49:00