• 我的订阅
  • 头条热搜
DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代
...故事生成等新能力架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...的研究,可能推动新一代规模更大的模型的发展。 更高分辨率的多模态学习最近,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,相比上代模型,Qwen2-VL 的基础性能全面提升:读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用; 具备...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Sta...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...了一个全新的视觉编码器。基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。最近,提升多模态大模型处理高分辨率图...……更多
metareality推出sapiensai视觉模型
...几何形状非常有价值。Meta公司表示该模型可原生支持1K高分辨率推理,并且非常容易针对个别任务进行调整,只需在超过3亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺或完全是合成数据的情况下,所生成的...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...回归学习,采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。 这种简单直观的方法使得自回归(AR)Transformer能够快速学习视觉分布,并且具有较好的泛化能力:VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Tran...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...1、文本特征作为起始token map,根据起始token map生成更高分辨率的token map这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性2、在每个transformer层引入...……更多
AI视觉进入“大模型时代”不仅“看得见”还“看得懂”
...泉卫星发射中心发射,能满足目标识别级的遥感感知的高分辨率、视频等多种探测需求。在今年夏天京津冀地区的防汛工作中,‘珞珈二号’观测到堤防决口的影像,第一时间发布预警,帮6300余名群众当天完成转移。”动态监...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...颈,尤其是对于抽象图表而言,因此未来提升编码器图像分辨率可以增强LLM的细粒度认知能力参考资料:https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/https://arxiv……更多
meta推出全新ai图像生成器,可创建高分辨率图像
...现有的Emu图像生成模型提供支持,可根据文本提示创建高分辨率图像。它目前对美国的英语用户免费使用(后续是否收费未知),并且每个提示都会生成四个图像。此前,Meta图像生成模型因带有种族偏见的图像贴纸而面临争议...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...效果苹果做了各种变量实验,通过修改数据源、修改图像分辨率等,来看各种因素对模型效果的影响。△摘自苹果发布的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》目前,苹果发现让多模态大模型变得更聪明.……更多
华人团队爆火instructblip抢跑看图聊天
...,BLIP-2)相比,InstructBLIP在指令微调期间保持相同的图像分辨率(224×224),并在微调期间保持视觉编码器的冻结状态。这大大减少了可训练参数的数量,从1.2B到188M,从而大大提高了微调效率。作者介绍WenliangDaiWenliangDai(戴文亮...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相...……更多
谷歌大幅更新生成式AI,推出视频模型VEO 2和最新版Imagen3
...型的风格,指定镜头,建议电影效果,Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如,要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头,Veo 2都能实现。提示“18mm镜头”,Veo 2知...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...。采用文生视频和图生视频功能生成的视频最长为5秒,分辨率最高为720P,帧率为每秒24帧。采用生成扩展功能的视频最多可延长2秒,视频背景音效延长10秒。Firefly视频模型作为Adobe生成式AI套件的扩展,已经被集成到其云端套装...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...消融研究,STIV 尽管设计简单,却表现出了强大的性能。分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中,同样……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...o-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如此神速AI生图工具,竟是出自英伟达MIT清华全华人团队之笔!正如其名字一样,Sana能以惊人速度合...……更多
谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺
...的视频。从官方介绍中看,此次主要有三个方面的升级。分辨率能达到4K;能够理解有关镜头控制的Prompt;更注重现实物理世界与人类表情的理解和展示。在官方账号底下,大家都对这些效果表示了惊叹:我真的想谷歌输掉比赛...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...束位置ID固定后,在中间插值位置ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。相比之下,「扩展-PE」(expand-PE)方法按序列长度成比例增加位置ID,不使用任何技巧或归一化,性能表现良好,没...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。LLaVA模型架构基于大量的图像-文本配对的数据集...……更多
英伟达超快stylegan回归
...数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。它的整体架构如下:具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本...……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...型能够以线性复杂度实现有效的序列建模,在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。 然而,Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax ...……更多
DLSS 4显神威!《星际战士2》DLSS 4和3画面对比
DLSS 4的一大升级便是超分辨率增强,模型从CNN换成了Transfomer,后者可以让玩家在开启DLSS时游戏图像质量更加清晰,比如下图这张《战锤40K:星际战士2》的对比。可以看到DLSS 4性能模式下的截图仍然比DLSS 3质量模式下的截图更...……更多
标贝科技上亿像素点图像标注能力 实现标注精度和效率双提升
...据需求向精细化、场景化发展,需要使用更大像素、更高分辨率的图像以提供丰富细致的信息进行训练和推理,标注数据的规模和复杂性也随之增加。如何提高超大像素图像数据标注的效率和精度,成为当前亟待解决的问题。例...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...b/main/assets/hunyuanvideo.pdf二、腾讯混元的下一步:提高视频分辨率和生成速度腾讯混元多模态生成技术负责人凯撒谈道,文生视频与图像生成在技术上有着密切联系。虽然视频生成建立在图像生成的基础上,但它对动态时序信息和...……更多
更多关于科技的资讯:
户外品牌以技术创新,实现专业场景大众化破圈|世研消费指数品牌榜Vol.63
本次监测周期内,安踏、乔丹和李宁以1.85、1.83、1.81的综合热度位列榜单综合热度前三。图源:世研大消费指数文化符号锚定品牌情感消费升级
2025-08-27 11:10:00
悠湖湾商业综合体项目基本完工
近日,江宁区上秦淮未来科技城悠湖湾商业综合体基本完工。项目总建面约17.33万平方米,含6层裙楼与14层塔楼,裙楼将打造一站式体验空间,涵盖运动、餐饮等业态,提供多主题消费体验。
2025-08-27 07:36:00
智能制造是制造强国建设的核心赛道,更是筑牢实体经济根基的关键支撑。近年来,泰安市市场监管局将标准化作为驱动制造业高质量发展的核心引擎
2025-08-26 10:07:00
近日,山东移动淄博分公司济东数据中心再传喜讯——在第三届“华彩杯”算力大赛中区决赛中,该中心凭借卓越的绿色节能表现荣获三等奖
2025-08-26 10:25:00
本报讯 (记者 王薛淄)记者从中国香料香精化妆品工业协会获悉,2025年中国香料香精化妆品行业年会暨精品博览会(以下简称“2025CAME”)将于9月25日至27日在江苏南京扬子江国际会议中心举行
2025-08-26 10:55:00
鲁迅故里景区投诉人社交账号已无法查看
8月25日,绍兴鲁迅纪念馆公众号发文,关于“鲁迅故里景墙画面误导青少年”一事回应。近日,有位孙姓女士在社交平台发帖称“鲁迅故里景墙使用鲁迅吸烟画面
2025-08-26 10:59:00
北京机器人为何更聪明自主?
北京机器人在赛跑、足球等比赛中从跑步、踢球、跳高、跳远到场景应用,从遥控到全自主,在8月14日至17日举行的2025首届世界人形机器人运动会上
2025-08-26 11:12:00
AIGC短片《你的样子》运用人工智能技术“复原”了杨靖宇、赵尚志、赵一曼、左权、彭雪枫、张自忠等十余位抗日英烈拍摄历史照片时的鲜活模样。(技术支持:南京超级头脑信息技术责任有限公
2025-08-26 11:17:00
天籁之音,穿越时光回响,缅怀那段不朽历史。逝去的英雄与故人,面容虽模糊于岁月,但精神永存。AI技术奇迹再现,让一张张珍贵的照片重焕光彩
2025-08-26 11:19:00
北京礼品展文创区成爆款集合地
本报记者 赵 曦 □ 唐 瑞在刚刚落幕的第52届中国北京国际礼品、赠品及家庭用品展览会上,文创与玩具展区格外热闹。琳琅满目的展品中
2025-08-26 11:26:00
眼下,新的入托季、入学季正在开启,与以往不同的是,今年秋季学期起,公办幼儿园学前一年在园儿童保育教育费将被免除。具体来说
2025-08-26 11:26:00
一张小小的碳标签,正在成为撬动轻工业绿色转型的关键支点,从源头到终端系统重塑着“中国制造”的低碳竞争力。8月6日,在本报刊登《轻工行业积极推进绿色低碳循环发展战略》一文中
2025-08-26 11:27:00
贵州磷化磷镁材料在全国镁质材料发展大会受关注
日前,中国菱镁行业协会镁质材料发展大会在山东济南举办。贵州磷化集团磷美公司携磷镁产品受邀参会,并凭借其在技术研发与产品创新上的表现
2025-08-26 11:31:00
网易云音乐声明:你的隐私我守护,没有“访客记录”功能
8月25日,网易云音乐微博发文称:你的隐私我守护,网易云没有“访客记录”。近期,我们关注到网上有用户询问“在网易云浏览他人主页
2025-08-26 11:33:00
在竞争白热化的重庆房地产市场,房产中介机构如何杀出重围?仅靠门店数量与人力堆砌的粗放式扩张时代已然过去。优居重庆以其独特的平台化赋能模式和精准的差异化服务策略
2025-08-26 12:09:00