• 我的订阅
  • 头条热搜
DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代
...故事生成等新能力架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...的研究,可能推动新一代规模更大的模型的发展。 更高分辨率的多模态学习最近,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,相比上代模型,Qwen2-VL 的基础性能全面提升:读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用; 具备...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Sta...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...了一个全新的视觉编码器。基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。最近,提升多模态大模型处理高分辨率图...……更多
metareality推出sapiensai视觉模型
...几何形状非常有价值。Meta公司表示该模型可原生支持1K高分辨率推理,并且非常容易针对个别任务进行调整,只需在超过3亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺或完全是合成数据的情况下,所生成的...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...回归学习,采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。 这种简单直观的方法使得自回归(AR)Transformer能够快速学习视觉分布,并且具有较好的泛化能力:VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Tran...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...1、文本特征作为起始token map,根据起始token map生成更高分辨率的token map这不仅增强了模型对新文本场景的适应性,确保模型可以泛化到新的文本提示,从整体上保证了文本描述与生成图像之间的一致性2、在每个transformer层引入...……更多
AI视觉进入“大模型时代”不仅“看得见”还“看得懂”
...泉卫星发射中心发射,能满足目标识别级的遥感感知的高分辨率、视频等多种探测需求。在今年夏天京津冀地区的防汛工作中,‘珞珈二号’观测到堤防决口的影像,第一时间发布预警,帮6300余名群众当天完成转移。”动态监...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...颈,尤其是对于抽象图表而言,因此未来提升编码器图像分辨率可以增强LLM的细粒度认知能力参考资料:https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/https://arxiv……更多
meta推出全新ai图像生成器,可创建高分辨率图像
...现有的Emu图像生成模型提供支持,可根据文本提示创建高分辨率图像。它目前对美国的英语用户免费使用(后续是否收费未知),并且每个提示都会生成四个图像。此前,Meta图像生成模型因带有种族偏见的图像贴纸而面临争议...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...效果苹果做了各种变量实验,通过修改数据源、修改图像分辨率等,来看各种因素对模型效果的影响。△摘自苹果发布的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》目前,苹果发现让多模态大模型变得更聪明.……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...定的视觉质量时往往牺牲运动动态效果,为了优先考虑高分辨率而限制视频时长(通常为5-10秒),并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动),导致镜头感知生成能力不足。这些相...……更多
谷歌大幅更新生成式AI,推出视频模型VEO 2和最新版Imagen3
...型的风格,指定镜头,建议电影效果,Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如,要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头,Veo 2都能实现。提示“18mm镜头”,Veo 2知...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...。采用文生视频和图生视频功能生成的视频最长为5秒,分辨率最高为720P,帧率为每秒24帧。采用生成扩展功能的视频最多可延长2秒,视频背景音效延长10秒。Firefly视频模型作为Adobe生成式AI套件的扩展,已经被集成到其云端套装...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...消融研究,STIV 尽管设计简单,却表现出了强大的性能。分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中,同样……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...o-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...构创新,具备了惊人的图像生成速度,而且最高能实现4k分辨率。一台16GB的4090笔记本,仅需0.37秒,直接吐出1024×1024像素图片。如此神速AI生图工具,竟是出自英伟达MIT清华全华人团队之笔!正如其名字一样,Sana能以惊人速度合...……更多
谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺
...的视频。从官方介绍中看,此次主要有三个方面的升级。分辨率能达到4K;能够理解有关镜头控制的Prompt;更注重现实物理世界与人类表情的理解和展示。在官方账号底下,大家都对这些效果表示了惊叹:我真的想谷歌输掉比赛...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...束位置ID固定后,在中间插值位置ID,不过该方法在训练分辨率上严重过拟合,并且无法泛化到未见过的纵横比。相比之下,「扩展-PE」(expand-PE)方法按序列长度成比例增加位置ID,不使用任何技巧或归一化,性能表现良好,没...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。LLaVA模型架构基于大量的图像-文本配对的数据集...……更多
英伟达超快stylegan回归
...数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。它的整体架构如下:具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了重新设计,用FID对样本...……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...型能够以线性复杂度实现有效的序列建模,在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。 然而,Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax ...……更多
DLSS 4显神威!《星际战士2》DLSS 4和3画面对比
DLSS 4的一大升级便是超分辨率增强,模型从CNN换成了Transfomer,后者可以让玩家在开启DLSS时游戏图像质量更加清晰,比如下图这张《战锤40K:星际战士2》的对比。可以看到DLSS 4性能模式下的截图仍然比DLSS 3质量模式下的截图更...……更多
标贝科技上亿像素点图像标注能力 实现标注精度和效率双提升
...据需求向精细化、场景化发展,需要使用更大像素、更高分辨率的图像以提供丰富细致的信息进行训练和推理,标注数据的规模和复杂性也随之增加。如何提高超大像素图像数据标注的效率和精度,成为当前亟待解决的问题。例...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...b/main/assets/hunyuanvideo.pdf二、腾讯混元的下一步:提高视频分辨率和生成速度腾讯混元多模态生成技术负责人凯撒谈道,文生视频与图像生成在技术上有着密切联系。虽然视频生成建立在图像生成的基础上,但它对动态时序信息和...……更多
meta推出两款基于ai的图像编辑工具
...同,EmuVideo更简单,仅使用2个扩散模型,就能生成512x512分辨率、每秒16FPS、长4秒钟的视频。IT之家发现,Meta援引评估数据,证明EmuVideo生成的视频品质以及“遵循提示词的忠实程度”相对业内竞品更好。在品质方面,有96%受访...……更多
更多关于科技的资讯:
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(二):技术创新共享给安平丝网带来了什么
技术创新共享给安平丝网带来了什么——河北特色产业集群共享智造故事(二)11月21日,安平县高新区绿色产业园区,河北丝筘金属制品有限公司车间里
2025-11-27 08:12:00
海底捞、阿嬷手作等品牌接入,顺丰同城“独享专送”餐饮品类单量同比激增3倍
随着即时零售市场的持续扩张和竞争深化,消费者对即时配送的需求正从“送达”向“送好”升级,推动即时配送加速服务分层,以准时
2025-11-27 08:16:00
风格各异的手作店、静谧雅致的咖啡馆、独具韵味的民宿……如今,在河北很多城市的街头巷尾,小店经济快速发展,在促进消费、扩大就业
2025-11-27 09:02:00
济南海尔第九届感恩月重磅启幕 以真心回馈亿万用户信赖
鲁网11月27日讯11月26日,济南海尔感恩月启动会拉开帷幕。以更加诚挚的福利、更具力度的优惠,回馈用户多年来的信赖与支持
2025-11-27 11:05:00
伽利略智能仿生四足防爆机器人EX-1重磅亮相2025中国国际应急管理展览会 开创高危环境智能作业新纪元
2025年11月18日至20日,以"新质赋能 智慧应急"为主题的2025中国国际应急管理展览会在北京国家会议中心隆重举办
2025-11-27 11:47:00
2026中国特许加盟展全年档期正式发布:两展三会贯通全年,全球特许盛宴即将启幕
由全国性行业组织中国连锁经营协会主办的中国特许加盟展公布2026全年展会规划,将继续采取全国巡展模式,以"两展三会"的形式贯通全年
2025-11-27 11:47:00
中新经纬11月27日电 题:机器人去景点“上班”,游客的快乐从哪里来?作者 周慎 中国科学技术大学科技传播系副研究员、徽州人工智能研究院院长近日
2025-11-27 12:15:00
执“碳”为尺 绘就绿色物流新图景
鲁网11月26日讯冬日清晨的泰山脚下,山东省泰安市烟草专卖局(公司)送货员刘婷正用扫码枪轻触循环周转箱上的智能芯片,“您瞧
2025-11-27 12:15:00
中新经纬11月27日电 国务院新闻办公室27日举行国务院政策例行吹风会,介绍增强消费品供需适配性进一步促进消费政策措施有关情况
2025-11-27 12:20:00
海外科技媒体Tech Times:AI助手“灵光”让难题处理“如清风拂面般轻松”
蚂蚁集团11月18日推出的全模态通用AI助手“灵光”在国内迅速出圈后,引发海外科技媒体和社交平台的关注。美国知名科技媒体《科技时代》(Tech Times)报道称
2025-11-27 14:32:00
华为新品发布会藏惊喜!来华为浏览器解锁资讯获取新方式
2025年11月25日,华为Mate 80系列|Mate X7及全场景新品发布会如期而至,这场科技盛宴备受瞩目。在首发搭载的HarmonyOS 6操作系统与Mate 80新机的双重赋能下
2025-11-27 14:41:00
胜者智选:全人成长新范式 锚定教育变革核心
从体质强健到能力培养,从AI融合到成本理性化,教育行业正迈向健康底色、核心能力、创新素养的全人培养新阶段。在此背景下,胜者教育旗下核心品牌“胜者智选”以生态化布局回应时代需求
2025-11-27 14:43:00
网易云音乐“AI写歌”功能上线测试 普通人也能“玩”音乐
近日,网易云音乐旗下网易天音“AI写歌”趣味功能上线测试,旨在用AI降低音乐创作门槛,帮助音乐人更好捕捉灵感创意的同时
2025-11-27 14:44:00
智能引领 追求卓越 ——山东中烟青岛卷烟厂制丝车间山东烟叶专线生产运行纪实
一年,足以让一颗种子破土成苗,也足以让一条产线完成从“新生”到“成熟”的淬炼。站在山东中烟有限责任公司青岛卷烟厂制丝车间山东烟叶专线投产运行一周年的节点回望
2025-11-27 14:46:00
尚美数智酒店集团深化与华为、腾讯云合作,尚客优7为年轻人打造全新一代的住宿体验
2025年11月18日,尚美数智酒店集团联合华为、腾讯云共同推出尚客优7酒店和心里美智慧酒店3.0。全新尚客优7酒店产品以"为年轻人打造自由
2025-11-27 14:49:00