模型,视觉,时代,模型,图像,分辨率头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

DeepSeek-VL2 开源：AI视觉模型迈入 MoE 时

...故事生成等新能力架构：视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能训练：继承 DeepSeek-VL 的三阶段训练流程，同时通过负载均衡适配图像切片数量不定的困难，对图像和文本数据使用不同流...……更多

2024-12-16 09:33:00模型,视觉,时代,模型,图像,分辨率

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...的研究，可能推动新一代规模更大的模型的发展。更高分辨率的多模态学习最近，大型视觉语言模型在其更大的模型中使用预训练的图像编码器，其中一些使用监督分类进行预训练（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用预...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设计（如动态高分辨率）虽然可以提高了与OCR相关的任务（例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，相比上代模型，Qwen2-VL 的基础性能全面提升：读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力机制，可以使用更少的算力，生成高分辨率图像。此前Midjourney与Sta...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

多模态竞技场对标90B Llama 3.2！Pixtral

...了一个全新的视觉编码器。基于此，Pixtral 12B输入图片的分辨率和长宽比不受任何限制，并且在128K的上下文窗口范围内，想放多少张图片都行！从论文的测试结果来看，Pixtral 12B明显优于其他类似大小的开源模型（比如Llama-3.2 11B...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

2B多模态新SOTA！华科、华南理工发布Mini-Monke

...解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩，证明了其在多模态理解和文档智能领域的潜力。最近，提升多模态大模型处理高分辨率图...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

metareality推出sapiensai视觉模型

...几何形状非常有价值。Meta公司表示该模型可原生支持1K高分辨率推理，并且非常容易针对个别任务进行调整，只需在超过3亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺或完全是合成数据的情况下，所生成的...……更多

2024-08-25 02:39:00模型,视觉,任务,图像,二维,模型

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...回归学习，采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。这种简单直观的方法使得自回归（AR）Transformer能够快速学习视觉分布，并且具有较好的泛化能力：VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Tran...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...1、文本特征作为起始token map，根据起始token map生成更高分辨率的token map这不仅增强了模型对新文本场景的适应性，确保模型可以泛化到新的文本提示，从整体上保证了文本描述与生成图像之间的一致性2、在每个transformer层引入...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

AI视觉进入“大模型时代”不仅“看得见”还“看得懂”

...泉卫星发射中心发射，能满足目标识别级的遥感感知的高分辨率、视频等多种探测需求。在今年夏天京津冀地区的防汛工作中，‘珞珈二号’观测到堤防决口的影像，第一时间发布预警，帮6300余名群众当天完成转移。”动态监...……更多

2023-11-12 05:33:00模型,视觉,时代,模型,安防,视觉

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...颈，尤其是对于抽象图表而言，因此未来提升编码器图像分辨率可以增强LLM的细粒度认知能力参考资料：https://the-decoder.com/study-reveals-major-weaknesses-in-ais-ability-to-understand-diagrams-and-abstract-visuals/https://arxiv……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

meta推出全新ai图像生成器，可创建高分辨率图像

...现有的Emu图像生成模型提供支持，可根据文本提示创建高分辨率图像。它目前对美国的英语用户免费使用（后续是否收费未知），并且每个提示都会生成四个图像。此前，Meta图像生成模型因带有种族偏见的图像贴纸而面临争议...……更多

2023-12-07 13:34:00建高,图像,生成器,生成,分辨率,全新

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...理：动态子图方案：支持处理极端长宽比的图像，兼容高分辨率图像，展现出色的图像理解能力。3、全面数据优化：多方向数据集覆盖：全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向，显著提升多模态问答、指令跟...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...效果苹果做了各种变量实验，通过修改数据源、修改图像分辨率等，来看各种因素对模型效果的影响。△摘自苹果发布的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》目前，苹果发现让多模态大模型变得更聪明.……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

华人团队爆火instructblip抢跑看图聊天

...，BLIP-2）相比，InstructBLIP在指令微调期间保持相同的图像分辨率（224×224），并在微调期间保持视觉编码器的冻结状态。这大大减少了可训练参数的数量，从1.2B到188M，从而大大提高了微调效率。作者介绍WenliangDaiWenliangDai(戴文亮...……更多

2023-05-15 20:17:00团队,华人,指令,数据,模型,研究

昆仑万维SkyReels团队正式发布并开源SkyReels-

...定的视觉质量时往往牺牲运动动态效果，为了优先考虑高分辨率而限制视频时长(通常为5-10秒)，并且由于通用多模态大语言模型(MLLM)无法解读电影语法(如镜头构图、演员表情和摄像机运动)，导致镜头感知生成能力不足。这些相...……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

谷歌大幅更新生成式AI，推出视频模型VEO 2和最新版Ima

...型的风格，指定镜头，建议电影效果，Veo 2都会以高达4K分辨率并延长到数分钟的视频长度来呈现。比如，要求“低角度跟踪镜头穿越场景中央”或“特写科学家通过显微镜观察”的镜头，Veo 2都能实现。提示“18mm镜头”，Veo 2知...……更多

2024-12-17 09:12:00最新版,生成,模型,更新,视频,生成

Adobe推视频生成大杀器！最长生成5秒视频，一键重拍成为现

...。采用文生视频和图生视频功能生成的视频最长为5秒，分辨率最高为720P，帧率为每秒24帧。采用生成扩展功能的视频最多可延长2秒，视频背景音效延长10秒。Firefly视频模型作为Adobe生成式AI套件的扩展，已经被集成到其云端套装...……更多

2024-10-17 09:52:00公测,一键,生成,视频,现实,开放

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...消融研究，STIV 尽管设计简单，却表现出了强大的性能。分辨率为 512 的 8.7B 参数模型在 VBench T2V 上达到 83.1，超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先的开源和闭源模型。在分辨率为 512 的 VBench I2V 任务中，同样……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成