• 我的订阅
  • 科技

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

类别:科技 发布时间:2024-12-16 09:33:00 来源:IT之家

IT之家 12 月 14 日消息,DeepSeek 官方公众号昨日(12 月 13 日)发布博文,宣布开源 DeepSeek-VL2 模型,在各项评测指标上均取得了极具优势的成绩,官方称其视觉模型正式迈入混合专家模型(Mixture of Experts,简称 MoE)时代。

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

IT之家援引官方新闻稿,附上 DeepSeek-VL2 亮点如下:

数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事生成等新能力

架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能

训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流水并行策略,对 MoE 语言模型引入专家并行,实现高效训练

DeepSeek-VL2 模型支持动态分辨率,仅使用一个 SigLIP-SO400M 作为图像编码器,通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略让 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比,适配更多应用场景。

DeepSeek-VL2 模型还得益于更多科研文档数据的学习,可以轻松理解各种科研图表,并通过 Plot2Code,根据图像生成 Python 代码。

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代

模型和论文均已发布:

模型下载:https://huggingface.co/deepseek-ai

GitHub 主页:https://github.com/deepseek-ai/DeepSeek-VL2

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-16 11:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...的研究,可能推动新一代规模更大的模型的发展。 更高分辨率的多模态学习最近,大型视觉语言模型在其更大的模型中使用预训练的图像编码器
2023-10-17 16:31:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设计(如动态高分辨率)虽然可以提高了与OCR相关的任务(例如,OCRBench)的性能,但与低分辨率版本模
2024-09-24 13:36:00
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,相比上代模型,Qwen2-VL 的基础性能全面提升:读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA
2024-09-03 09:45:00
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制
2024-02-16 18:44:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...了一个全新的视觉编码器。基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内
2024-11-20 09:43:00
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。最近,提升
2024-08-13 09:42:00
metareality推出sapiensai视觉模型
...几何形状非常有价值。Meta公司表示该模型可原生支持1K高分辨率推理,并且非常容易针对个别任务进行调整,只需在超过3亿张野生人类图像上对模型进行预训练即可。即使在标注数据稀缺
2024-08-25 02:39:00
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...回归学习,采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。 这种简单直观的方法使得自回归(AR)Transformer能够快速学习视觉分布
2024-12-05 09:47:00
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...1、文本特征作为起始token map,根据起始token map生成更高分辨率的token map这不仅增强了模型对新文本场景的适应性
2024-06-27 09:17:00
更多关于科技的资讯:
第二届“科创·柳叶湖”合成生物制造创新创业大赛巅峰对决即将开锣!
第二届“科创·柳叶湖”合成生物制造创新创业大赛将于2026年1月15日至17日在湖南常德举行。本届大赛以“合创万物 智引未来”为主题
2026-01-07 17:00:00
高品质鱼油赛道再迎里程碑:新加坡Biowell小金星Plus获TGA认证
在消费者对营养品品质与真实功效日益关注的背景下,国际权威认证成为衡量产品力的重要标尺。近日,新加坡专业营养品牌Biowell迎来关键进展
2026-01-07 17:00:00
编织数据天网 守护卫星星河
——记寰宇卫星技术主管贾淋淋在卫星与地面之间,无形的数据洪流日夜奔涌,构筑起现代航天测控的生命线。而在这条关键通道的背后
2026-01-07 17:00:00
大庆油田采油一厂第九作业区新中310采油班面对油田数字化建设的深入推进,油水井报表管理正经历从传统纸质向智能数字化的关键转型
2026-01-07 17:02:00
二元魂与京东京造深度联动,共建 AI 潮玩全龄陪伴生态
近日,京东京造携手 JoyInside 全新推出4 款 AI 产品,精准覆盖全家不同生活场景的陪伴需求。此次上新阵容中
2026-01-07 17:02:00
美学舒适双在线,ROSE CASTLE 玫瑰城堡|打造能传家的奢侈品级婚鞋
婚礼当天,新娘的足下承载着远超一双鞋的物理重量。它是踏入人生新阶段的仪式感起点,是全天候优雅姿态的基石,也是婚礼记忆中最具象的情感信物之一
2026-01-07 17:02:00
河北新闻网讯(刘富伟)日前,工业和信息化部、国家药品监督管理局联合发布《2025年人工智能医疗器械创新任务揭榜挂帅入围名单》
2026-01-07 16:56:00
人体工学品牌MS官宣2025营收破亿,未来三年剑指十亿目标
12月30日,国内人体工学显示器支架品牌MS在年度工作总结会上宣布:2025年MS营收突破亿元大关,并确立了未来三年营收向十亿迈进的目标
2026-01-07 16:57:00
同样的预算,别买“电子垃圾”!阿尔法蛋词典笔,平价背后的专业与安全
平价词典笔就选阿尔法蛋吗?是的,这是明智之选。 在预算有限时,家长往往面临“廉价山寨”与“高价品牌”的两难。阿尔法蛋词典笔打破了这种困境
2026-01-07 16:58:00
Coosea酷赛智能的下一站:聚焦核心技术,剑指智能硬件百万台增量市场
在全球智能硬件市场持续扩张的浪潮中,酷赛智能科技股份有限公司(以下简称“Coosea酷赛智能”)正以行业引领者之姿,稳步推进其战略布局
2026-01-07 15:10:00
杜蒿坨数字时代,指尖轻点就能完成金融业务,银行网点正在经历“瘦身”。据国家金融监督管理总局金融许可证信息查询系统粗略统计
2026-01-07 15:27:00
从仓库到接驳点,无人配送车上路厦门首次在开放道路上开展自动驾驶配送测试东南网1月7日讯 (海峡导报记者 江小聪) 近日
2026-01-07 15:51:00
王志顺国家税务总局近日通报,2025年前11个月,税务部门共查处1818名包括明星网红在内的“双高”人员,查补税款高达15
2026-01-07 15:57:00
科技赋能健康,倍轻松携AI+中医创新亮相2026 CES,全球化战略再提速
当全球消费科技的目光聚焦于拉斯维加斯威尼斯人会展中心,中国健康科技领军企业倍轻松(股票代码:688793)以全新姿态登陆2026年国际消费电子展(CES)
2026-01-07 16:21:00
百镜大战再添新军 思问AI眼镜如何脱颖而出
2026年1月10日,大湾区深中通道西人工岛,吸引人们的不只是网红打卡地、超级工程,还将有一场人工智能的科技秀:思问AI眼镜
2026-01-07 16:22:00