• 我的订阅
  • 科技

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

类别:科技 发布时间:2024-09-03 09:45:00 来源:IT之家

IT之家 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:

读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现; 理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用; 具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作; 理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。

但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:

一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可通过阿里云百炼平台直接调用 API。

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-03 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里通义千问Github页面突然消失!负责人回应没有跑路
...仍是404状态。在8月底的时候,阿里通义千问还发布了第二代视觉语言模型Qwen2-VL,可以理解20分钟以上长视频,支持基于视频的问答、对话和内容创作等应用。在多个权威测评中
2024-09-05 10:39:00
阿里云开源通义千问多模态大模型Qwen-VL 【阿里云开源通义千问多模态大模型Qwen-VL】《科创板日报》25日讯,阿里云今日推出大规模视觉语言模型Qwen-VL
2023-08-25 12:17:00
中国科学院地化所发布国际首个月球专业大模型,基于通义大模型及阿里云百炼专属版打造
...专业大模型”)。该大模型以视觉、多模态及自然语言等通义系列模型为基模,结合RAG检索增强等技术,于阿里云百炼专属版进行微调及训练。目前在月球撞击坑年代和形态判别上,月球专业大
2024-08-29 15:42:00
阿里云CTO周靖人:全面投入升级AI大基建
...每个AI和应用提供高性能、高效的算力服务。大会现场,通义大模型迎来了年度重磅发布,基础模型升级,性能媲美GPT-4o,发布最强开源模型Qwen2.5系列,同时上架语言、音频、
2024-09-19 15:53:00
IDC报告:阿里云持续领跑中国AI公有云服务市场
...提升推动AI应用加速落地,2024年以来,阿里云旗下应用“通义灵码”凭借高效的代码生成能力,成为国内企业广受欢迎的AI开发工具;依托高精度语音理解与内容摘要技术,“通义听悟”
2025-08-18 14:01:00
大模型下探音视频AI市场,战争才刚刚开始 | ToB产业观察
...之后,还有更多仍在“来的路上”。6月1日,阿里云宣布通义大模型进展,聚焦音视频AI的“通义听悟”正式亮相,成为国内首个开放公测的大模型应用产品。通义听悟其前身是早在2021年
2023-06-07 14:00:00
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
通义大模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo
2024-05-09 12:00:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
从云栖大会,看阿里的科技本色
...巴巴宣布了自研大模型的最新进展——千亿级参数规模的通义千问 2.0 正式发布。阿里巴巴宣布,通义千问 2.0 在 10 个权威测评中全面超越 GPT-3
2023-11-01 23:02:00
更多关于科技的资讯:
即将开幕!首届WCE世界营地博览会,一篇理清所有重点!
想对话全球营地大佬?想抄浙江标杆营地的实战作业?想一站式对接国际资源与供应链?2025年11月7-9日,首届WCE世界营地博览会将在“两山理论”发源地浙江安吉重磅启幕
2025-11-05 08:25:00
近日,太重集团自主研制的国内最大1100吨直臂架门座式起重机,历经海上运输的平稳旅程,顺利抵达用户现场,设备总装工作正式拉开帷幕
2025-11-05 08:30:00
科赴与美团医药健康升级战略合作 为消费者构建更加多元化、便捷的健康解决方案
2025年11月4日,上海 – 今日,在美团北京总部,科赴中国与美团医药健康宣布升级战略合作,双方将在多年合作的基础上
2025-11-05 08:55:00
绘喵教育八周年庆典圆满落幕:以热爱为笔,绘就艺术教育新蓝图
近日,绘喵教育以“无限热爱・无限可能”为主题的八周年庆典活动圆满举行。活动通过“线上直播+线下盛典”双线联动的形式,共同回顾八年深耕插画教育的成长足迹
2025-11-05 10:26:00
“AI+医疗”活力迸发!温州全力打造医学人工智能高地
温州居民李阿姨通过AI助手解读的体检报告;医院放射科利用“AI+云影像”,五分钟就能初筛CT片;糖尿病患者张大伯通过可穿戴设备传输数据
2025-11-05 10:46:00
校宝App荣获“2025榜样教育产品奖”,以持续创新引领教育服务数字化进程
2025年10月21日,2025校长邦T教育创新大会暨“中关村·智聚”教育创新论坛在北京隆重开幕。在大会的焦点环节“第十届榜样教育年度盛典”中
2025-11-05 08:25:00
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00