• 我的订阅
  • 科技

阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

类别:科技 发布时间:2025-01-28 15:07:00 来源:浅语科技

快科技1月28日消息,今天,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。

其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越GPT-4o与Claude3.5。

阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

官方介绍称,新的Qwen2.5-VL能更准确地解析图像内容,突破性地支持超1小时的视频理解,可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

而且无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

此外,Qwen2.5-VL将OCR识别能力提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o

【本文结束】如需转载请务必注明出处:快科技

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-29 08:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
IT之家 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型
2024-09-03 09:45:00
阿里通义听悟发布“高校公益计划”,向所有国内高校师生赠送500小时教育福利
3月19日,阿里大模型产品“通义听悟”发布多项新功能。音视频问答助手“小悟”上线,在业界首次实现单记录、跨记录、多语言自由问,支持对单个最长6小时、一次性上百条音视频的内容理解问
2024-03-19 13:15:00
阿里通义上新:AI终于能做真正的PPT了!还免费
...模型工具的日常中,诶嘿,最近还真又挖到了新神器——通义直接在网页版里上新了“效率”版块,功能很直给:实时记录、阅读助手,还有PPT创作。其中,PPT创作属于是新鲜出炉。简单来
2024-09-02 06:05:00
“百模大战”,国产 GPT 大全
...以媲美ChatGPT。例如,Baidu的“文心一言”,阿里巴巴的“通义千问”,腾讯的“混元”以及华为的“盘古”都有非常强大的功能,可以实现流畅的对话,也能理解用户的语义。同时
2023-05-07 20:34:00
AIGC工具测评:生成式AI的产品表现如何
...,ChatGPT-4在提供高效、准确回答方面依然表现卓越。二、通义系列阿里巴巴旗下的通义系列包含多款AI大模型,如通义千问(语言模型)、通义万相(艺术创作模型)、通义听悟(音
2024-03-25 13:00:00
阿里通义实验室黄斐:开源进入千问时代,即将发布的推理模型会更好用
阿里通义千问已成全球第一大开源模型系列,将“很快”放出基于最新模型Qwen2.5-Max的推理模型。2月21日,全球开发者大会(GDC)在上海开幕,在阿里云魔搭社区主办的论坛上,
2025-02-21 23:22:00
阿里云智能发布音视频AI通义听悟 6月1日正式公测 【阿里云智能发布音视频AI通义听悟 6月1日正式公测】《科创板日报》1日讯,阿里云智能于今日发布通义听悟,6月1日正式公测。阿
2023-06-01 11:57:00
阿里云正式发布“通义听悟” 首款面向消费者端产品
【CNMO新闻】阿里云智能于6月1日发布通义听悟,并面向公众开放公测。阿里云智能CTO周靖人表示,通义听悟是依托通义千问大模型和音视频AI模型的AI助手,可进行实时语音识别,实现
2023-06-07 17:27:00
福昕高调接入ChatGPT,技术革命还是虚张声势?
...等企业都宣布将会在旗下的应用生态中部署AI,从ChatGPT到通义千问再到文心一言,国内外的AI模型都已经做好了准备,即将进军办公市场。办公应用市场,似乎已经注定走向AI与应
2023-04-17 01:00:00
更多关于科技的资讯: