• 我的订阅
  • 科技

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

类别:科技 发布时间:2024-09-20 13:35:00 来源:雷峰网

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,赶超MiniCPM-V-2.6等行业优秀大模型。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

图:Ovis在OpenCompass上的测评数据情况

据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例1:Ovis对手写文案的识别及翻译能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例2:Ovis对复杂数学公式的处理能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例3:Ovis通过对图片的识别处理能够给出菜谱

具体来说,Ovis模型有五大优点:

1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分MLLM中MLP连接器架构的局限性,大幅提升多模态任务表现。

2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。

3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能:Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。

5、全部开源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

根据此前媒体报道,阿里国际在去年成立了一支AI团队,目前已经在40多个电商场景里测试了AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于Ovis模型进行开发,已帮助50万中小商家、对1亿款商品进行了信息优化。据介绍,商家的AI需求不断增长,近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-20 14:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中
2025-09-24 13:30:00
中国科学院地化所发布国际首个月球专业大模型,基于通义大模型及阿里云百炼专属版打造
...地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”(简称“月球专业大模型”)。该大模型以视觉、多模态及自然语言等通义系列模型为基模,结合RAG检索增强等技术,
2024-08-29 15:42:00
...间,阿里AI模型实现七连发,在模型性能、深度推理、多模态、Agent及Coding能力等方面均实现新突破,其中旗舰模型Qwen3-Max性能超过GPT5
2025-11-25 20:38:00
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781
2023-12-11 15:01:00
吴泳铭官宣3800亿投入后,阿里云如何打AI这场硬仗?
...要的方向主要是两个,一个是Reasoning推理,一个是Omin全模态融合。”刘伟光提到。在应用方向上,这次大会,阿里云宣布推出AI Agent Store
2025-04-10 17:12:00
阿里云CTO周靖人:全面投入升级AI大基建
...模型Qwen2.5系列,同时上架语言、音频、视觉等100多款全模态模型,通义开源模型累计下载量已经突破4000万,通义原生模型和衍生模型总数超过5万
2024-09-19 15:53:00
阿里云通义大模型家族迎来新成员,通义万相已开启定向邀测
...云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。阿里云宣布AI绘画创作大模型通义万相开启定向邀测据介绍,通义万相在语义理
2023-07-07 16:55:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
...日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战,首批启动6个课题。
2026-01-09 14:23:00
阿里Q3财报:核心业务收获稳健增长,“AI驱动”潜力初现
...疗等领域,持续放大技术普惠。通用大模型“全尺寸、全模态”开源,“通义舞王”爆火本季度,阿里云发布开源大模型通义千问Qwen-72B,该模型10个权威基准测评创下开源模型最优成
2024-02-07 22:43:00
更多关于科技的资讯:
中新经纬4月15日电 据美联社报道,华特迪士尼公司当地时间14日开始裁员,预计将影响1000人。报道称,2月份新上任的公司首席执行官Josh D'Amaro在1月份合并迪士尼营销部门后宣布了进一步裁员
2026-04-15 08:20:00
4月13日,在太原海纳辰科仪器仪表有限公司的生产车间内,技术人员正紧盯操作屏,对即将出厂的HN-CK6000环境噪声自动监测系统进行最后调试
2026-04-15 08:24:00
浙江日报讯 (记者 李洁薇 通讯员 市闻) 近日,宁波镇海炼化基地二期现场,一座3000立方米的巨型球罐外,几名技术人员紧盯操控屏幕
2026-04-15 08:29:00
文案:靳彤 曹秦雨 制作:刘昀
2026-04-15 08:29:00
厦门网讯(厦门日报记者 沈彦彦)经典影像品牌柯达将以全新潮流姿态登陆鹭岛——轻户外潮流生活方式品牌KODAK Apparel福建首店近日官宣入驻厦门万象城二期
2026-04-15 08:56:00
菜鸟发布攀爬机器人ZeeBot 实测智能化存取效率提升一倍
2026年4月15日,菜鸟集团在美国亚特兰大举行的MODEX 2026国际物流展上发布了首款自研的“攀爬机器人”ZeeBot
2026-04-15 10:22:00
探馆寻“码”!你我都是数字守“密”人丨e法豫说
大河网讯(记者 董蕾 李思豫)当蓝牙连接、共享充电、App授权成为日常,当万物互联成为时代的底色,我们比任何时候都更清晰地认识到
2026-04-15 10:32:00
重磅!方正印捷与宏贤达集团达成880喷墨设备合作,共筑图书POD生态
4月10日,方正印捷与北京宏贤达物流集团有限公司旗下宏贤达(固安)数码印刷有限公司在河北固安举办印刷设备采购签约仪式。双方正式签署协议
2026-04-15 08:51:00
浙江日报桐庐4月14日电 (记者 张源 王柯宇 通讯员 方菲) 14日,桐庐县富春轮船码头,工作人员通过手机APP预约“水上网约车”
2026-04-15 08:29:00
临沂沂河新区白沙埠镇:创新蝶变助推仪表产业智能升级
鲁网4月14日讯“近期喜讯不断,刚刚接到了一家国内上市公司1000万的接管螺母合同订单。后续的表壳订单也将看货跟进,目前产品订单已经排到了5月份
2026-04-15 08:05:00
来了!奥乐齐浙江首店落定杭州临平翎湖万达广场
近日,备受关注的德国连锁超市巨头奥乐齐(ALDI)浙江首店选址疑似尘埃落定。4月10日,有网友发现杭州翎湖万达广场通过官方公众号发布消息
2026-04-15 07:58:00
一条大道“量”出未来杭州日报讯 开栏语当“十五五”的序幕拉开,发展新质生产力是一场关乎未来的赛跑。站在新的起点,如何跑得更好
2026-04-15 07:58:00
杭州日报讯 在航空航天领域,距离地球表面20公里-100公里的“临近空间”,是传统民航客机(最高飞行高度不超过18公里)与卫星(运行于数百公里至数万公里的外层空间)之间的“共同盲区”
2026-04-15 06:57:00
看看江西“智”造有多硬核
从新能源汽车到半导体照明原创技术高地,再到低空经济前沿应用,4月13日至4月14日,“中国式现代化的万千气象”网络名人江西行活动走进江铃集团新能源汽车有限公司(以下简称“江铃新能源”)
2026-04-15 07:12:00
全球首发新品闪耀国际舞台每日商报讯 南海之滨,潮涌自贸港;精品荟萃,共赴消博之约。4月13日,第六届中国国际消费品博览会在海南海口启幕
2026-04-15 07:28:00