• 我的订阅
  • 财经

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

类别:财经 发布时间:2023-03-15 13:30:00 来源:财联社

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。

当前,人工智能技术的发展正面临着大量跨模态任务的挑战,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

迈向AGI通用人工智能,大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

三位一体,高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型,加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-03-15 14:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

商汤科技发布“书生·浦语”大模型 中文考试超越ChatGPT
...各业,据CNMO了解,近日,行业领先的人工智能软件公司商汤科技与上海AI实验室等发布了“书生·浦语”大模型。商汤科技据媒体报道,商汤科技、上海AI实验室联合香港中文大学、复旦
2023-06-08 00:13:00
【科技早报】OpenAI 发布多模态预训练大模型 GPT-4;微软将推进1万人裁员计划
...灵活多功能的系统,可以执行各种文本生成和编辑任务。商汤发布多模态多任务通用大模型“书生2.5”3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。“
2023-03-15 21:00:00
商汤如何玩转大模型+大算力?详解“日日新SenseNova”大模型体系的关键招
...昌均在ChatGPT引发的大模型和生成式AI热潮下,国内AI公司商汤科技也秀出自家肌肉。在4月10日下午的技术交流日上
2023-04-14 14:00:00
商汤日日新大模型体系更迭升级,金融、医疗等行业场景落地已超20个|WAIC 2023
今年6月拍摄的商汤大模型产品商量SenseChat界面(来源:钛媒体App编辑拍摄)时隔仅3个月,商汤“日日新”AI大模型正式更新
2023-07-11 13:00:00
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5
2024-10-14 13:34:00
AI大模型加持,商汤科技的产品多元化与商业化加速
...用,也逐渐找到了用武之地。例如,作为AI四小龙之一的商汤科技,便是以AI视觉技术起家,通过研发人工智能软件与应用,打造了一个数百亿市值的商业帝国。2021年12月,商汤科技登
2023-12-12 09:38:00
打破视觉壁垒!GPT-4发布,概念股走低,对产业有何影响?企业回应
...的下跌。港股市场,百度 (09888.HK)、美图(01357.HK)、商汤 (00020.HK)等概念股出现不同程度的上涨
2023-03-16 08:10:00
商汤启动智慧医院建设示范样板工程
本文转自:人民日报客户端谢卫群 王力桐商汤医疗携手瑞金医院、华西医院、新华医院、西京医院、中科大附属第一医院、北京清华长庚医院,在行业内率先启动医疗多模态大模型赋能的智慧医院创新
2024-07-11 11:36:00
商汤星云近日发布新一代面向智慧园区场景的智能服务器AIS 4.0。集成领先的多模态大模型能力,实现软硬件全面国产化,为各类园区综合管理效能提升提供更安全、更智能、更易用的AI新智
2024-11-15 10:14:00
更多关于财经的资讯:
2025贵商大会|贵州广东总商会会长丁林洪:把握东西部协作新机遇
贵州日报天眼新闻记者 李雪雪编辑 朱登芳二审 江婷婷三审 岳振
2025-11-02 11:21:00
2025贵商大会|黔程万里 贵商有为
黔程万里,贵商有为群山逶迤,江河奔涌面对百年未有之大变局贵商,将以怎样的姿态拥抱时代?贵商,有志气——从茶马古道的马蹄声碎到“黔货出山”的纵横驰骋贵商的血脉里始终奔涌着破嶂穿云的勇气山高人为峰的志气酱香酒韵飘寰宇万顷茶山绿生金贵商
2025-11-02 11:21:00
安世中国:已建立充足的成品与在制品库存
中新经纬11月2日电 “安世半导体中国有限公司”微信号2日凌晨发布《安世中国致客户公告函》(下称公告函)称,已建立充足的成品与在制品库存
2025-11-02 11:42:00
股改及金融知识培训班在并举办
10月29日至31日,由省民营经济发展局主办,省小企业发展服务中心、山西股权交易中心联合承办的2025年全省民营中小企业规范化股份制改造及金融知识普及教育培训班(第一期)在并举行
2025-11-02 18:06:00
十堰首笔“汽车转型贷”成功发放
十堰创新推出的汽车转型金融首笔贷款顺利发放,标志着十堰自行探索的汽车转型金融标准成功落地。近日,十堰的湖北一专汽车股份有限公司成功拿到一笔2000万元的汽车转型贷款资金
2025-11-02 19:13:00
突破3700亿元 天弘基金为投资者累计赚取收益再创新高
今年以来,大盘持续向上,上证指数从前期低位3040.69点强势攀升到10月29日收盘4016.33点,公募行业规模也乘势而上
2025-11-01 11:00:00
边风炜:4000点股市冷暖不均
十月收官了,最后几天大量三季报披露,很多“丑媳妇”终见“公婆”。简单从业绩来看,上市公司的财报冷暖不均、分化极大。首先
2025-11-01 11:00:00
国家金融监管总局征意见:规范信托产品到期清算
中新经纬10月31日电 据国家金融监督管理总局微信公众号31日消息,为贯彻落实中央金融工作会议精神,规范信托公司资产管理信托业务发展
2025-11-01 11:05:00
建设银行支持良田丰产又增收
大河网讯 金秋时节,河南省灵宝市尹庄镇的万亩玉米田里,收割机轰鸣作响,村民们正抢抓晴好天气加紧采收,田间地头一派繁忙景象
2025-11-01 11:06:00
荣获七项大奖!得益乳业闪耀2025山东畜牧业高质量发展大会,彰显中国低温奶专家领军实力
10月30日至31日,由山东省畜牧兽医局主办的2025山东畜牧业高质量发展大会暨第40届山东畜牧业博览会在济南黄河国际会展中心隆重举行
2025-11-01 11:54:00
下单用户数增长超117% 订单量增长超125% “超级供应链”上的京东11.11跑出加速度
又好又便宜的11.11只在京东!10月30日晚8点,京东11.11开启“百亿补贴日”,众多优质商品直接降价销售,迅速点燃消费者热情
2025-11-01 11:55:00
财政部、税务总局发布关于黄金有关税收政策的公告
关于黄金有关税收政策的公告财政部 税务总局 2025年第11号现将黄金有关税收政策公告如下:一、会员单位或客户通过上海黄金交易所
2025-11-01 14:32:00
人保寿险退役军人家庭专属养老金项目焕新升级
退役军人曾用青春热血捍卫山河无恙,用忠诚担当守护万家灯火。关心关爱他们的养老生活,保障他们安享幸福,是全社会的共同责任
2025-11-01 16:16:00
双汇参展2025第二届全球肉类产业博览会
大河网讯10月28日—30日,以“相约大中原,共谋新发展”为主题的2025第二届全球肉类产业博览会在郑州国际会展中心举办
2025-11-01 16:43:00
建行淮阳支行深入田间地头 助力秋收惠农暖人心
大河网讯 金秋十月,稻谷飘香,正值秋收农忙时节。建行周口淮阳支行积极践行金融服务“三农”使命,主动作为、精准施策,深入田间地头
2025-11-01 16:43:00