• 我的订阅
  • 财经

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

类别:财经 发布时间:2023-03-15 13:30:00 来源:财联社

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。

当前,人工智能技术的发展正面临着大量跨模态任务的挑战,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

迈向AGI通用人工智能,大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

三位一体,高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型,加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-03-15 14:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

商汤科技发布“书生·浦语”大模型 中文考试超越ChatGPT
...各业,据CNMO了解,近日,行业领先的人工智能软件公司商汤科技与上海AI实验室等发布了“书生·浦语”大模型。商汤科技据媒体报道,商汤科技、上海AI实验室联合香港中文大学、复旦
2023-06-08 00:13:00
【科技早报】OpenAI 发布多模态预训练大模型 GPT-4;微软将推进1万人裁员计划
...灵活多功能的系统,可以执行各种文本生成和编辑任务。商汤发布多模态多任务通用大模型“书生2.5”3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。“
2023-03-15 21:00:00
商汤如何玩转大模型+大算力?详解“日日新SenseNova”大模型体系的关键招
...昌均在ChatGPT引发的大模型和生成式AI热潮下,国内AI公司商汤科技也秀出自家肌肉。在4月10日下午的技术交流日上
2023-04-14 14:00:00
商汤日日新大模型体系更迭升级,金融、医疗等行业场景落地已超20个|WAIC 2023
今年6月拍摄的商汤大模型产品商量SenseChat界面(来源:钛媒体App编辑拍摄)时隔仅3个月,商汤“日日新”AI大模型正式更新
2023-07-11 13:00:00
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5
2024-10-14 13:34:00
AI大模型加持,商汤科技的产品多元化与商业化加速
...用,也逐渐找到了用武之地。例如,作为AI四小龙之一的商汤科技,便是以AI视觉技术起家,通过研发人工智能软件与应用,打造了一个数百亿市值的商业帝国。2021年12月,商汤科技登
2023-12-12 09:38:00
打破视觉壁垒!GPT-4发布,概念股走低,对产业有何影响?企业回应
...的下跌。港股市场,百度 (09888.HK)、美图(01357.HK)、商汤 (00020.HK)等概念股出现不同程度的上涨
2023-03-16 08:10:00
商汤启动智慧医院建设示范样板工程
本文转自:人民日报客户端谢卫群 王力桐商汤医疗携手瑞金医院、华西医院、新华医院、西京医院、中科大附属第一医院、北京清华长庚医院,在行业内率先启动医疗多模态大模型赋能的智慧医院创新
2024-07-11 11:36:00
商汤星云近日发布新一代面向智慧园区场景的智能服务器AIS 4.0。集成领先的多模态大模型能力,实现软硬件全面国产化,为各类园区综合管理效能提升提供更安全、更智能、更易用的AI新智
2024-11-15 10:14:00
更多关于财经的资讯:
【宅男财经|专家面对面】9天的“史上最长春节假期”,更充裕的休假时间与政策红利叠加,消费会有什么新特点?中国社会科学院财经战略研究院教授魏翔对宅男财经表示
2026-02-21 15:54:00
新春消费亮点纷呈 市场活力加速释放
央视网消息(新闻联播):春节假期,我国消费市场持续火热。新业态、新场景不断涌现,市场活力加速释放,为中国经济注入澎湃动能
2026-02-21 08:11:00
从马背到铁轨 茶马古道迎新生
央视网消息:马,在历史上曾是重要的交通运输工具。位于云南普洱的那柯里曾是茶马古道重镇,如今,当马蹄印化作钢铁轨迹,驼铃声变成汽笛长鸣
2026-02-21 08:11:00
古风演艺添年味 多地文旅市场持续升温
央视网消息:春节假期,江苏各地文旅市场持续升温。以沉浸式古风演艺为代表的文化体验活动成为春节“新标配”,街区、景区纷纷推出特色实景演出
2026-02-21 07:41:00
记者从广东省交通运输厅了解到,2月19日(正月初三),港珠澳大桥双向车流量突破2.7万车次,刷新大桥通车以来单日历史纪录
2026-02-20 15:35:00
新华社北京2月19日电 记者19日从商务部获悉,春节假期前四天,各地商务部门坚持“政策+活动”双轮驱动,深入组织开展“乐购新春”春节特别活动
2026-02-20 15:35:00
温情暖乡集 金融送福来 烟台农商银行牟平区观水支行党支部开展大集送福活动
胶东在线2月14日讯(通讯员 姜宏民 赵灿灿)2月14日农历腊月二十七,观水镇埠西头村迎来了年前的最后一个大集,琳琅满目的年货
2026-02-18 17:34:00
2026年春节档总票房(含预售)超15亿
根据猫眼专业版数据,截至2月17日晚20点37分,2026年春节档总票房(含预售)超15亿,《飞驰人生3》以超7.17亿的成绩暂时领跑今年春节档大盘
2026-02-18 07:34:00
烟台农商银行开发区支行助力住建领域民生保障获赠锦旗
胶东在线2月13日讯(通讯员 兰琳)近日,烟台黄渤海新区住建局专程为烟台农商银行开发区支行送来一面写有“住建领域民生保障 农商助力薪暖民工”的锦旗
2026-02-18 05:00:00
冬奥会“带热”滑雪游!山东青岛滑雪场人气爆棚
第25届冬季奥林匹克运动会正在举行,冬奥会的观赛热情带动了滑雪游。在山东青岛,滑雪场内举办特色的气排球比赛,吸引越来越多的人参与到滑雪运动中
2026-02-17 07:48:00
用心护佑健康 以行奔赴美好——鲁南制药集团2026年新春贺词辞乙巳旧岁,迎丙午新春。当腊月的烟火漫过街巷,万家团圆的期盼日渐浓烈
2026-02-16 11:16:00
2月13日,德州银行向陵城区某企业成功发放8000万元的控制型并购贷款。该笔贷款是《商业银行并购贷款管理办法》自去年12月31日印发实施以来
2026-02-16 11:17:00
2026年米兰-科尔蒂纳冬奥会带动全球冰雪运动持续升温。我国冰雪装备外贸企业抓住机遇,也迎来海外订单高峰期。一件件国产冰雪装备
2026-02-16 08:31:00
记者从中国石油获悉,全球规模最大的200万吨/年柴油吸附分离装置目前在中国石油广西石化稳定运行。该技术已在多家炼化企业实现规模化应用
2026-02-16 09:01:00
除夕将至、新春在即,为向坚守基层一线、守护群众健康的卫生健康工作者致以崇高敬意与新春关怀,贵州银行丹寨支行组织金融服务小分队前往兴仁镇卫生院开展春节走访慰问暨金融便民服务活动
2026-02-15 21:02:00