• 我的订阅
  • 财经

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

类别:财经 发布时间:2023-03-15 13:30:00 来源:财联社

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。

当前,人工智能技术的发展正面临着大量跨模态任务的挑战,为满足快速增长的各式应用场景需求,发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建,可接收处理各种不同模态的输入,并采用统一的模型架构和参数处理各种不同的任务,促进不同模态和任务之间在表示学习方面的协作,逐步实现通用人工智能领域的融会贯通。

迈向AGI通用人工智能,大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下,可以大幅提升场景感知理解能力,准确地辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆的决策规划提供有效信息输入。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务,满足各种需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

除了全图级别的以图生文,“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”同时具备AIGC“以文生图”的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

“书生2.5”还可根据文本快速检索出视觉内容。例如,可在相册中返回文本所指定的相关图像,或是在视频中,检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,可实现开放世界视频或图像中物体检测及视觉定位。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

三位一体,高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效的多任务协作能力。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型,值得一提的是,谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,其取得了65.4的mAP,是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型,加速学术和产业界多模态通用模型研发

即日起,“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源,成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据的采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。

OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可以提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。通过开源社区的建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

当前,“书生”还在持续学习、不断进步,致力于实现多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-03-15 14:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

商汤科技发布“书生·浦语”大模型 中文考试超越ChatGPT
...各业,据CNMO了解,近日,行业领先的人工智能软件公司商汤科技与上海AI实验室等发布了“书生·浦语”大模型。商汤科技据媒体报道,商汤科技、上海AI实验室联合香港中文大学、复旦
2023-06-08 00:13:00
【科技早报】OpenAI 发布多模态预训练大模型 GPT-4;微软将推进1万人裁员计划
...灵活多功能的系统,可以执行各种文本生成和编辑任务。商汤发布多模态多任务通用大模型“书生2.5”3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。“
2023-03-15 21:00:00
商汤如何玩转大模型+大算力?详解“日日新SenseNova”大模型体系的关键招
...昌均在ChatGPT引发的大模型和生成式AI热潮下,国内AI公司商汤科技也秀出自家肌肉。在4月10日下午的技术交流日上
2023-04-14 14:00:00
商汤日日新大模型体系更迭升级,金融、医疗等行业场景落地已超20个|WAIC 2023
今年6月拍摄的商汤大模型产品商量SenseChat界面(来源:钛媒体App编辑拍摄)时隔仅3个月,商汤“日日新”AI大模型正式更新
2023-07-11 13:00:00
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5
2024-10-14 13:34:00
AI大模型加持,商汤科技的产品多元化与商业化加速
...用,也逐渐找到了用武之地。例如,作为AI四小龙之一的商汤科技,便是以AI视觉技术起家,通过研发人工智能软件与应用,打造了一个数百亿市值的商业帝国。2021年12月,商汤科技登
2023-12-12 09:38:00
打破视觉壁垒!GPT-4发布,概念股走低,对产业有何影响?企业回应
...的下跌。港股市场,百度 (09888.HK)、美图(01357.HK)、商汤 (00020.HK)等概念股出现不同程度的上涨
2023-03-16 08:10:00
商汤启动智慧医院建设示范样板工程
本文转自:人民日报客户端谢卫群 王力桐商汤医疗携手瑞金医院、华西医院、新华医院、西京医院、中科大附属第一医院、北京清华长庚医院,在行业内率先启动医疗多模态大模型赋能的智慧医院创新
2024-07-11 11:36:00
商汤星云近日发布新一代面向智慧园区场景的智能服务器AIS 4.0。集成领先的多模态大模型能力,实现软硬件全面国产化,为各类园区综合管理效能提升提供更安全、更智能、更易用的AI新智
2024-11-15 10:14:00
更多关于财经的资讯:
时隔2个月管理层再生变 *ST赛隆节后首日股价跌停
10月8日,*ST赛隆(002898)披露公告称,公司董事会于近日收到董事长兼总裁陈科、副总裁兼董事会秘书张旭、副总裁段代风的书面辞职报告
2025-10-09 22:04:00
招商银行唐山分行:践行“透明金融” 为实体经济发展注入“强心剂”
河北新闻网讯(王宇莹 张学鹏)“以前申请贷款,总怕有‘隐性成本’,现在有了这张‘贷款明白纸’,利息、评估费甚至抵押登记费都列得明明白白
2025-10-09 19:16:00
筑牢货币安全网,守好群众“钱袋子”——贵州银行威宁支行、六桥支行走进老年大学开展反假货币宣传
9月16日,贵州银行威宁支行联合六桥支行走进老年大学,开展“反假货币知识进老年大学”专题宣传活动。活动现场,老年学员们纷纷围拢在工作人员身旁
2025-10-09 17:03:00
威宁农信联社盐仓信用社:金融政策进乡村 暖心服务惠万家
为持续推动金融惠民政策落地落实,提升村民金融素养与风险防范能力,近日,在人民银行毕节市分行的指导下,威宁农信联社普惠金融部联合盐仓信用社走进盐仓镇团结村
2025-10-09 17:03:00
警银协作再显成效 拦截5.7万元诈骗资金
2025年9月17日,毕节农商银行反诈预警系统提示客户钟某账户交易异常,朱昌支行工作人员排查发现,该账户14时26分由陌生交易对手陈某转入6万元可疑资金
2025-10-09 17:03:00
网上“美女”推销“珍藏酒”,银行员工及时拦截助老人止损
“杨大爷,您这突然转钱买酒,对方您认识吗?这事儿可得跟家里人商量下!”近日,在贵州银行雷山支行网点,大堂经理小余的耐心劝阻
2025-10-09 17:03:00
第五届邮储银行理财节“财富伴您行”财富论坛唐山场落幕
近日,第五届邮储银行理财节“财富伴您行”系列财富论坛唐山场举办。活动紧扣“风险隔离与财富传承”的高净值客户核心需求,邀约近50位富嘉
2025-10-09 15:16:00
林宏楠获批担任兴业消费董事
10月9日,福建金融监管局发布关于林宏楠兴业消金董事任职资格的批复,核准林宏楠兴业消费金融股份公司董事的任职资格。
2025-10-09 12:50:00
中国钢研成立智行科技公司,含AI业务
近日,钢研智行(北京)科技有限公司成立,注册资本3000万元,经营范围包含:物联网设备制造;物联网技术服务;人工智能基础资源与技术平台
2025-10-09 10:12:00
智谱AI、凯文教育等成立新公司,含AI及机器人业务
近日,北京智启文华教育科技有限公司成立,注册资本5000万元,经营范围包含:人工智能理论与算法软件开发;人工智能公共服务平台技术咨询服务
2025-10-09 10:12:00
金融教育宣传周 用金融温度守护最美“夕阳红
责任编辑:张子川
2025-10-09 10:30:00
金融教育宣传周 筑牢“数字名片”安全防线
责任编辑:张子川
2025-10-09 10:32:00
鸡排哥8天假期涨粉超40万,节前已成立工作室
10月8日,景德镇鸡排哥发视频向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热,游客为买鸡排有时需排队几个小时
2025-10-09 10:36:00
中国证监会、财政部就《证券期货违法行为吹哨人奖励工作规定(征求意见稿)》公开征求
为深入贯彻党中央、国务院决策部署,进一步完善举报制度,有效回应市场关切,弘扬公正担当的吹哨人文化,更好适应资本市场高质量发展和监管执法工作要求
2025-10-09 10:40:00
嵊州农商行因员工与贷款管理双失责被罚105万元,两责任人遭警告
10月9日,国家金融监督管理总局绍兴监管分局行政处罚信息公开表显示,浙江嵊州农村商业银行股份有限公司及相关责任人因员工行为管理不到位;项目贷款管理不审慎等被罚款105万元;王某波
2025-10-09 10:56:00