• 我的订阅
  • 科技

科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端

类别:科技 发布时间:2024-04-10 10:25:00 来源:DeepTech深科技

在最近一项研究中,DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向,背后有着多重考量。

最初,该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。

基于对通用人工智能(AGI,General Artificial Intelligence)的追求——这一点也一直是他们的研究主线和研究理想,最终其决定致力于深化对于开放世界的理解。

科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端

(来源:arXiv)

他们相信这不仅是实现先进多模态生产的前提,长期来看也可以对多模态生成进行赋能。

比如,Sora 就使用了多模态模型对训练数据进行了大量的标注,这也证明长远来看“理解与生成”一定是相互补充、相互促进的关系。

此外,他们选择先从增强大语言模型的更多模态处理能力入手,也是鉴于该团队在语言理解领域积累的深厚经验。

这一决策同样受到了科技界广泛关注的趋势影响——即强化大模型的多模态能力,包括强化对于文本和图像的理解。

这一方向被认为是未来发展的关键,能够极大地拓展大模型在现实世界的应用范围,比如为视障人士提供辅助,或在机器人技术和日常生活自动化等领域的应用。

然而,目前市场上表现出色的多模态大模型大多为闭源(如 OpenAI 的 GPT4V、Google 的 Gemini),这限制了多模态大模型在更广泛领域的应用和发展。

而目前大部分开源多模态模型目前主要还是集中在学术领域,且对预训练模型的深入探索较少。

鉴于此,他们认为开发一个面向实际应用场景的开源多模态模型,不仅对科技社区有重大意义,也将极大地促进多模态大模型在更多跨领域的发展。

研究中,该团队首先从一个 10 亿参数的小模型开始,逐步扩展到几十亿参数规模的模型,一步一步地走完了整个多模态预训练流程。

过程中他们从数据、模型架构与训练策略上协同推进,最终把相关发现形成科技报告并开放给所有人,也开源了最终的预训练模型与微调模型。

值得一提的是,本次成果与苹果公司最近发布的多模态模型 MM1 有着很多相似之处。

多模态大模型的应用前景极其广阔,如果把当前的大语言模型(LLM,Large Language Model)视为一个初期的智能体,那么多模态就是通过扩展其感知能力,让这个智能体能够更全面地与现实世界互动。

科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端

(来源:arXiv)

目前,该团队主要关注视觉模态和语言模态,但未来计划将其扩展到包括音频和嗅觉在内的更多模态,使之成为一个真正能够与世界连接的智能体。

从应用角度来看,这种多模态智能体的潜力几乎是无限的。它们可以成为每个人的超级助理,承担人类能够想象到的所有工作。

在初期阶段可以作为辅助工具,后续将逐渐发展到彻底将人类从繁重劳动中解脱出来。

这种智能体不仅能够理解并压缩人类社会的知识,还能与现实世界进行直接交互,这意味着它们的应用场景非常广泛,包括但不限于自动化助手、教育、医疗、创造性工作、日常家务等领域。

长期来看,这些多模态大模型的发展潜力可能将远超人类当前的想象。

预计它们将成为人类社会不可或缺的一部分,帮助人们更有效地利用资源和提高生活质量,同时也能为人类打开一扇窗口,让我们以全新的方式理解世界。

据介绍,该团队从 2023 年中开始着手本次项目。最近半年到一年间,整个行业在多模态方向上取得了飞速进展。

科技社区的活动非常热烈,开源和闭源的模型都变得越来越强大,几乎每个月都有相关模型发布,对于他们这些从业者来说是一种鞭策。

同时,相比于架构比较成熟的大语言模型而言,多模态模型的架构并未拥有一个非常确定的结构。

科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端

(来源:arXiv)

各个模块之间的选择都有值得探索的地方,这些不确定性让他们更多是感到十分兴奋,也让他们觉得还有更多的机会。

庆幸的是即便在这种情况下,该团队也得到了不错的算力支持和数据工程支持。

这让他们能够快速迭代,进行更全面的数据采集、更好的数据清理,并能够优化语言-多模态数据集的配比,以及探索更好的模型结构和训练策略。

此外,除了开源 7B 模型之外,该团队同样也开源了 1.3B 的小模型。

研究人员表示:“DeepSeek-VL 1.3B 小模型的性能同样强悍,在部分指标上超越了 7B 模型。”

这些小模型可以满足算力缺乏型开发者使用,也更方便在手机等移动终端上部署。

日前,相关论文以《DeepSeek-VL:面向真实世界的视觉语言理解》(DeepSeek-VL:Towards Real-World Vision-Language Understanding)为题发在 arXiv[1],Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。

科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端

图 | 相关论文(来源:arXiv)

不过,多模态框架目前还没有明确的定型,当前的这套 Vision Encoder + Projector + LLM 是不是最终的答案还值得商榷。

研究人员表示:“DeepSeek-VL 是我们在多模态上的第一个起始工作,后续的工作一定是更有趣、更有意义、且更长远的。”

参考资料:

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

运营/排版:何晨龙

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-10 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...办的2025搜狐科技年度论坛在北京盛大开幕。多位院士、科学家与产业界人士齐聚一堂,激发智慧的深度碰撞,奔赴科技的星辰大海。本届论坛线上线下结合,开启全天的思想盛宴。在上午的线
2025-05-17 12:05:00
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...de 3 Haiku。甚至,90B版本击败了GPT-4o mini。就连英伟达高级科学家Jim Fan都不禁夸赞,在轻量级模型中
2024-09-27 13:39:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,2023年是国内大语言模型狂飙的元年。2024
2024-03-14 15:12:00
商汤科技sensetime推出“云端边”全栈大模型体系
...小米集团小爱总经理王刚在与商汤科技联合创始人、首席科学家王晓刚对话时表示:“商汤的云边端全栈组合,可以很好地赋能和适配小米物联网生态。我们希望与商汤共同为我们的用户打造更具智
2024-04-25 01:02:00
...模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。
2024-09-19 15:08:00
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...细技术报告。消息一出,社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan就第一时间转发评论:这是OpenAI王座的有力竞争者
2023-12-07 09:35:00
阶跃星辰宣布开源图生视频模型,多模态领域的DeepSeek时刻何时来?
...立,由微软前全球副总裁姜大昕创办,ResNet作者之一的AI科学家张祥雨、拥有丰富大规模集群与系统建设经验的AI系统专家朱亦博等“大牛”都先后加入,目前公司研发人员占比在80
2025-02-22 16:36:00
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...千呼万唤中面世。△图源:谷歌一个月前,英伟达的资深科学家Jim Fan就为Gemini捏了把汗:“人们对谷歌Gemini的期望高得离谱
2023-12-07 08:18:00
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...系。此外,他们还将打造地理科研协作大平台,为每一位科学家和科研团队提供专属的地理大模型服务,通过共享数据、模型与研究思路等方式促进全球范围内的科研合作与知识交流,共同推动地理
2024-09-19 19:53:00
更多关于科技的资讯:
一年一度的天猫双11购物节再次引爆消费市场。但与往年不同,今年的关键词不再是简单的“低价”或“流量”,而是全面转向“效率”
2025-11-10 20:57:00
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00