我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机等终端

类别：科技发布时间：2024-04-10 10:25:00 来源：DeepTech深科技

在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。

最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。

基于对通用人工智能（AGI，General Artificial Intelligence）的追求——这一点也一直是他们的研究主线和研究理想，最终其决定致力于深化对于开放世界的理解。

（来源：arXiv）

他们相信这不仅是实现先进多模态生产的前提，长期来看也可以对多模态生成进行赋能。

比如，Sora 就使用了多模态模型对训练数据进行了大量的标注，这也证明长远来看“理解与生成”一定是相互补充、相互促进的关系。

此外，他们选择先从增强大语言模型的更多模态处理能力入手，也是鉴于该团队在语言理解领域积累的深厚经验。

这一决策同样受到了科技界广泛关注的趋势影响——即强化大模型的多模态能力，包括强化对于文本和图像的理解。

这一方向被认为是未来发展的关键，能够极大地拓展大模型在现实世界的应用范围，比如为视障人士提供辅助，或在机器人技术和日常生活自动化等领域的应用。

然而，目前市场上表现出色的多模态大模型大多为闭源（如 OpenAI 的 GPT4V、Google 的 Gemini），这限制了多模态大模型在更广泛领域的应用和发展。

而目前大部分开源多模态模型目前主要还是集中在学术领域，且对预训练模型的深入探索较少。

鉴于此，他们认为开发一个面向实际应用场景的开源多模态模型，不仅对科技社区有重大意义，也将极大地促进多模态大模型在更多跨领域的发展。

研究中，该团队首先从一个 10 亿参数的小模型开始，逐步扩展到几十亿参数规模的模型，一步一步地走完了整个多模态预训练流程。

过程中他们从数据、模型架构与训练策略上协同推进，最终把相关发现形成科技报告并开放给所有人，也开源了最终的预训练模型与微调模型。

值得一提的是，本次成果与苹果公司最近发布的多模态模型 MM1 有着很多相似之处。

多模态大模型的应用前景极其广阔，如果把当前的大语言模型（LLM，Large Language Model）视为一个初期的智能体，那么多模态就是通过扩展其感知能力，让这个智能体能够更全面地与现实世界互动。

（来源：arXiv）

目前，该团队主要关注视觉模态和语言模态，但未来计划将其扩展到包括音频和嗅觉在内的更多模态，使之成为一个真正能够与世界连接的智能体。

从应用角度来看，这种多模态智能体的潜力几乎是无限的。它们可以成为每个人的超级助理，承担人类能够想象到的所有工作。

在初期阶段可以作为辅助工具，后续将逐渐发展到彻底将人类从繁重劳动中解脱出来。

这种智能体不仅能够理解并压缩人类社会的知识，还能与现实世界进行直接交互，这意味着它们的应用场景非常广泛，包括但不限于自动化助手、教育、医疗、创造性工作、日常家务等领域。

长期来看，这些多模态大模型的发展潜力可能将远超人类当前的想象。

预计它们将成为人类社会不可或缺的一部分，帮助人们更有效地利用资源和提高生活质量，同时也能为人类打开一扇窗口，让我们以全新的方式理解世界。

据介绍，该团队从 2023 年中开始着手本次项目。最近半年到一年间，整个行业在多模态方向上取得了飞速进展。

科技社区的活动非常热烈，开源和闭源的模型都变得越来越强大，几乎每个月都有相关模型发布，对于他们这些从业者来说是一种鞭策。

同时，相比于架构比较成熟的大语言模型而言，多模态模型的架构并未拥有一个非常确定的结构。

（来源：arXiv）

各个模块之间的选择都有值得探索的地方，这些不确定性让他们更多是感到十分兴奋，也让他们觉得还有更多的机会。

庆幸的是即便在这种情况下，该团队也得到了不错的算力支持和数据工程支持。

这让他们能够快速迭代，进行更全面的数据采集、更好的数据清理，并能够优化语言-多模态数据集的配比，以及探索更好的模型结构和训练策略。

此外，除了开源 7B 模型之外，该团队同样也开源了 1.3B 的小模型。

研究人员表示：“DeepSeek-VL 1.3B 小模型的性能同样强悍，在部分指标上超越了 7B 模型。”

这些小模型可以满足算力缺乏型开发者使用，也更方便在手机等移动终端上部署。

日前，相关论文以《DeepSeek-VL：面向真实世界的视觉语言理解》（DeepSeek-VL：Towards Real-World Vision-Language Understanding）为题发在 arXiv[1]，Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。

图 | 相关论文（来源：arXiv）

不过，多模态框架目前还没有明确的定型，当前的这套 Vision Encoder + Projector + LLM 是不是最终的答案还值得商榷。

研究人员表示：“DeepSeek-VL 是我们在多模态上的第一个起始工作，后续的工作一定是更有趣、更有意义、且更长远的。”

参考资料：

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

运营/排版：何晨龙

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-10 11:45:07

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,模态,终端,科学家,科学,手机的资讯：

阶跃星辰李璟：多模态是AGI的必经之路，视觉模型可按语言模型

...办的2025搜狐科技年度论坛在北京盛大开幕。多位院士、科学家与产业界人士齐聚一堂，激发智慧的深度碰撞，奔赴科技的星辰大海。本届论坛线上线下结合，开启全天的思想盛宴。在上午的线

2025-05-17 12:05:00

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...de 3 Haiku。甚至，90B版本击败了GPT-4o mini。就连英伟达高级科学家Jim Fan都不禁夸赞，在轻量级模型中

2024-09-27 13:39:00

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说，2023年是国内大语言模型狂飙的元年。2024

2024-03-14 15:12:00

商汤科技sensetime推出“云端边”全栈大模型体系

...小米集团小爱总经理王刚在与商汤科技联合创始人、首席科学家王晓刚对话时表示：“商汤的云边端全栈组合，可以很好地赋能和适配小米物联网生态。我们希望与商汤共同为我们的用户打造更具智

2024-04-25 01:02:00

全球首个多模态地理科学大模型发布

...模型读懂地图；将打造地理科研协作大平台，以期让每个科学家和科研团队都可以拥有专属的地理大模型，能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。

2024-09-19 15:08:00

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...细技术报告。消息一出，社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan就第一时间转发评论：这是OpenAI王座的有力竞争者

2023-12-07 09:35:00

阶跃星辰宣布开源图生视频模型，多模态领域的DeepSeek时

...立，由微软前全球副总裁姜大昕创办，ResNet作者之一的AI科学家张祥雨、拥有丰富大规模集群与系统建设经验的AI系统专家朱亦博等“大牛”都先后加入，目前公司研发人员占比在80

2025-02-22 16:36:00

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...千呼万唤中面世。△图源：谷歌一个月前，英伟达的资深科学家Jim Fan就为Gemini捏了把汗：“人们对谷歌Gemini的期望高得离谱

2023-12-07 08:18:00

全球首个多模态地理科学大模型“坤元”发布：可据指令生成专业地

...系。此外，他们还将打造地理科研协作大平台，为每一位科学家和科研团队提供专属的地理大模型服务，通过共享数据、模型与研究思路等方式促进全球范围内的科研合作与知识交流，共同推动地理

2024-09-19 19:53:00

更多关于科技的资讯：

长春机场电梯无线报警系统有效释放人力资源

近日，长春机场“电梯无线报警系统”科创项目顺利投入使用。该系统融合4G无线通信、移动值守与智能终端管理等先进技术，实现了对传统电梯紧急报警系统的全面智能化升级

2025-11-13 13:34:00

海尔L+洗衣机在泰国售价6万泰铢高端增速最快

海尔智家以“全球化”为核心战略，依托技术创新推动高端产品出海落地，L+洗衣机正是这一战略的重要落地成果。该产品率先在中国高端市场获得成功

2025-11-13 10:35:00

央视二套《消费主张》强推！从一扇门到全屋智能，王力安防重新定

近日，“双十一”消费季热潮正劲，亿万消费者聚焦高品质家居好物。央视二套《消费主张》于11月11日晚黄金时段播出《聚焦双十一

2025-11-13 11:14:00

全球首个系统级伦理垂域大模型“问道”发布

给“狂飙”的AI套上伦理的“缰绳”全球首个系统级伦理垂域大模型“问道”发布南报网讯（记者何洁通讯员孙艳）让AI也能像学者一样

2025-11-13 08:06:00

第八届进博会搭建国际合作桥梁——汉诺金携手湖南卫视快乐购共促

近日，第八届中国国际进口博览会（进博会）在上海国家会展中心隆重开幕。作为全球关注的年度经贸盛会，进博会汇聚来自世界各地的顶尖企业与行业代表

2025-11-13 08:57:00

京东“双十一”战报出炉江西人下单量增速居全国第五

本报讯(全媒体记者左阳天)指尖滑动屏幕，货物飞速流转，一场持续了一个多月的年度消费盛宴，正悄然重塑江西消费者的购物车与江西商家的生产线

2025-11-13 06:45:00

新闻纵深｜“人机共生”让绿钢更绿

河钢集团石钢公司五十六个智能模型构建“数字工厂”“人机共生”让绿钢更绿阅读提示订单排产从48小时压缩到30分钟，钢水样品2分40秒完成27种元素分析

2025-11-12 08:14:00

京东发布今年“双11”福建消费热点：最爱囤运动板鞋买手机舍

厦门网讯（厦门日报记者沈彦彦）11月11日，京东发布2025年“双11”购物狂欢节（以下简称“双11”）福建消费热点相关情况

2025-11-12 08:22:00

厦门电商军团战绩不俗多个品类登上全国热销榜单

厦门网讯（厦门日报记者沈彦彦）昨日，抖音美洋官方旗舰店的直播间里热闹非凡，主播“上链接”话音刚落，新品针织衫链接的下单人数瞬间破百

2025-11-12 08:22:00

鹭江观察丨借“金鸡”生金蛋含金量高含科量足

厦门网讯（厦门日报记者邬秀君）顶峰人文影视艺术会客厅项目签约金额20亿元；同文文化艺术影视科技街区项目签约金额16亿元

2025-11-12 08:22:00

餐品要好吃下单还得好玩一些年轻人点单爱上“参与感”

厦门网讯（文/厦门日报记者谭心怡）在思明区禾祥西路，一个红色小窗口内闪着金元宝形的灯，客人抽完签、摇响铃铛、再把签递进窗口——冰激凌就会从里面递出

2025-11-12 08:22:00

厦门软件园企业:科技赋能打开光影新视野

借助XR虚拟拍摄技术，可实现场景自由切换。图为厦门火炬元宇宙（XR）公共技术服务平台。（甚妙视觉供图）厦门网讯（厦门日报记者林露虹通讯员管轩雷飏）光影闪耀鹭岛

2025-11-12 08:22:00

鹭江茶桌仔：“小咖啡”如何萃取“大产业”

●席恺前不久，星巴克以40亿美元出售中国业务60%股权。消息一传出，众人的目光很快聚焦在瑞幸咖啡上：这个总部设在厦门的咖啡品牌

2025-11-12 08:22:00

德州扒鸡®美食城三八路店重装开业——铸就州城美好生活新业态升

鲁网11月11日讯（记者赵洪斌吴美琳）11月11日，德州扒鸡®美食城三八路店重装开业，焕新启幕，美耀州城！溯源四十载

2025-11-12 08:43:00

记者走基层｜AI知“冷热” 暖流更舒适

立冬时节，寒意逐渐加重。11月7日，记者走进沧州热力有限公司热网调度中心，只见一块覆盖整面墙壁的智慧大屏格外醒目，沧州智慧热力管理平台正高效运行

2025-11-12 08:57:00

头条订阅服务

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机等终端