模态,宝宝,模型,图像,训练,文本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...合提出即插即用的SearchLVLMs框架，可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强，使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...示，这个生成速度在业内已经算非常快了。张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造，基于新的编解码器架构C-V...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

苹果发布mm1.5-ui模型

10月13日消息，近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数据对模型性能产生的影响，相关模...……更多

2024-10-13 10:57:00模型,苹果,模型,苹果公司,数据,苹果

Meta推出AI新模型VFusion3D，微美全息布局AIG

...AI+ 3D模型受青睐自 ChatGPT 火爆全球，以支持图像输入的多模态大模型 GPT-4 的推出作为契机。大模型的多模态计算潜力开始在内容生成领域发挥技术优势，顶尖的科技公司和想要抓住 AIGC 风口的初创企业开始争先恐后地推出 AI 驱...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

阿里发“神笔马良版Sora”，轻轻一抹让猫咪转向，20个演示

...7.21705项目地址：https://ali-videoai.github.io/tora_video/一、三种模态组合输入，精准控制运动轨迹Tora支持轨迹、文本、图像三种模态，或它们的组合输入，可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。轨迹输入可以...……更多

2024-08-05 09:34:00马良,神笔,阿里,猫咪,演示,报告

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态

苹果展示ferret-uiai系统可理解应用程序

...够让AI模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。只是现阶段MLLMs还无法有效理解移动应用程序，这主要有以下几个原因：1.手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比...……更多

2024-04-11 02:30:00应用程序,苹果,程序,应用,系统,模型

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 可以处理经典的计...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

华中科技大学白翔教授发布多模态大模型

...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注：多模态大模型是一类可...……更多

2023-12-15 01:14:00华中科技大学,华中,模态,模型,教授,大学

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...跑大模型的个人PC。还有谷歌20亿追投Anthropic，并曝光多模态模型Gemini和工具Stubbs，将为用户更多便捷和创新的应用开发方式。Meta公布第三季度财报，实现23%的营收增长，是公司自2021年三季度以来最大的营收增幅，表现亮眼。部...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

深数所发布500个行业多模态算料集

...据交易所（以下简称“深数所”）发布了500个垂直行业多模态算料集，按照大模型应用的不同阶段（训练、推理、调优），有的放矢地提供数据源，让国产大模型厂商“寻数有路”。此次深数所发布的首批500个人工智能大模型高...……更多

2024-04-13 01:58:00模态,行业,数据,模型,模态,人工智能

下载次数破39万！CMU、Meta联合发布VQAScore文

...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI（原Facebook AI研究院）的人工智能研究科学家，曾在微软研究院担任高级研究科学家。他的研究领域主...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...并得到最终反馈标签。之后，设计了一种基于ViT和T5X的多模态Transformer模型RAHF，使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹配的热力图使用卷积层和全连接层预测4个方面的评分使用Trans...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...事实性以及推理能力的缺陷，实现更精细的语义理解、多模态（文本、图像、语音、视频等）输入和输出，具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人工智能，实现AI的自我解释、自我评测和自我监督，构建...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

OpenAI机器人亮相，大模型有了“肉身”，英伟达微软都有投

...麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的多模态大模型中，模型能够理解图像和文本。模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，再通过文本到语音的方式向人类回话。△Figure 01训练方法...……更多

2024-03-14 17:17:00英伟,微软,肉身,机器人,模型,机器

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本