模态,宝宝,模型,图像,训练,文本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

【新智元导读】Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月，全新升级后的Llama 3....……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

财经观察：提升人机交互效率多模态大模型易用性进一步推进

...晨，美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂（Mira Murati）介绍，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合进行...……更多

2024-05-14 13:59:00进一,模态,易用,易用性,人机,模型

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...Qwen-VL-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点，提出“next-scale prediction”范式，将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多

2024-06-27 09:17:00范式,仅需,高质量,生成,模型,图像

GPT-4o的识图能力有多牛？四大维度深度体验

...的？后训练功不可没从前述体验看，GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言，新的GPT-4o是OpenAI“有史以来最好的模型”。那么，GPT-4o的多模态能力是如何“炼”成的呢？这背后的秘密或许可以...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...时间，苹果低调的在arxiv.org网站上发布论文，官宣了在多模态大模型领域的最新成果。在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》（MM1: 多模式LLM预训练的方法、分析和见解）中可以……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家 8 月 26 日消息，云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

“智算融合共创未来”——开普云AI战略暨新产品发布会召开

...，公司的AI战略是以自主构建算力能力为底座，以开悟多模态大模型为支撑，通过中台体系的构建，实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多

2024-04-11 10:30:00新产,开普,共创,共创未来,发布会,新产品

北京人工智能数据运营平台发布

...大量通用数据、行业数据，支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练，同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多

2024-06-16 04:14:00人工智能,北京,人工,运营,智能,数据

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推

新智元报道编辑：LRST【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题，传统偏好学习方法依赖可能不适配的外源数据，存在成本和质量问题。Calibrated Self-Rewarding（CSR）框架通过自我增强学...……更多

2024-06-21 09:21:00模态,美国,瓶颈,顶尖,模型,团队

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...示，这个生成速度在业内已经算非常快了。张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...基于预训练GPT-2提出了一种新的注意力机制，来衔接不同模态之间的语义差异，无需大量图像-文本数据训练，就能提升文本生成效率。文本-视频模型生成主要代表作有Phenaki、Soundify。Phenaki 由谷歌打造，基于新的编解码器架构C-V...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

Meta推出AI新模型VFusion3D，微美全息布局AIG

...AI+ 3D模型受青睐自 ChatGPT 火爆全球，以支持图像输入的多模态大模型 GPT-4 的推出作为契机。大模型的多模态计算潜力开始在内容生成领域发挥技术优势，顶尖的科技公司和想要抓住 AIGC 风口的初创企业开始争先恐后地推出 AI 驱...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

阿里发“神笔马良版Sora”，轻轻一抹让猫咪转向，20个演示

...7.21705项目地址：https://ali-videoai.github.io/tora_video/一、三种模态组合输入，精准控制运动轨迹Tora支持轨迹、文本、图像三种模态，或它们的组合输入，可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。轨迹输入可以...……更多

2024-08-05 09:34:00马良,神笔,阿里,猫咪,演示,报告

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态