模态,教会,文本,升级,数据,模态头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文

在当今多模态领域，CLIP 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。然而，CLIP 的文本处理能力被广...……更多

2024-11-28 09:59:00模态,教会,文本,升级,数据,模态

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态

“紫东太初”：从多模态走向全模态

...中国科学院自动化研究所所长徐波在发布“紫东太初”全模态大模型时，展示了该模型的新“能耐”。作为“紫东太初”1.0的升级版，“紫东太初”全模态大模型具备全模态理解能力、生成能力和关联能力，不仅能读懂文字、图...……更多

2023-06-26 01:45:00模态,东太,模态,东太,模型,中国科学院

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

紫东.太初再进化，揭秘全模态大模型的想象力

...在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0，并首次提出全模态多任务统一生成式学习框架。借用Hugging Face联合创始人Thomas Wolf的说法：“在过去的几年里，好的多模态模型一直是许多大型技...……更多

2023-05-12 06:00:00太初,模态,想象力,进化,模型,模态

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新突破，其卓越的图文跨模态开放任务处理能力可...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...Qwen-VL-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。随便上传一张图，...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本