模态,缺陷,测试,模态,模型,心智头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...合提出即插即用的SearchLVLMs框架，可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强，使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

arxiv研究人员：多模态ai模型存在安全隐患

...论文指出，包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-ModalitySafetyAlignment），提出了...……更多

2024-06-26 03:07:00模态,研究人员,隐患,模型,人员,安全

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

meta开源多感官大模型，ai用6种模态体验虚拟世界

Meta最新 6模态大模型，让AI以更接近人类的方式理解这个世界。比如当你听见倒水声的时候就会想到杯子，听到闹铃声会想到闹钟，现在AI也可以。尽管画面中没有出现人类，AI听到掌声也能指出最有可能来自电脑。这个大模型 I...……更多

2023-05-11 19:53:00模态,感官,模型,体验,世界,模态

全国首个成都创新团队发布机器人多模态模型

中国首个机器人多模态模型，可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果，根据语音指令，机器人会把苹果送到你手上；如果想收拾干净桌面，机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多

2024-08-13 09:51:00模态,人多,成都,模型,团队,机器

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

苹果公司公布“mm1”多模态大模型

...omMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

香港发布AI多模态手术大模型

...学院香港创新院AI中心”)，日前在香港发布医疗领域AI多模态大模型CARES Copilot1.0。据介绍，CARES Copilot系统由中国科学院香港创新院AI中心研发，是一款专为医疗领域设计的大型模型系统。该系统实现了图像、文本、语音、视频等...……更多

2024-03-14 10:23:00模态,香港,模型,香港,中国科学院,人工智能

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

全球首个多模态地理科学大模型发布

...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍，该大模型是专注于地理科学的专业语言大模型，具备处理地理科学相关问题的专业能力，研发团队完成了地...……更多

2024-09-19 15:08:00模态,模型,地理,科学,全球,地理

百度发布两款大模型，对标DeepSeek、聚焦多模态

3月16日，在文心一言正式发布两周年后，百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4.5在百度智能云千帆大模型平台上线，输入价格为0.004元/千tokens；文心大模型X1输入价格0.002元/千tokens，为DeepSeek R1...……更多

2025-03-16 14:03:00模态,模型,文心,模型,哪吒,模态

阿里云CTO周靖人：全面投入升级AI大基建

...模型Qwen2.5系列，同时上架语言、音频、视觉等100多款全模态模型，通义开源模型累计下载量已经突破4000万，通义原生模型和衍生模型总数超过5万，成为仅次于美国Llama的世界级模型群。打造最强AI基建不同于传统IT时代，AI时代...……更多

2024-09-19 15:53:00阿里,基建,投入,升级,模型,通义

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

...对用户指令的忠实性。具体而言，AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰，忠实地完成用户预设的目标，是一个尚待研究的问题，也是实际应用之前必须回答的问题。针对上述问题，本文以图形用户界面智...……更多

2024-09-03 09:59:00模型,环境,智能,手机,环境,干扰

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成

“试用完谷歌的新AI模型，再也不爱GPT”

...越 GPT-4 ， Gemini 最特殊的一点是，它是谷歌带来的首个多模态大模型，也就是能不光能打字互动，也能进行语音、视频、图片的互动。按照谷歌的说法，现有的所谓多模态大模型，都是单独训练了文本、视觉和音频等模型，再把...……更多

2023-12-12 00:22:00模型,模态,模型,答案,大杯,能力

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

Gemini 开启大模型路线之争，新战场将“数流成河”

...一种可能性：具有原生数据优势的互联网巨头，可能在多模态大模型竞争中占据优势。这意味着，谷歌、马斯克、Meta以及中国的腾讯、抖音、阿里、百度等公司都有可能在Gemini 开创的路线上加速迭代大模型。大模型战局，进入...……更多

2023-12-15 10:02:00成河,战场,模型,路线,马斯,马斯克

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni：看

...快科技3月27日消息，阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输...……更多

2025-03-27 08:34:00通义,旗舰,新一代,模型,模态,文本

阿里达摩院发布业内首个遥感ai大模型，支持多模态交互

...业应用。IT之家归纳总结该遥感大模型特点如下：支持多模态交互，如输入“提取影像中的耕地农田”，会自动识别所选目标▲图源达摩院DAMO官方公众号支持任意地表目标识别，并建立多级语义标签体系▲图源达摩院DAMO官方公...……更多

2023-10-21 17:12:00达摩,模态,遥感,阿里,模型,业内

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本