• 我的订阅
  • 头条热搜
arxiv研究人员:多模态ai模型存在安全隐患
...印象、争议性话题以及非法活动和犯罪等9个安全领域。研究人员说,大型视觉语言模型(LVLM)在接收多模态输入时很难识别SIUO类型的安全问题,在提供安全响应方面也遇到困难。在接受测试的15个LVLM中,只有GPT-4v(53.29%)、GPT...……更多
赋予人工智能更多温度
...据驱动的服务对象精准认知与最优决策技术,以及基于多模态的机器人主动服务与精准交互技术这三大核心技术,链接了物联网、精准服务分析、深度学习计算三大云端平台,实现了‘云、边、端’技术一体化和行业应用的深度...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...来源何处? 近日,来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...和文本来混合:[TEXT]the cat [SPEECH][Hu3][Hu7]..[Hu200][TEXT]the mat研究人员认为,交错训练可以帮助模型学习语音和文本之间的对应关系,从而实现更好的文本到语音的转换;在每个训练步骤中,句子中的语音和文本部分是随机采样的。...……更多
公路水路交通基础设施数字化转型升级,卓视智通准备好了
...012年成立以来就一直专注于交通视频识别及智能分析、多模态融合感知、多模态大模型等前沿技术的原创研发,并在智慧公路与交通基础设施数字化领域实现了广泛的应用落地,公司连续多年获评“AI+智慧交通”十大优秀企业、...……更多
...大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...似,但GPT-4o mini 模型的健壮性与GPT-4o相比,健壮性较差。研究人员中还探讨了 OCR 提示和思想链 (CoT) 推理的影响,结果发现 OCR 提示的影响很小,而 CoT 通常可以提高性能。MMMU-Pro:更健壮的MMMU重新审视MMMU基准测试大规模多学科...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...11402项目主页:https://nvlm-project.github.io/在模型设计方面,研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训...……更多
...内瓦1月18日电 (记者 曾焱) 世界卫生组织18日发布的多模态大模型治理相关新指南说,人工智能在医疗卫生领域应用前景广阔,但同时也要防范其中可能出现的诸如“自动化偏见”导致的过度依赖等风险。作为一项快速发展的...……更多
科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端
...开源 7B 模型之外,该团队同样也开源了 1.3B 的小模型。研究人员表示:“DeepSeek-VL 1.3B 小模型的性能同样强悍,在部分指标上超越了 7B 模型。” 这些小模型可以满足算力缺乏型开发者使用,也更方便在手机等移动终端上部署。...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...该团队以将「Align Anything」框架进行开源。通过该框架,研究人员不但可以利用该框架进行多模态模型的对齐实验,提高模型的训练和评估效率,还可以用该框架微调各种大模型,提升在特定任务上的表现。该框架的推出,对探...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...的负前向知识转移。 MMCL 算法汇总为了应对上述挑战,研究人员越来越关注 MMCL 方法。作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移...……更多
苹果公司公布“mm1”多模态大模型
...已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试,号称MM1-3B-Chat和MM1-7B-Chat优于市面上绝大多数相同规模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench、MMMU和M……更多
...型的计算效率。SmartTrim框架结构图在训练SmartTrim模型时,研究人员采用了一种结合任务相关目标和计算开销目标的双重优化策略。通过重参数化技巧,解决了不可导二值mask的问题,实现了模型的端到端训练。此外,自蒸馏和课...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...非易事。为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。代码仓库: https://github.com/EvolvingL...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...,中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型“坤元”。作为专为地理科学领域量身打造的专业语言大模型,“坤元”不仅精通地理学的精髓,更在“懂地理”、“精配图”、“知人心”、“智生...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...”刘山松表示。在调研和确定研究现状和研究目标之后,研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器,来分别处理音乐、图像和视频输入。接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...而道远。HourVideo如何炼成? 之所以提出HourVideo,是因为研究人员发现目前长视频理解越来越重要,而现有评估benchmark存在不足。多模态越来越卷,人们期待AI被赋予autonomous agents的类似能力;而从人类角度来看,由于人类具备处...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...内容可溯源的能力。目前主要针对图片、音频和视频等多模态内容,采用隐式水印方法建立互认机制。文本内容上的实现仍有一定技术难度,后续将持续有针对性地突破。 此外,计划将通过AI保险机制,为相关人员和单位给予...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...立LLM裁判根据参考答案对模型的输出进行评分。本文中,研究人员构建并发布了一个名为多模态MT-Bench(MM-MT-Bench)的新基准测试,风格与纯文本的MT-Bench类似,以评估指令调整的多模态模型的性能。 MM-MT-Bench总共包含92个对话(...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...一些热门搜索词来对前者进行补充。第二步,问题生成。研究人员首先根据搜集到的搜索词调用搜索引擎得到相关的新闻,将新闻内容进行切分,得到多个内容片段。然后要求GPT根据内容片段自问自答,得到在第三步图像分配阶...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
...面涵盖越狱攻击各个方面的系统性基准测试框架,旨在为研究人员提供一个标准化、全面的评估工具。△图1 JailTrackBench框架通过对七种具有代表性的越狱攻击和六种防御方法的320项实验,使用50,000 GPU小时,团队以标准化的方式...……更多
大模型“遍地”都是,谁能真正解放生产力?
...,其苦于人工标注久矣,不想再人工打标视频、图片等多模态信息。但市场现实情况是,供不应求:除了大厂以外,少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然,听到了太多客户关于大模型难以落地...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...的医疗保健专用人工智能模型MedLM,旨在帮助临床医生和研究人员进行复杂的研究、总结医患互动等。此举标志着谷歌将医疗保健行业人工智能工具货币化的最新尝试。MedLM套件包括一个大型和中型AI模型,均基于Med-PaLM 2构建。Me...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
【新智元导读】研究人员提出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私...……更多
AI大模型赋能交通:化身“数字运维专家”,融入车管电子书
...客进行线路、票价等信息查询和快速购票,与此同时,多模态大模型能对站内的拥堵、异常情况进行实时判断,为相应的站内管控和车辆调度提供辅助决策和应急处置。全球首个发布并落地应用的交通行业大模型——佳都知行交...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时代的全球首篇具身智能综述。该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...网)包含三款能力逐级递增的模型,在自然语言处理、多模态整合等方面表现卓越如果讨论本世纪最激动人心且影响深远的科学技术领域,AI 必定榜上有名。以“确保变革性 AI 帮助人们和社会繁荣发展”为使命的 Anthropic,则是...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统...……更多
更多关于科技的资讯:
极氪汽车CES 2025上隆重推出三款纯电车型
12月18日,极氪汽车宣布,将于2025年国际消费电子展(CES2025)上,展示其先进的电动汽车技术,并隆重推出三款纯电车型
2024-12-19 00:14:00
为啥你拼命存的资源 最后又不想点开了
你有数字囤积癖吗?世超有。症状是这样的: 只要在互联网上刷到了感兴趣的工具、影视、学习资源,我都第一时间保存。听着很正常
2024-12-19 00:21:00
能看风水 夸我有情趣 Kimi现在都这么野了吗
最近,差评君发现了个新鲜玩意儿。喂给 AI 一张图,它就能给你推测出一个人的性格。光靠歌单,就能把人最近的心理状态推测个七七八八
2024-12-19 00:21:00
旅行博主上街要钱13天要到6800块:没尽力 尽力能要到1万
快科技12月18日消息,青春没有售价,要饭也能要到拉萨。日前,旅游博主“但行万里路”发视频称,这两天没有努力工作,最近13天把整个大理古城要了个遍
2024-12-19 00:51:00
字节跳动旗下即梦ai图片模型2.1正式上线
12月18日,字节跳动旗下即梦AI宣布,全新图片模型2.1正式上线,支持用户通过简单指令控制文字的颜色、位置等元素,快速生成中英文图像海报
2024-12-19 01:16:00
谷歌发布新型ai图像生成工具
12月17日,谷歌发布了一款名为Whisk的新型AI图像生成工具。Whisk的最大亮点在于,用户无需编写冗长的文本提示
2024-12-19 01:46:00
英伟达推出全新游戏优化应用“英伟达应用”
近日,英伟达推出的全新游戏优化应用“英伟达应用”(NvidiaApp),旨在取代原有的GeForceExperience
2024-12-19 01:48:00
iphone17系列渲染图曝光
12月18日消息,有博主基于曝光的信息绘制了iPhone17系列渲染图,对比iPhone16系列,17系列最大变化是采用横置相机模组
2024-12-19 01:51:00
飞利浦“能量块”五合一充电宝上架
在当今快节奏的生活中,移动设备如手机、平板电脑、蓝牙耳机等已成为人们生活中不可或缺的一部分。然而,这些设备的电池续航能力往往无法满足人们旅行期间的电量需求
2024-12-19 02:39:00
一加ace5pro旁路供电功能曝光
12月17日,据爆料称5系列将于本周官宣、下周发布。一加Ace5Pro最大的亮点是支持旁路供电功能。这项技术允许外部电源直接为设备供电和充电
2024-12-19 02:44:00
meta-banmeta智能眼镜v11更新
12月17日,Meta公司对其Ray-BanMeta智能眼镜进行了v11更新。本次更新的最大亮点是“实时AI”(LiveAI)功能
2024-12-19 02:47:00
一加 Ace 5系列内存配置和硬件配置全面曝光
12月17日消息,一加Ace5系列内存配置和硬件配置全面曝光,一加Ace5和一加Ace5Pro两款机型的硬件差异主要是处理器
2024-12-19 02:49:00
微信又上新功能,这次有定制音色了
据微信派公众号18日消息,微信最近上线了“作者朗读音色”新能力,用户点击“听全文”,就能够“听”到作者音色朗读的公众号文章
2024-12-19 02:58:00
宝马公司叫停1000kw电动m1继任者开发计划
近日,爆料称宝马由于盈利能力、技术可行性以及电动汽车市场销售放缓等多重因素,公司决定叫停1000kW电动M1继任者的开发计划
2024-12-19 03:19:00
荣耀magic7rsr保时捷超长焦细节纤毫毕现,远近皆清晰!
掌中之境,视界无垠。荣耀Magic7RSR保时捷设计搭载行业首创100xAI超级长焦先锋成像,超长焦细节纤毫毕现,远近皆清晰
2024-12-19 03:36:00