• 我的订阅
  • 头条热搜
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多
arxiv研究人员:多模态ai模型存在安全隐患
...论文指出,包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-ModalitySafetyAlignment),提出了...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
meta开源多感官大模型,ai用6种模态体验虚拟世界
Meta最新 6模态大模型,让AI以更接近人类的方式理解这个世界。比如当你听见倒水声的时候就会想到杯子,听到闹铃声会想到闹钟,现在AI也可以。尽管画面中没有出现人类,AI听到掌声也能指出最有可能来自电脑。这个大模型 I...……更多
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
苹果公司公布“mm1”多模态大模型
...omMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的...……更多
...学院香港创新院AI中心”),日前在香港发布医疗领域AI多模态大模型CARES Copilot1.0。据介绍,CARES Copilot系统由中国科学院香港创新院AI中心研发,是一款专为医疗领域设计的大型模型系统。该系统实现了图像、文本、语音、视频等...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地...……更多
百度发布两款大模型,对标DeepSeek、聚焦多模态
3月16日,在文心一言正式发布两周年后,百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4.5在百度智能云千帆大模型平台上线,输入价格为0.004元/千tokens;文心大模型X1输入价格0.002元/千tokens,为DeepSeek R1...……更多
阿里云CTO周靖人:全面投入升级AI大基建
...模型Qwen2.5系列,同时上架语言、音频、视觉等100多款全模态模型,通义开源模型累计下载量已经突破4000万,通义原生模型和衍生模型总数超过5万,成为仅次于美国Llama的世界级模型群。打造最强AI基建不同于传统IT时代,AI时代...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
...对用户指令的忠实性。具体而言,AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰,忠实地完成用户预设的目标,是一个尚待研究的问题,也是实际应用之前必须回答的问题。针对上述问题,本文以图形用户界面智...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
“试用完谷歌的新AI模型,再也不爱GPT”
...越 GPT-4 , Gemini 最特殊的一点是,它是谷歌带来的首个多模态大模型,也就是能不光能打字互动,也能进行语音、视频、图片的互动。按照谷歌的说法,现有的所谓多模态大模型,都是单独训练了文本、视觉和音频等模型,再把...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...布,“大杀器”Gemini 1.0,正式上线。Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenA...……更多
Gemini 开启大模型路线之争,新战场将“数流成河”
...一种可能性:具有原生数据优势的互联网巨头,可能在多模态大模型竞争中占据优势。这意味着,谷歌、马斯克、Meta以及中国的腾讯、抖音、阿里、百度等公司都有可能在Gemini 开创的路线上加速迭代大模型。大模型战局,进入...……更多
通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通
...快科技3月27日消息,阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输...……更多
阿里达摩院发布业内首个遥感ai大模型,支持多模态交互
...业应用。IT之家归纳总结该遥感大模型特点如下:支持多模态交互,如输入“提取影像中的耕地农田”,会自动识别所选目标▲图源达摩院DAMO官方公众号支持任意地表目标识别,并建立多级语义标签体系▲图源达摩院DAMO官方公...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
松鼠Ai智适应教育大模型全新升级
...与科技融合的盛宴。松鼠Ai举行发布会,不仅展示了其多模态智适应教育大模型及系统的全方位升级,还推出了多款前沿的智适应教育硬件产品,为AI教学体验带来了革命性的提升。松鼠Ai创始人、首席教育技术科学家栗浩洋在发...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...,中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型“坤元”。作为专为地理科学领域量身打造的专业语言大模型,“坤元”不仅精通地理学的精髓,更在“懂地理”、“精配图”、“知人心”、“智生...……更多
GPT-4撞上文心一言,百度压力骤增:多模态和中文能力受关注,或多种方式落地
...”文心一言发布前夕,OpenAI抢先发布了功能更为强大的多模态大模型GPT-4,巨大的压力给到了百度。前后脚发布,高调宣传的百度难免会被拿来对比,或将面临发布即落后的尴尬。毫不夸张地讲,如果明日发布的文心一言达不到...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
更多关于科技的资讯:
本文转自:人民网-贵州频道近日,贵阳大数据科创城多边超算基地项目《装配式混凝土空腹夹层板》新技术,顺利通过贵州省住房和城乡建设厅组织的专家评审
2025-04-21 19:52:00
台积电CEO魏哲家2024年薪酬2.13亿元:大涨70%
快科技4月21日消息,台积电在最新的2024年财报中,公布了台积电董事长兼总裁魏哲家及多位高管的薪酬。2024年,魏哲家总薪酬超过9
2025-04-21 19:59:00
零百加速5.7秒!长城汽车:魏牌高山是性能最强的插混MPV
快科技4月21日消息,在魏牌新高山的发布会上,长城汽车宣布魏牌高山是性能最强的插混MPV。在Hi4系统的助力下,魏牌高山的满电0-100公里/小时加速时间仅为5
2025-04-21 19:59:00
‌黄伟健教授荣耀加盟欧洲经济研究院
在学术与科研的璀璨星空中,又有一颗耀眼的星辰加入了欧洲经济研究院的大家庭。他就是黄伟健教授,一位在工商管理和商业人工智能领域深耕多年的杰出学者
2025-04-21 20:10:00
姚小毅:商业管理与人工智能领域的杰出专家
姚小毅,一位在商业管理和商业人工智能领域享有盛誉的专家,以其深厚的学术背景和卓越的贡献,成为了连接中西学术交流与合作的重要桥梁
2025-04-21 20:14:00
本文转自:人民网-观点频道孟 哲打开手机购物APP,映入眼帘的商品推荐常常正中下怀,仿佛平台能洞悉你的内心;刷短视频时
2025-04-21 20:17:00
南宁职业技术大学与南宁中关村信息谷科技签订战略合作协议
本文转自:人民网-广西频道签约现场。主办方供图4月20日,千企南宁行——南宁·中关村人工智能+国际创新生态大会活动举行
2025-04-21 20:21:00
全面超越旧时代豪华MPV 全新魏牌高山预售:顶配仅需37.98万
快科技4月21日消息,刚刚,全新魏牌高山开启预售,号称全面超越旧时代豪华MPV,分为高山7/8/9三个版本,共推出3款车型
2025-04-21 20:29:00
友商沉默!vivo X200 Ultra为何拍照这么强:图像传感器平均面积大幅领先
快科技4月21日消息,今晚vivo在线上举行新品发布会,而备受期待的X200 Ultra也是终于亮相。作为X200 Ultra最大的看点
2025-04-21 20:29:00
国补679.15元起!vivo WATCH 5发布:血压风险评估 全新自研蓝河OS
快科技4月21日消息,今晚,vivo新一代智能手表——vivo WATCH 5正式发布,主打健康监测与轻量化设计。vivo WATCH 5提供辰夜黑
2025-04-21 20:29:00
中粮可口可乐“聚势共生 链通未来”共赢生态圈正式发布
大众网记者 段正浩 济宁报道4月14日,中粮可口可乐饮料有限公司(以下简称“中粮可口可乐”)举行“聚势共生 链通未来”共赢生态圈战略发布会
2025-04-21 20:51:00
吉尔、艾达同框!《生化危机》系列女主全家福来了
X上一位同人画师(@es_nio_arts)以其精湛的Blender创作俘获了大量粉丝。这位同人画师通过3D建模软件Blender
2025-04-21 20:59:00
能打电话的V单!vivo X200 Ultra发布:6499元起
快科技4月21日消息,今日晚间,vivo X200 Ultra正式发布。售价方面,12GB+256GB售价6499元;16GB+512GB售价6999元
2025-04-21 20:59:00
刘强东亲自送外卖与消费者合影 京东回应:属实
快科技4月21日消息,今晚,有网友在小红书发帖,晒出与京东创始人刘强东合影。照片中刘强东身穿京东外卖骑手工服,手持外卖
2025-04-21 20:59:00
让机器人做家务、与机器人对弈、机器人来问诊……4月19日至20日,由环梦科技、中科检测、云之谷科技共同主办的2025环梦•Ai智能机器人科普展太原站
2025-04-21 21:10:00