• 我的订阅
  • 头条热搜
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781.SZ)涨13.32%,苏州科达涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
“解锁”AI云盘新体验!中国移动云盘通过3项AI算法备案
...中,中国移动云盘3项大模型算法成功通过备案,涵盖多模态大模型、文本生成算法等。去年9月,中国移动云盘启动AI智能工具内测,本次算法备案成功标志着中国移动云盘可正式对外提供深度合成人工智能服务,在国内AI云盘赛...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给G...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
谷歌发布Gemini,机构看好多模态AI应用商业变现前景,软件ETF(159852)年内份额增长近1.5倍丨ETF观察
近日,多模态AI概念持续活跃。谷歌等科技公司也纷纷推出了新的多模态AI产品,大模型多模态化有望成为AI领域的热门趋势。综合多家机构观点,AI多模态模型的不断突破和加速落地,有望进一步打开AI应用商业化空间。截至12...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
更多关于科技的资讯:
家委必藏!毕业照别乱找!忆学堂封神级拍摄,给娃留一辈子的青春纪念
在毕业季影像服务赛道,“专业”与“可靠”是始终不变的核心诉求。忆学堂从一间工作室成长为全国连锁品牌,凭借实打实的硬实力
2025-12-22 14:13:00
喜茶携手泡泡玛特星星人,首次全球同步联名活动正式上线
鲁网12月22日讯12月22日,喜茶与泡泡玛特(POP MART)旗下人气IP星星人的联名活动正式登陆喜茶全球门店,不少喜茶门店开业后就迅速进入制茶繁忙状态
2025-12-22 14:14:00
正雅于法国巴黎迪士尼成功举办早期矫治学术峰会
2025年12月13日,正雅齿科在法国巴黎迪士尼乐园酒店成功举办了"儿童早期矫治学术研讨会"。本次会议吸引了来自法国、瑞士
2025-12-22 14:20:00
2025游戏公益+研究报告在沪发布:公益是游戏体验的“加分项”
有多少游戏企业在游戏产品里做公益?他们做的公益活动被多少玩家接触过?在游戏里做公益是否会影响玩家游戏体验?在12月19日举办的2025中国游戏产业年会游戏公益+论坛上
2025-12-22 14:21:00
青岛城市传媒广场发布2026业态升级战略,携手多元品牌共筑“潮趣换新,自在未来”
12月20日,“潮趣换新,自在未来——青岛城市传媒广场新起点暨2026业态升级发布会”在青岛西海岸隆重举行。活动标志着这座扎根区域八年的文化商业地标正式开启全面焕新阶段
2025-12-22 14:49:00
年底前一项大利好政策来了!刚刚,央行发布《关于实施一次性信用修复政策有关安排的通知》,这意味着个人信用救济的重磅政策落地
2025-12-22 14:57:00
【宅男财经|专家面对面】据看看新闻报道,12月21日,俞敏洪在讲话中谈及董宇辉离职,仍亲切地喊他“孩子”,表示对目前结果感到满意
2025-12-22 15:00:00
安踏儿童携手广州亲子跑,足弓PRO跑鞋「萌芽」配色首发亮相
近日,2025广州亲子跑在广州天河体育中心活力开跑,约600组家庭、近2000名大小跑者携手出发。现场安踏儿童将“足弓成长计划”与广州亲子跑深度融合
2025-12-22 15:21:00
大力神杯“打卡”青岛!海信RGB-Mini LED电视提前解锁2026年世界杯极致观赛
鲁网12月22日讯12月21日,象征足坛最高荣耀的大力神杯“空降”青岛,2026世界杯定制电视海信RGB-Mini LED电视同步亮相
2025-12-22 15:26:00
近日,动力锂电池专列从四川宜宾港鸣笛启程,一路驰骋奔赴上海,这一历史性时刻,如同一束强光,照亮了动力锂电池运输领域全新的发展方向
2025-12-22 15:36:00
中国消费者报报道(记者王小月)随着智能手机、笔记本电脑等消费电子产品迭代速度不断加快,大量旧设备涌入回收与再流通渠道。然而
2025-12-22 15:42:00
为期两天的2025年平谷国际宠物博览会已圆满收官,本次博览会汇聚400余家优质展商,集中展示名猫、名犬、宠物食品、用品等特色产品
2025-12-22 15:51:00
青岛打卡大力神杯!海信携世界杯定制冰箱揭秘“冠军级保鲜”密码
鲁网12月22日讯12月21日,象征世界足球最高荣誉的大力神杯在青岛首次面向公众展出,引发了广泛关注。活动现场,海信冰箱携三款2026世界杯定制冰箱同步亮相
2025-12-22 16:00:00
大力神杯青岛焕彩,容声以“鲜”世技术赴冠军之约
鲁网12月22日讯“技术好的很多,但冠军才能捧杯!”12月21日,青岛迎来足球界至高荣耀——象征全球足球巅峰荣誉的大力神杯在此开启24小时公开展出
2025-12-22 16:03:00
海信冰箱磁吸光幕门板荣获2025国际CMF设计奖
鲁网12月22日讯日前,全球设计领域权威奖项——2025国际CMF设计奖正式揭晓,海信冰箱全球首创的磁吸光幕门板凭借在材质
2025-12-22 16:04:00