• 我的订阅
  • 头条热搜
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781.SZ)涨13.32%,苏州科达涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规……更多
...中国科学院自动化研究所所长徐波在发布“紫东太初”全模态大模型时,展示了该模型的新“能耐”。作为“紫东太初”1.0的升级版,“紫东太初”全模态大模型具备全模态理解能力、生成能力和关联能力,不仅能读懂文字、图...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
紫东.太初再进化,揭秘全模态大模型的想象力
...在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0,并首次提出全模态多任务统一生成式学习框架。借用Hugging Face联合创始人Thomas Wolf的说法:“在过去的几年里,好的多模态模型一直是许多大型技...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
全球首个全模态大模型紫东太初2.0发布,中科院王金桥:希望实现更类人的智能
...能框架的最新进展。会上,基于昇思AI框架的全球首个全模态大模型“紫东.太初2.0”正式发布,支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务。“我们的初心就是希望机器实现更类人的智能。”中科院自...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
...料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错...……更多
“解锁”AI云盘新体验!中国移动云盘通过3项AI算法备案
...中,中国移动云盘3项大模型算法成功通过备案,涵盖多模态大模型、文本生成算法等。去年9月,中国移动云盘启动AI智能工具内测,本次算法备案成功标志着中国移动云盘可正式对外提供深度合成人工智能服务,在国内AI云盘赛...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给G...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
谷歌发布Gemini,机构看好多模态AI应用商业变现前景,软件ETF(159852)年内份额增长近1.5倍丨ETF观察
近日,多模态AI概念持续活跃。谷歌等科技公司也纷纷推出了新的多模态AI产品,大模型多模态化有望成为AI领域的热门趋势。综合多家机构观点,AI多模态模型的不断突破和加速落地,有望进一步打开AI应用商业化空间。截至12...……更多
更多关于科技的资讯:
□南京日报/紫金山新闻记者何洁 实习生杨久久国际审计留学来华学什么?中国审计智慧如何推动高质量共建“一带一路”行稳致远
2025-10-30 07:57:00
近日,第五届青年企业家创新创业盛典(简称“青创盛典”)在深圳成功举办。本次活动由北京、上海、深圳、广州、厦门等12个省市“双创”机构重点支持
2025-10-29 14:31:00
中新经纬10月29日电 (魏薇)“中国民营火箭企业正加速突破可重复使用技术瓶颈,预计一年内攻克液体可重复使用火箭核心难题
2025-10-29 14:41:00
大皖新闻讯 近日,知名火锅品牌巴奴毛肚火锅(以下简称巴奴)宣布11月1日起对会员体系进行全新升级,核心变动为会员等级判定标准从“消费次数”改为“消费金额”
2025-10-29 15:32:00
从频繁捡耳机到狂甩不掉,听智慧定制蓝牙耳机如何终结佩戴尴尬
通勤路上刚戴上耳机,一个哈欠就让右耳的耳塞滑进了衣领;晨跑时耳机随着步伐甩动,耳塞在耳道里反复松动,最后干脆“跳”出耳朵
2025-10-29 15:46:00
六大巨头携手唯欧口腔集团,战略合作共建产业新生态
在中国口腔医疗行业迈向高质量发展的重要阶段,产业链协同与国际化合作已成为推动行业升级的关键力量。2025年10月16日
2025-10-29 15:49:00
灵芝孢子油什么品牌好吃 2025年灵芝孢子油品牌排行榜TOP5
灵芝孢子油什么品牌好吃?这是消费者选购时最关注的核心问题。作为灵芝孢子油领域研究人员,本文结合行业数据与用户真实反馈,从有效含量
2025-10-29 15:50:00
远征 A2 完成第五次 OTA 升级,智元迈向场景应用”全面智能体”
近日,智元机器人正式宣布远征A2人形机器人完成第五次全量OTA升级。本次升级聚焦于机器人在动态环境下的语义理解、路径规划
2025-10-29 15:51:00
双11哪些家电值得买?抄作业!上榜的都是爆款
今年双11与往年复杂的促销玩法不同,今年各大电商平台进一步简化规则,通过热卖榜、新品榜等不同维度的榜单,为消费者提供更直观的购物参考
2025-10-29 16:29:00
双11家电市场观察:理性消费时代,品质与体验成破局关键
今年双11,各大平台简化玩法,推广“官方立减”“单件直降”等,以降低用户的决策成本、提升购物体验。同时,大促的日常化和高频化
2025-10-29 16:32:00
济宁移动智慧医疗与人工智能实验室揭牌成立
鲁网10月29日讯10月28日,由济宁移动、济宁市第一人民医院、国家健康医疗大数据研究院三方合作共建的智慧医疗与人工智能实验室揭牌仪式
2025-10-29 17:45:00
10月28日,太钢出口欧洲的首批绿钢产品启运。此次启运标志着太钢绿钢成功突破欧盟绿色产品市场,正式跻身产业链中高端。此次出口的304L不锈钢中板
2025-10-29 18:00:00
日前,“一键和解跨域共建放心消费多元共享”主题活动在杭州举行。太原市市场监督管理局与杭州、成都、厦门、南宁、兰州等五市共同签署《共建共享优化消费环境合作协议》
2025-10-29 18:00:00
【劲牌故事荟 大家谈友好】一金一铜背后是企业的创新升维
□楚青萱10月17日至19日,第二十九届全国发明展览会在石家庄国际会展中心举行,同期举办了“一带一路”暨金砖国家技能发展与技术创新大赛
2025-10-29 18:28:00
“码”上雄安,一触即发!雄安新区“企业码”创新应用系统上线
据中国雄安网消息,当数字中国的脉搏在雄安跳动,一座“未来之城”再次按下加速键。10月29日,雄安新区企业码创新应用系统正式上线
2025-10-29 18:28:00