• 我的订阅
  • 头条热搜
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781.SZ)涨13.32%,苏州科达涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
“解锁”AI云盘新体验!中国移动云盘通过3项AI算法备案
...中,中国移动云盘3项大模型算法成功通过备案,涵盖多模态大模型、文本生成算法等。去年9月,中国移动云盘启动AI智能工具内测,本次算法备案成功标志着中国移动云盘可正式对外提供深度合成人工智能服务,在国内AI云盘赛...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给G...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
谷歌发布Gemini,机构看好多模态AI应用商业变现前景,软件ETF(159852)年内份额增长近1.5倍丨ETF观察
近日,多模态AI概念持续活跃。谷歌等科技公司也纷纷推出了新的多模态AI产品,大模型多模态化有望成为AI领域的热门趋势。综合多家机构观点,AI多模态模型的不断突破和加速落地,有望进一步打开AI应用商业化空间。截至12...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
更多关于科技的资讯:
涉及两起命案:福特被深度调查!
快科技1月23日消息,近日,美国家公路交通安全管理局(NHTSA)宣称,已对福特BlueCruise驾驶辅助系统展开工程分析(EA)
2025-01-23 18:33:00
当前设计塞不进电池:纯电版路虎卫士将推迟至2030年
快科技1月23日消息,捷豹路虎首席商务官Lennard Hoornik在接受采访时透露,电动版路虎卫士预计要到2030年前后才会问世
2025-01-23 18:33:00
国人骄傲!阿里云、华为首席技术官双双入选美国计算机协会
快科技1月23日消息,据媒体综合报道,今日凌晨,美国计算机协会 ACM(Association for Computing Machinery)公布了最新一届会士名单
2025-01-23 18:33:00
中韩独享!三星Galaxy S25 Ultra 16GB版本无缘欧美市场
快科技1月23日消息,三星Galaxy 25系列已面向全球发布,所有型号其实内存均为12GB。其中,三星Galaxy S25 Ultra独享16GB大内存
2025-01-23 18:33:00
奇瑞2025王炸开局!要做中国大G 新车秒变船 排水量4吨
中国的豪华越野市场,又闯进一位新选手。昨晚,奇瑞正式发布全新产品序列——捷途纵横,这是奇瑞品牌向上战略的关键一步,起点很高
2025-01-23 18:33:00
599元起!玄派玄熊猫PD75M V2机械键盘开售:彩屏+旋钮、索尼克轴
快科技1月23日消息,玄派科技正式上架了玄熊猫PD75M V2机械键盘,其特点是内置彩屏和金属旋转按钮,首发价格分别为599元和629元
2025-01-23 18:33:00
小米SU7最贵配色!雷军晒璀璨洋红实车:明天开始陆续进店
快科技1月23日消息,雷军最新发文称,小米SU7璀璨洋红明天开始陆续进店,届时大家就能去店里看到实车了。他还晒出了几张在小米汽车工厂拍摄的实车照片
2025-01-23 18:33:00
Intel前CEO基辛格新动向公布!成初创AI芯片公司种子投资人
快科技1月23日消息,在离开英特尔后,前CEO帕特·基辛格(Pat Gelsinger)在社交媒体上公布了新动向,成为英国AI芯片初创公司Fractile
2025-01-23 18:33:00
RTX 5090缺货不可思议!英国顶级零售商只有几块
快科技1月23日消息,由于AIC沟通问题、中国春节放假、BIOS调试等种种原因,RTX 5090/5090D、RTX 5080上市初期的供货将非常紧张
2025-01-23 18:33:00
上半年最值得关注的5款新车盘点:看完你会买吗
说实话,25年上半年并不是购车的较好时机,因为英伟达下一代最强算力平台Thor有望会从6月开始上市,部分车企的明星产品也推迟到了对应时间点
2025-01-23 18:33:00
3C数码国家补贴至高省2000元 手机补贴15%
京东货节大促将在今晚 24 点正式结束,年前最后一波福利不要错过。京东红包每天抽 3 次 面额至高 9999 元:点此抽红包(1 月 23 日 24 点结束)手机
2025-01-23 18:33:00
被五步蛇咬了 只走四步还会死吗
提示:本集内容涉及大量蛇,对蛇敏感人士建议不要打开,想“知己知彼”对付毒蛇的建议收看,怕被毒蛇咬的建议收藏。责任编辑:上方文Q文章内容举报
2025-01-23 18:33:00
又一家国产新势力爆雷!员工工资数月未发 强制放假
快科技1月23日消息,据博主爆料称,又一家国产造车新势力爆雷,员工已被拖欠数月工资,且被安排强制放假。被传爆雷的新势力是智行盒子
2025-01-23 18:33:00
“天关”卫星探测到宇宙早期爆发的软X射线信号
本文转自:人民日报客户端基于天关卫星的观测数据,中国科学院国家天文台等单位的科研人员,发现1例来自宇宙早期的伽马射线暴
2025-01-23 18:35:00
“我们食品厂生产的银丝面久煮不烂、晶莹剔透,入口香软滑嫩,在市场上的销售一直很好。感谢咱农商银行提供的50万元的信贷资金
2025-01-23 19:03:00