• 我的订阅
  • 头条热搜
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
36氪首发|「Tiamat」完成近千万美元A轮融资,想将AI生成图像的可控性做到极致
...MorpherVLM是国内首个基于概念融合范式提出的近百亿级跨模态生成模型,通过异构的视觉编码-解码网络结构,并引入基于用户反馈的强化学习(RLHF)和细粒度的提示-隐变量对齐技术,提高了模型对图像多尺度信息的建模能力,...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
...者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多
紫东.太初再进化,揭秘全模态大模型的想象力
...在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0,并首次提出全模态多任务统一生成式学习框架。借用Hugging Face联合创始人Thomas Wolf的说法:“在过去的几年里,好的多模态模型一直是许多大型技...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...的?后训练功不可没从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以...……更多
...家点评GPT-4:数学不太好的文科生业内人士如何看待这个多模态预训练大语言模型?记者采访了上海交通大学教授、自然语言处理专家赵海。“读图编程”表演令人惊艳赵海教授解释,模态对应的是人类感知类型,包括文本、图像、声...……更多
华人团队爆火instructblip抢跑看图聊天
碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。GPT-4看图聊天还没上线,就已经被超越了。近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。BLIP家族...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
更多关于科技的资讯:
卓易科技荣获第十四届公益节2024科技企业社会责任奖
2025年1月9日至10日,由数央网、数央公益联合众媒体共同举办的第十四届公益节暨2024ESG影响力年会在北京举行。大会活动主题为“共筑可持续发展未来”
2025-01-10 21:19:00
可持续发展获《时代周刊》认可,药明康德做对了什么?
近日,知名媒体《时代周刊》(TIME)联合全球顶尖商业数据平台Statista重磅发布了2025年全球最佳公司榜单(World’s Best Companies in Sustainable Growth 2025)
2025-01-10 21:30:00
用户错选地点支付3600元天价车费 哈啰顺风车:司机已将车费提现
快科技1月10日消息,据报道,深圳的刘女士向媒体反映,去年12月25日,她弟弟因急事回家,从广东深圳市打了一辆哈啰顺风车
2025-01-10 21:51:00
女子花4.5万买羽绒服:穿4天就起毛 门店称“顾客穿着不当”
1月10日消息,据媒体报道,台州一名女士称,她花4万多买了一件LV羽绒服,才穿了四天,就出现多处起毛的情况。门店回应称是顾客穿着不当
2025-01-10 22:51:00
比亚迪全新性能怪兽汉L登场:马力超千匹 单颗电机功率580kW
快科技1月10日消息,今日晚间,工信部公布了新一批新车申报目录,比亚迪全新旗舰轿车汉L现身其中。动力系统是汉L的最大亮点
2025-01-10 22:51:00
桐梓:以旧换新引领消费市场“焕新”
多彩贵州网讯 促销费,惠民生。2024年以来,随着以旧换新工作的不断推进,桐梓县消费市场活力持续释放,不仅有力推动了居民绿色消费
2025-01-10 23:04:00
极氪应战特斯拉!极氪7X对比焕新版Model Y:赢面很多
快科技1月10日消息,今日上午,特斯拉焕新Model Y正式上线中国官网,官方对新Model Y相当自信,称“尽管对比”
2025-01-10 19:21:00
狂飙10000MB/s!铠侠EXCERIA PLUS G4 1TB SSD图赏
快科技1月10日消息,日前铠侠推出全新消费级固态硬盘“EXCERIA PLUS G4系列”。该系列固态硬盘内置先进的BiCS FLASH 3D闪存技术
2025-01-10 19:21:00
快科技1月10日消息,据媒体报道,近日,长沙某小区给垃圾桶装了个“开盖神器”在网络走红。据了解,这个开盖神器,是由手环
2025-01-10 19:21:00
重大突破!我国鄂尔多斯盆地发现特大型铀矿
快科技1月10日消息,据报道,我国在鄂尔多斯盆地泾川地区取得了铀矿勘探的重大成就,成功探明一座特大型铀矿床。这一发现不仅预示着我国铀资源储量的显著提升
2025-01-10 19:21:00
华硕旗下AAEON杀进显卡市场!首款产品竟是Intel Arc A750E
快科技1月10日消息,华硕旗下的AAEON公司进军显卡市场,推出了其首款高级显卡——GAR-A750E。这款显卡基于Intel Arc A750E GPU
2025-01-10 19:21:00
乘客腹痛难忍恳请司机闯红灯 的哥一路鸣笛送医
快科技1月10日消息,近日,据央视报道,山东潍坊一位乘客在出租车上腹痛难忍,出租车司机一路鸣笛,连闯多个红灯,将乘客紧急送医
2025-01-10 19:21:00
479元起!玄派玄熊猫PD100M机械键盘上市:全铝机身、标配旋钮屏幕
快科技1月10日消息,玄派玄熊猫PD100M三模全铝机械键盘现已开启预售,将于1月13日上午10:00正式开售。键盘采用100键98配列设计
2025-01-10 19:21:00
Redmi Note 14走向全球:新增4G版本
快科技1月10日消息,小米今日将Redmi Note 14推向全球市场,一个月前该手机已在印度发布。此次国际版与印度版基本相同
2025-01-10 19:51:00
极摩客G9全闪4盘位NAS首发1399元起:英特尔N150、双系统设计
快科技1月10日消息,极摩客G9全闪4盘位NAS目前已经上市,首发1399元起。据介绍,新款NAS搭载英特尔N150处理器
2025-01-10 19:51:00