• 我的订阅
  • 头条热搜
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
...者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...的?后训练功不可没从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...时间,苹果低调的在arxiv.org网站上发布论文,官宣了在多模态大模型领域的最新成果。在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》(MM1: 多模式LLM预训练的方法、分析和见解)中可以……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
更多关于科技的资讯:
鸿蒙智行再交成绩单!问界M8破3.6万台 全新M9破1.8万台
快科技3月7日消息,鸿蒙智行公布了问界M8和2025款问界M9的36小时小订“成绩单”。其中,问界M8小订量突破3.6万台
2025-03-08 00:15:00
站雷军背后的海尔总裁周云杰走红:可爱表情被网友拍下
3月7日消息,据媒体报道,在代表通道上,小米创始人、董事长兼首席执行官雷军人气高涨,人群中不停响起“雷总好”,雷军多次微笑挥手回应
2025-03-08 00:15:00
本文转自:人民日报3月5日,习近平总书记在参加江苏代表团审议时指出,科技创新和产业创新,是发展新质生产力的基本路径。政府工作报告提出
2025-03-08 06:26:00
谷雨  自研美白原料极光甘草  打造优质国货护肤品牌
本文转自:人民日报在化妆品行业蓬勃发展的浪潮中,在消费者对美白产品的需求日益增长的趋势中,美白护肤品已成为行业的重要细分赛道
2025-03-08 06:29:00
国补真香!平板销额上涨21% 手表/手环暴涨51%
快科技3月7日消息,今年1月20日,手机、平板等数码产品国家补贴在全国各地陆续上线,极大的带动了国内市场。根据洛图科技(RUNTO)数据显示
2025-03-08 07:15:00
酵母菌:微生物世界里手握核武的超级杀手
如果我们把水果或者谷物密封起来,那么过一段时间,我们再打开时就会闻到酒的清香,这是因为酵母菌将糖转化成了酒精和二氧化碳
2025-03-08 07:45:00
2025全国两会天津北方网讯:上线7天,能聊天、会推理的“DeepSeek”下载量已经破亿,当全球科技圈还在为它狂欢时
2025-03-08 08:03:00
家家悦济南环宇城店焕新亮相,品质消费生活圈引领新风尚
为积极响应山东省委、省政府的提振消费号召,家家悦集团以创新服务为核心驱动力,对济南中海环宇城店进行了全面而深入的升级改造
2025-03-07 21:22:00
可在室内外“无感”补电 全球首款钙钛矿太阳能充电手机发布
本文转自:人民日报客户端记者从京东方科技集团获悉:在西班牙巴塞罗那举行的世界移动通信大会上,传音旗下品牌Infinix发布全球首款应用了京东方钙钛矿光伏技术的太阳能充电手机
2025-03-07 21:25:00
依肤婗:匠心研发,打造肌肤焕变奇迹
近日,专业护肤品牌依肤婗(YIFUNI)推出"凝润舒颜套"系列新品,秉承"焕变赋能,宛若新生"的品牌理念,引发业内广泛关注
2025-03-07 21:26:00
依肤婗焕颜精华液:开启肌肤焕变奇迹之旅
广州讯-知名专业护肤品牌依肤婗(YIFUNI)日前隆重发布全新"焕颜精华液",引领护肤新趋势。该产品凭借创新配方和显著功效
2025-03-07 21:26:00
干货分享!2025英国国际美博会(GBE. UK 2025)参展全攻略
大家好,我是一名在美业摸爬滚打多年,专注拓展海外市场的市场经理。这几年外贸形势愈发严峻,竞争激烈程度堪称“内卷大战”。但今年我发现了一个绝佳机会——2025英国国际美博会(GBE
2025-03-07 21:27:00
政通智合·数聚泉城 共创政务AI新场景山东移动DeepSeek政务场景共创沙龙成功举办
3月7日,山东移动与华为联合举办DeepSeek政务场景共创沙龙。本次沙龙以“政通智合·数聚泉城 共创政务AI新场景”为主题
2025-03-07 21:36:00
REDMI K80至尊版看点汇总:这配置又要卖爆了
最近,REDMI宣布了K80系列上市100天的好成绩,销量突破了360万台!不仅如此,为了庆祝这个历史性时刻,REDMI团队还收到了来自高通的蛋糕
2025-03-07 22:45:00
赛分科技(688758)是行业内少数同时具备分析色谱及工业纯化领域研发及规模化大生产能力的企业,分析色谱领域技术达到国内领先水平
2025-03-07 22:45:00