• 我的订阅
  • 头条热搜
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
...者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...的?后训练功不可没从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...时间,苹果低调的在arxiv.org网站上发布论文,官宣了在多模态大模型领域的最新成果。在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》(MM1: 多模式LLM预训练的方法、分析和见解)中可以……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
更多关于科技的资讯:
有电储能户外电源:国庆出游不断电,畅享自然每一程
国庆长假,是探索远方、寄情山水的绝佳时机。然而,无论是长途自驾中的电子设备续航,还是露营时的照明、烹饪需求,传统的充电宝或小型发电机往往捉襟见肘
2025-09-30 13:45:00
莱西市夏格庄镇:政企同频创新培育新动能
鲁网9月30日讯(记者 葛万彩 通讯员 张磊)引进14个亿元以上高新技术项目,其中8个已开工建设;新投产的青岛新茂林机械装备制造基地
2025-09-30 10:41:00
谨防“二选一”换上新马甲
范仁超据多家媒体报道,在天猫、京东、抖音等多个平台开店的某化妆品品牌负责人日前向媒体反映,之前和某带货达人达成合作意向
2025-09-30 10:48:00
胶东在线9月28日讯(记者 卢伟霞)近日,以“山海有约 烟台有乐”为主题的2025烟台沙滩音乐季在幸福湾活力海岸圆满收官
2025-09-30 06:37:00
京津研发河北转化进行时(三):一个康复机器人的协同样本
从北京研发中心到冀州生产线一个康复机器人的协同样本9月25日,在位于衡水市冀州区的极智医疗器械(河北)有限公司生产车间
2025-09-29 08:26:00
东风与腾讯签署战略合作协议 共建“汽车+互联网”智能新生态
9月28日,东风汽车集团股份有限公司(以下简称“东风汽车”)与深圳市腾讯计算机系统有限公司(以下简称“腾讯”)在武汉举行战略合作签约仪式
2025-09-29 08:33:00
大厂:发放第二期惠民电子消费券 为消费市场注入新活力
河北新闻网讯(张嘉良)消费热潮涌动,市场活力持续攀升。日前,大厂回族自治县发放第二期“乐享大厂·焕新潮”惠民电子消费券
2025-09-29 09:49:00
唐山启动2025“迎国庆、庆中秋”系列促消费活动
河北新闻网讯(张强、王育民)9月27日,2025唐山市“迎国庆、庆中秋”系列促消费活动在路南区京东电器城市旗舰店启动。本次活动由唐山市商务局
2025-09-29 10:28:00
中新经纬9月29日电 29日,中新经纬查询中国执行信息公开网发现,该网站已经没有万达集团董事长王健林“限高”信息。28日
2025-09-29 10:58:00
京东服务商开放季交流会释放11.11商家增长信号
齐鲁晚报·齐鲁壹点 记者 王颖颖2025年9月28日,在年度电商盛宴京东11.11启幕前夕,以“开放共赢 高效合作”为主题的2025京东服务商开放季交流会在京东集团总部成功举行
2025-09-29 11:00:00
官宣!普拉斯与腾讯云深化“云+AI”合作,加速制造业智能转型
近日,四川省宜宾普拉斯包装材料有限公司(下称“普拉斯”)宣布与腾讯云深化战略合作,双方将基于普拉斯在智慧包装行业的丰富经验和腾讯在AI领域的领先技术
2025-09-29 11:05:00
王健林“限高”措施已取消,其所持4.9亿股权仍被冻结
记者9月29日查询,中国执行信息公开网已经没有万达集团董事长王健林“限高”信息。另据企查查9月29日信息,显示王健林限高措施已取消
2025-09-29 11:37:00
象屿集团与钉钉合作,打造统一、智能、全球化的AI办公平台
9月28日,厦门象屿集团有限公司(以下简称“象屿集团”)与钉钉正式达成合作协议,并宣布象屿集团新一代数字化办公平台项目建设正式启动
2025-09-29 11:37:00
春雪食品集团总裁郑钧谈品质建设与战略转型
近日,春雪食品集团股份有限公司(以下简称“春雪食品集团”)宣布,继去年扭亏为盈后,今年上半年实现归母净利润1427.65万元
2025-09-29 11:37:00
聊城智汇 链接全球丨从布艺收纳到宠物用品,泊西集团海外订单供不应求
鲁网9月29日讯在山东聊城茌平区洪官屯镇,阳光洒在错落有致的乡村院落上。走进山东泊西实业集团有限公司生产基地的产品展厅
2025-09-29 12:06:00