• 我的订阅
  • 头条热搜
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
...者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...的?后训练功不可没从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...时间,苹果低调的在arxiv.org网站上发布论文,官宣了在多模态大模型领域的最新成果。在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》(MM1: 多模式LLM预训练的方法、分析和见解)中可以……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
更多关于科技的资讯:
南京科远智慧科技集团股份有限公司——国产“智慧大脑”装进“世界级”火电机组【编者按】2025年伊始,南京企业“抢单”忙
2025-01-07 08:15:00
买了没几年的羽绒服不保暖了 原来很多人做错了这2点
这年头,能面不改色随手就买下一件新羽绒服的,都是狠人。毕竟,今年羽绒服的价格确实让人有些“高攀不起”。很多人只能从衣柜最深处掏出了尘封好几年的羽绒服……不过
2025-01-07 08:17:00
2024年度性能最强笔记本TOP10出炉:微星泰坦18 Ultra登顶
快科技1月7日消息,鲁大师公布了2024年度性能最强笔记本TOP10榜单,其中微星泰坦18 Ultra 2024荣获榜首
2025-01-07 08:17:00
历经十年,在多个领域实现“零的突破” 浙江商业航天将飞向何方
刚刚过去的2024年底,国内航天发射活动仍然密集:11月11日,浙江制造的试验26号A、B、C三颗卫星发射升空;12月5日
2025-01-07 08:38:00
京东游戏机国家补贴已上线:PS5、XSX等全覆盖
快科技1月7日消息,2025年政府补贴继续加码,目前京东、天猫等平台已经陆续开启。值得注意的是,目前京东平台还开启了游戏设备的补贴
2025-01-07 08:47:00
长城发布置换补贴兜底政策!涵盖哈弗、魏牌、欧拉等品牌
快科技1月7日消息,长城汽车旗下哈弗、魏牌、欧拉、坦克等品牌推出了补贴兜底政策,为消费者提供现金红包优惠、置换补贴、保险补贴等购车权益
2025-01-07 08:47:00
河南官宣继续补贴:将手机平板等纳入以旧换新范围
快科技1月7日消息,上周,国家发展改革委有关负责人表示,2025年将继续实施补贴政策。同时,新增手机等数码产品购新补贴
2025-01-07 08:47:00
厦门网讯(厦门日报记者 李晓平)近日,工业和信息化部装备工业一司发布了“关于卓越级智能工厂(第一批)项目的公示”,共计235家
2025-01-07 08:50:00
厦门网讯(厦门日报记者 林露虹)从AI“助教”给学生个性化出卷、改卷,到AI高效完成政务预审批工作,再到AI优化船舶调度方案……越来越多的厦门造AI智能体落地应用
2025-01-07 08:50:00
临沂:“商仓流”一体化形成直播产业链条
临沂市“商仓流”一体化,形成了直播基地、智慧云仓、智慧物流园相互配套的直播产业链条。
2025-01-07 08:54:00
牵手红娘:牵手App红娘服务成热门,全程指导备受青睐
在数字化时代,年轻人的生活方式和社交习惯正经历着前所未有的变革,线上交友已成为寻找另一半的重要途径之一。然而,面对海量的信息和复杂的人际关系
2025-01-07 09:15:00
近日,中国长城第一名中标“某国有大型商业银行2024年IT及网络设备集中采购”项目,标志着公司在金融行业网信建设领域取得又一突破性成果
2025-01-07 09:16:00
奔驰史上最快量产车!全新梅AMG GT 63 SEP上市:售228.55万元
快科技1月7日消息,全新梅赛德斯-AMG GT 63 S E PERFORMANCE跑车正式上市,售价228.55万元
2025-01-07 09:17:00
盲人愤怒将占用过道的电动车推倒引热议:网友点赞支持
1月7日消息,近日,湖南长沙一位视障人士在使用盲道时,发现盲道被电动车等障碍物占据,导致其行走受阻。在多次尝试绕行未果后
2025-01-07 09:17:00
英伟达近乎垄断又如何!英特尔:不会放弃和关闭旗下独立显卡业务
快科技1月7日消息,英特尔已经明确表示,不会关闭其独立显卡业务,即便英伟达在这个领域近乎垄断的存在。英特尔新CEO Michelle Johnston Holthaus在CES 2025主题演讲中向听众表示
2025-01-07 09:17:00