• 我的订阅
  • 头条热搜
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...ro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉,语言,图,或音频等。这种...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...像等多模态任务处理“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
...态空间。在零样本检索任务上,CLIP 也达成了前所未有的性能提升。论文标题:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION 论文链接:https://arxiv……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...据和任务上的泛化能力十分有限。在大型语言模型(LLM)性能不断提升的情况下,一个常用的方法是先用ASR模型将语音转录成文本,然后用文本模型来生成新的文本,最后再用TTS模型将文本转换成语音,这种流程的一个显著缺陷...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...核心属性,团队还设计了一系列创新的评估指标,为模型性能提供更全面的衡量标准。借助这一技术,用户只需输入简单的文本指令,或上传目标形状的图像,即可快速生成符合要求的 CAD 模型。这一突破不仅降低了非专业用户...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...示视频结果看,市面上现有的全部多模态大模型与Gemini的性能表现都有代际差,包括Meta 5月开源的跨6个模态的AI模型ImageBind以及GPT-4。图源:谷歌今年4月开始,随着多模态技术不断升级,以及叠加模型调用成本等性能的优化,GPT...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...充分探索。本文首通过评估现有方法在图像-标题对上的性能来探索这一背景,由于在该场景中缺乏标签,之前的无法有效地推广到多模态数据,并且在建立捷径方面的效果有限。在本文中提出了多步误差最小化(MEM),这是一...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”为题,已发表到预印本网站 arXiv 上。研究团队认为,仅有 ……更多
苹果公司公布“mm1”多模态大模型
...关键因素。研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...,实验结果表明该研究在 VideoMME 和长视频字幕任务上的性能持续提高(图 2)。在 1024 帧上训练的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...对搜索引擎的返回内容进行二次筛选。Gemini Pro 1.5(LC)的性能高于内嵌互联网检索增强的GPT-4V和GPT-4o,但是长上下文会引入额外的计算消耗,并引入一些不必要的信息对模型造成误导。经过SearchLVLMs的分层过滤模型进行二次筛选...……更多
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
...流 AI 芯片。选择灵活,也降低了算力成本,还不用担心性能显著下降。因为,百舸的多芯混合训练任务的性能损失,控制在了万卡性能损失 5%,已经是业界最高水平。除了「多」,训练、推理也又「快」又「稳」。从发布到上...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...些查询留在设备上,哪些可能需要由云端的更大模型处理性能评估结果显示,Llama 3.2视觉模型在图像识别等任务上,与Claude 3 Haiku和GPT-4o mini不相上下。3B模型在遵循指令、总结、提示词重写和工具使用等任务上,表现优于Gemma 2 2...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
...的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中Semi 赛道第一名由社交...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。“但这仅仅是一个起点,未来还会有更加高效的稀疏模型结构出现。”林达华表示,这些架构现在还停留在学术研究阶段,但随着验证的逐渐成功,它们会慢慢进入...……更多
美国东北大学提出视频数据增强方法,能让视频模型学到更好的表征
...察到了完全相反的现象,即这种操作能让视频理解模型的性能和泛化性得到提升。通过进一步地分析其在不同模态数据下(图像/视频)表现差异的原因,他们发现对于视频理解来说,被识别对象的静态外观并不是很重要,有时...……更多
比ChatGPT省电10倍 Google研训练AI模型新方法
...emma 2等模型表明,更少但高品质的数据可以实现更强大的性能。若要筛选出高品质的数据,关键是需创建有效的数据渠道。现在大致分为手动管理和基于模型的数据管理方法,但前者成本高且难以扩展,而后者则有望为多模态大...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...识任务和机器人相关任务的推理能力,并都取得了先进的性能表现。同时,本文发现当 RoboMamba 具备强大的推理能力后,我们可以通过极低的训练成本使得 RoboMamba 掌握多种操纵位姿预测能力。 论文:RoboMamba: Multimodal State Space Mo...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...态的全面评估和改进。全模态大模型与全模态对齐大模型性能的最后一块拼图 人类在日常生活中接收到的信息往往是全模态的,不同的感官渠道能够互相补充,帮助我们更全面地理解和表达复杂的概念。这种全模态的信息流对...……更多
连发两款模型“补课”,百度AI成色如何?
...。不过,百度后来采取的收费策略,缺乏突出亮点的产品性能,以及模型迭代放缓,文心一言(APP端为文小言)并未出圈。相较后起之秀,如豆包、Kimi等更是逊色。DeepSeek的爆火让百度反思起内部AI战略。早前,百度宣布文心一...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...驶基于黑盒化的深度学习模型,因此如何提高模型的驾驶性能、以及提高模型的可解释性,是一个急需解决的问题和痛点。现有的大量方法都是端到端自动驾驶,徐冬阳和所在团队详细分析模型结构之后发现,此前人们并没有很...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...也是备受关注的问题。唐杰认为,缩放定律描述了大模型性能与其参数量、数据规模、计算量之间的关系。虽然备受质疑,但直到今天,可能高质量的缩放仍然是提高大模型性能的重要方法。“一方面,这几个因素相互关联,参...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...过了GPT-4V和Claude-3-Sonnet(表2)。虽然模型在微调后出现性能提升属于正常现象,但这种微调效率可以侧面证明合成数据的潜力,尤其是在质量、有效性和多样性方面。除了在原基准上有所进步,微调后的模型在ChatQA、MathVista这...……更多
云计算一哥终于搞多模态了:一口气6个大模型,还有个3nm芯片!
...理图像、视频和文本输入的速度极快。 Amazon Nova Pro:高性能的多模态大模型,精度、速度和成本最佳“配方”,可处理广泛的任务。 Amazon Nova Premier:亚马逊最强多模态大模型,可处理复杂的推理任务,也可用于蒸馏客户定制...……更多
华人团队爆火instructblip抢跑看图聊天
...。最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。为啥如此之强?新王者:InstructBLIPInstructBLIP的主要意义就在于解决视觉-语言指令微调中的挑战,并对模型未见过的数据和任...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...环境。 推理一体机:该款一体机聚焦于为客户提供高性能全场景推理算力,产品预置了完备的大模型推理工具集,可大幅提高部署运维大模型推理应用的便利性,通过重构算子等一系列深度优化,极大提升推理算力效率,释...……更多
浪潮信息推出as13000g7-n系列
...达到极致,减少不必要的资源浪费,训练阶段的数据读写性能成为重中之重。而想要提升算力利用率、降低模型训练成本,必须要在数据存储性能上进行创新。AS13000G7-N系列具备强大的端到端性能优化能力,这也是模型训练阶段...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...泛化能力,因此在各种关键问题和任务的解决上有更强的性能和准确性。 换句话说,大模型时代Scaling Laws,其实在生命科学领域也同样奏效。截至目前,xTrimo基础大模型平台在200个任务模型达到SOTA水平,并利用这些任务模型实...……更多
更多关于科技的资讯:
南报网讯(通讯员毛欣悦记者张希)近日,2025年度南京市新核定的外资研发中心名单公布,江宁开发区5家外资研发中心核定入选
2025-08-25 07:38:00
从清北退学的年轻人,当月入五千的CEO
与其浪费时间,不如直接退学还有一年就要从北大医学院毕业的大三学生阿布,决定从北大退学了。阿布提交了退学申请后,学校的老师并没有立刻批准
2025-08-24 19:17:00
京东建材超品日全渠道大幅增长 卫浴、灯饰照明品类成交额增长超7倍
8月20日晚8点开启的京东建材超级品类日,掀起了今秋第一场家装消费热潮。开售仅1小时,全品类成交额同比增长超2倍;截至8月21日23:59
2025-08-24 20:52:00
烈日炎炎!防晒美白需注意哪些关键因素?近日,护肤品牌谷雨研发负责人李安章从专业角度支招,向中新经纬产业一线栏目讲述防晒美白背后的研发与创新。来源:中新经纬编辑:熊思怡广告等商务合
2025-08-24 17:25:00
能感知环境,还能响应用户需求!全球首款人形机器人头部模组在贵安新区诞生
日前,贵安新区威迈尔科技有限公司(以下简称:威迈尔)正式推出全球首款人形机器人头部模组OmniHead(奥视知脑),为具身智能领域带来关键技术突破
2025-08-24 22:22:00
流量经济赋能长春农博会成果显著,线上销售额突破5200万元
第24届中国长春国际农业食品博览(交易)会胜利闭幕,在为期十天的展会上,流量经济赋能专区成为亮点。通过多平台联动、达人矩阵直播
2025-08-24 21:36:00
“车BA” 南京争霸
8月23日,“车BA”小米集团汽车部跨区域篮球争霸赛决赛在南京举行,来自北京、上海、武汉等地的7支参赛队伍齐聚古都南京,角逐冠军。 南京日报/紫金山新闻记者 段仁虎 摄
2025-08-24 09:50:00
“关不掉”的免密支付,肥了平台的钱包?
原标题| “关不掉”的免密支付,肥了平台的钱包?近日,话题“一定要关闭免密支付和自动扣款”冲上社交平台热搜,关于免密支付功能相关的讨论再次进入大众视野
2025-08-24 05:43:00
美国医疗巨头瞄准聚焦超声无创治疗赛道
近日,由美国医疗巨头强生等十余家机构组成财团,以22.5亿美元(约人民币161亿元)闪电收购了一家专注于“无创”超声波组织碎化技术(Histotripsy)的美国医疗科技公司HistoSonics多数股权
2025-08-24 07:02:00
家电业均价下滑!三翼鸟上海体验中心九成用户选高端
中国家电市场正经历均价下行的趋势。奥维云网数据显示,2025年第1周到第11周,空调、冰箱、洗衣机线上渠道均价同比分别下滑3
2025-08-23 08:20:00
在意大利:海尔空调销量TOP1
今夏,欧洲人经历了严酷“烤”验。八月初,受罕见热浪侵袭,意大利、法国等多国发布高温红色预警,西班牙南部气候飙升至46℃
2025-08-23 08:21:00
2025年,中国新材料产业总产值预计突破10万亿元,但在被列为“卡脖子”的多项关键材料中,国产化率不足30%。铝,作为全球产量第一
2025-08-23 08:22:00
单店年入过亿!三翼鸟上海体验中心是如何做到的?
当前,实体零售业正面临着变革与挑战,一方面,线上浪潮带来的冲击清晰可见:传统卖场客流锐减、部分门店面临关停挑战,《2025到店零售3
2025-08-23 08:22:00
省心比省钱重要!三翼鸟上海体验中心8成用户定制场景
当前,消费者在居家领域的决策逻辑正经历深刻变革。过往,性价比常是左右消费者选购家电、家居产品的核心要素,而如今,“省心”已逐渐攀升至决策考量的优先位置
2025-08-23 08:23:00
8月23日19:00,“河北五超”承德vs保定,最硬核的主场,承德“硬核宠粉”现场抽奖送钻石!
2025-08-23 08:53:00