• 我的订阅
  • 头条热搜
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...成果:基于预训练的视觉特征训练的世界模型可以实现零样本规划!也就是说该模型无需依赖任何专家演示、奖励建模或预先学习的逆向模型。论文标题:DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning ……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...性上存在两点不足:1. 绝大多数3D多模态指令数据对是正样本对,缺乏负样本对或者对抗性样本对。模型在这种数据上训练缺乏一定的辨识能力,因为无论被问到什么问题,模型只会输出正面的回答。因此碰到问题与场景无关时...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...、指令遵循和健壮性,团队还整理出了一套包含 110 万个样本的引用与引用指令调整数据集 GRIT。GRIT 中包含多个层次的空间知识,涵盖对象、关系、区域描述和复杂推理等要素。GRIT 包含三种数据类型:被转换为指认遵循格式的...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
...开放世界知识,让它能真正构建一个的跨模态空间。在零样本检索任务上,CLIP 也达成了前所未有的性能提升。论文标题:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION 论文链接……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...,由于数据集的限制和模型的复杂性,深度学习模型在小样本数据集上的表现仍然有待提高。为了解决这个问题,微美全息(NASDAQ:WIMI)将迁移学习引入到图像分类任务中,构建了图像分类融合模型,通过利用在大规模数据集上训...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...还将优化策略应用于 Transformer 位置嵌入,从而提高了零样本运动迁移能力。他们将 DiTFlow 与最近发布的方法进行了对比评估,结果显示 DiTFlow 在多项指标和人工评估方面均优于所有方法。论文链接:https://arxiv.org/abs/2412.07776项目...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...的实体单词替换为其上分位词,与图片一起组成视觉问答样本。第四步,伪标注生成。为了训练网页过滤器和内容过滤器,需要对网页/片段进行打分。 对于一个视觉问答样本和一个网页/片段,研究者基于两个原则进行打分:...……更多
清华提出时间序列大模型:面向通用时序分析的生成式Transformer
...快速适配。然而,即便是目前领域前沿的时序模型,在少样本场景下依然会产生明显的性能劣化。时序预测模型PatchTST在不同数据稀缺条件下的效果(2)通用性:小型深度模型训练后仅适合单一任务和场景,具有固定输入输出长...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...域和时间城市交通模式的固有多样性和变化。 卓越的零样本预测能力:与仅在目标区域训练的全样本模型相比,OpenCity展示了更优越的性能。这种显著的零样本能力突出了模型学习泛化表征的能力,使其能够无需广泛重新训练或...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模型间展现出强...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...12 个数据集上进行的实验表明,这一方法比学生模型的零样本性能平均提高了 13.53%,比 SOTA 知识提炼基线提高了 6.84%。此外,这一方法还展示了样本效率——仅使用训练数据中 10% 的正确前向推理,它就超越了使用 10 倍前向推...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...有效的时空特征。C2. 大型语言模型和现有时空模型在零样本场景下的泛化能力不足:如图2所示,大型语言模型LLaMA能够根据输入文本推断流量模式。然而,它在处理具有复杂时空依赖性的数字时间序列数据时,有时会出现预测...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...准确率提高62%。同时,作者还与2位临床专家合作对100个样本的标签进行了全面的评估,进一步 帮助微调LLM。基于该数据集,作者提出了一种新的基于图(Graph)的可解释的医学VQA方法利用图注意力来学习回答临床问题时的逻辑...……更多
贾扬清共一论文获ICML时间检验奖:著名框架Caffe前身
...征在语义聚类方面优于GIST和LLC等传统特征。即使在训练样本稀缺的情况下,如单样本学习,DeCAF仍然表现出色。论文还详细分析了网络各层的计算时间分布,发现全连接层占用了大部分计算时间。此外,论文还探讨了dropout等正...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...义能力,也具备语音模型的表达能力;模型还能够在少量样本的情况下跨模态学习新任务(例如自动语音识别、文本转语音、语音分类)。不过需要注意的是,和其他预训练模型一样,Sprit LM也可能会生成一些不安全的内容,所...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...这些策略在所有生成任务上都能很好地泛化,并提高了零样本泛化性能。其中与 GPT-4 生成任务的联合训练可以将泛化性能提升 50%,并在模拟中将大约 40% 的零样本任务迁移到新任务中。‍最后,研究者还考虑了模拟到真实的迁...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...型,已经成为了一种可扩展的途径,并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
... where2act,位置和方向的损失公式如下:其中,N 表示训练样本的数量,Tr (A) 表示矩阵 A 的迹。RoboMamba 只预测图像中接触像素的二维位置(x, y),然后使用深度信息将其转换为三维空间。为了评估这一微调策略,我们使用 SAPIEN ...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...的GPT-4V在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执...……更多
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型研究
...泛化故障诊断难题的技术路线,初步展现了对跨工况、小样本、跨对象等泛化诊断任务的综合解决能力。 北航 PHM 实验室为业界学者应对故障诊断领域泛化痛点问题提供了新思路,也是深入开展大模型与健康管理交叉研究并建立...……更多
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...同,例如,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样...……更多
...,分别是模型训练分类器法(也被称为监督分类器法)、零样本分类器法、文本水印法。“三种检测方法本质上都是利用AI检测AI,且各有优劣。”鲍光胜说。模型训练分类器法,首先要收集大量人类创作内容与AIGC,然后以此为基...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...中:模态对齐和模态融合。在模态对齐过程中,单个数据样本的不同模态特征往往会在连续学习过程中出现分散,这种现象被称为 MMCL 中的空间紊乱。这种发散可能会导致更严重的性能下降。在模态融合方面,在非 CL 环境中使...……更多
联汇科技荣获2024人工智能隐形冠军企业标杆Top10
...、亿级图片、万级视频大规模预训练,实现用更小的标注样本数量,融合更多的模态信息,获得更为准确的AI模型,可灵活适配多场景应用需求。依托核心技术与产品服务能力,未来,联汇科技将继续携手合作伙伴,推动人工智...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...(3)MLLM 可以通过设计系统指令前置于用户提示来充当零样本学习器,帮助文本特征更加关注关键词。此外,如图 8 所示,MLLM 基于因果注意力,而 T5-XXL 利用双向注意力,为扩散模型产生更好的文本指导。因此,我们遵循的方...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...数, 基于 Margin 的损失函数能够鼓励模型执行更加高效的样本到类别的比较,因此能够促进人脸识别模型取得更好的识别精度。其中,ArcFace 成为业界训练人脸识别模型首选的损失函数。2. 持续同调下面介绍一下持续同调与我们...……更多
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...非平衡热力学启发的生成模型,通过逆转加噪过程来生成样本。假设有一个由连续时间变量τ索引的扩散过程,其中τ的取值范围是0到T,然后有一系列的分布,以及边界条件:在τ=0时,分布是数据的真实分布,而在τ=T时,分布...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...个方面的表现:单次分类任务,考验了模型在只有极少量样本的情况下对新类别的识别能力;分布偏移,即模型在面对与训练数据分布不同的数据时的表现;以及分布外鲁棒性,即模型在面对完全未知类型的数据时的稳定性和鲁...……更多
...个高斯平滑窗口来完成,而归一化的主要任务是去除签名样本对手写板和签名笔的依赖性。然后可以从中导出一些静态特征或者动态特征。静态特征主要包括笔划个数、长短笔划个数比、笔段长度等,动态特征则包括与时间相关...……更多
AI “早筛” 癌症,准确区分13种癌症,准确率98.2%,人类尽早治疗癌症还远吗?
...logy Methods and Protocols 上。据论文描述,该模型依赖于组织样本(而不是血液中的 DNA 片段),目前还处于实验阶段,需要对更多样化的活检样本进行额外的训练和测试,方可进一步用于临床。研究人员认为,这项研究的一个重要...……更多
更多关于科技的资讯:
顶配2.9万!AMD锐龙9 9955HX3D游戏本可能要等4月初
快科技2月4日消息,AMD年初发布了面向高端游戏本的锐龙9000HX系列处理器,其中旗舰型号为锐龙9 9955X3D,第二次在移动端集成3D缓存
2025-02-04 21:41:00
ASML CEO:DeepSeek成功不代表芯片管制没效果
快科技2月4日消息,据媒体报道,ASML的CEO Christophe Fouquet近日表示,中国AI公司DeepSeek的成功显示了企业在面对AI市场时
2025-02-04 21:41:00
RTX 5090/5080还没买到 RTX 5070 Ti这就来了!大杀器
快科技2月4日消息,RTX 5090/D、RTX 5080虽然上市了,但能买到的人寥寥无几,而后续新卡正在接连不断地赶来
2025-02-04 22:41:00
年龄越大越健忘 其实这是大脑在不断进步
很多人认为,遗忘本身不是一件好事,我们应当尽可能将所有事情铭记于心。但实际上,“遗忘”是大脑具备的重要功能之一。可以说
2025-02-04 23:11:00
RTX 5090被黄牛炒至天价!网友想妙招对付抢购机器人
快科技2月4日消息,NVIDIA最新推出的RTX 5090和RTX 5080显卡在全球范围内都是一卡难求,由于供应有限
2025-02-04 23:11:00
微软推出新款Surface USB4扩展坞:轻至206克
快科技2月4日消息,据报道,微软近期发布了新款Surface USB4扩展坞,定价为199.99美元(大约相当于1450
2025-02-04 23:41:00
限时观测!就在明晚 月面X要现身了
2月5日,正月初八,天宇将迎来一轮上弦月。如果你抬头望向月亮,会发现月球表面浮现出类似字母“X”的光影,这也是今年第一场“月面X”
2025-02-04 23:41:00
任天堂谈Switch 2供应:我们正在为发售做充分准备
据外媒nintendoeverything报道,任天堂社长古川俊太郎在日前公布的财务报告里简要评论了Switch 2在今年晚些时候发售时的供应情况
2025-02-04 23:41:00
三星电子:Q1开始供应供应改良版HBM3E
快科技2月4日消息,据报道,预计从第二季度开始,三星电子改良版HBM3E的供应量将迎来全面增长,这一趋势与美国政府实施的尖端半导体出口管制政策紧密相关
2025-02-05 00:11:00
日本核电站中央控制室发生火灾:未对发射线管理区域外造成影响
快科技2月4日消息,据报道,当地时间2月4日,日本原子力发电公司发布紧急通报,指出当天下午,位于茨城县东海村的东海第二核电站中央控制室突发火灾
2025-02-05 00:11:00
能打过RTX 5070 Ti吗!AMD RX 9070系列2月底纸面发布
快科技2月5日消息,AMD原本计划在1月份就发布新一代RX 9070系列显卡,但因为性能、价格多方面的因素而被迫推迟,官方确认要到3月份才会上市(传闻到3月底)
2025-02-05 00:41:00
太疯狂了!高中生成功实现在PDF中运行Linux
快科技2月4日消息,在不久前,一位国外的高中生成功将1993年发布的射击名作《毁灭战士》移植到了PDF文件中,直接用浏览器打开文件就能玩
2025-02-05 00:41:00
一周打赏20万!各个品牌为做“榜一大哥”正在疯狂撒钱
顶流直播间刷礼物可以有多猛?5 分钟左右,接近 30 个嘉年华。按照一个嘉年华 3000 元一个计算,9 万,这满屏都是金钱燃烧的味儿 ↓ ↓如此高频的礼物刷屏
2025-02-05 00:41:00
为什么人类的耳朵不会动:2500万年前就消失了
很多动物都会竖起耳朵来倾听,这个时候它们通常看起来十分警惕,例如猫、狗和鹿都是如此。其实,如果您仔细观察的话,那么您会发现这些动物的耳朵不仅仅会竖起来
2025-02-05 00:41:00
我敢打赌 今年一定会有人买错电脑!万分谢谢Intel、AMD
虽说NVIDIA确实抢了不少风头,但隔壁 AMD 和 Intel 的新品,当然也都有关注。这篇文章就是来和大家聊聊,今年这两家的新处理器的
2025-02-05 01:11:00