我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

类别：科技发布时间：2024-12-10 09:53:00 来源：学术头条

今日值得关注的大模型前沿论文

SwiftEdit：50 倍速文本引导图像编辑

清华团队提出大模型“密度定律”

足球领域首个视觉语言基础模型

Aguvis：首个完全自主的纯视觉 GUI agent

Google DeepMind：利用运动轨迹控制视频生成

大模型数学新基准：成功率最高 2%

Meta 推出「高效追踪一切」模型

SOLAMI：首个端到端社交视觉-语言-动作建模框架

RevThink：使用逆向思维增强 LLM 推理

想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术分享群」。

SwiftEdit：50 倍速文本引导图像编辑

文本引导图像编辑技术使用户能够通过简单的文本输入，利用基于多步扩散的文本到图像模型的广泛先验进行图像编辑。然而，这些方法往往无法满足现实世界和端侧应用对速度的要求，因为涉及到昂贵的多步反演和采样过程。

为此，VinAI Research 团队推出了 SwiftEdit，这是一种简单而高效的编辑工具，可实现即时文本引导的图像编辑（0.23 秒）。SwiftEdit 的先进之处在于它的两个新贡献：一步反演框架，通过反演实现一步图像重建；掩码引导编辑技术，利用注意力重缩放机制执行局部图像编辑。

大量实验证明了 SwiftEdit 的有效性和效率。特别是，SwiftEdit 可实现即时文本引导的图像编辑，其速度比以往的多步骤方法至少快 50 倍，同时在编辑结果方面具有竞争力。

论文链接：

https://arxiv.org/abs/2412.04301

项目地址：

https://swift-edit.github.io/

清华团队提出大模型“密度定律”

大语言模型（LLM）的性能可随着模型规模的扩大而提高。然而，这种扩展给训练和推理效率带来了巨大挑战，特别是在资源有限的环境中部署 LLM 时，这种扩展趋势正变得越来越不可持续。

在这项工作中，来自清华大学和面壁智能的研究团队提出了“容量密度”（capacity density）的概念，作为评估不同规模 LLM 质量的新指标，并从有效性和效率两个方面描述了 LLM 的发展趋势。

为了计算给定目标 LLM 的容量密度，他们首先引入了一组参考模型，并根据这些参考模型的参数大小制定了一个 scaling law 来预测其下游性能。然后，他们将目标 LLM 的有效参数大小定义为参考模型实现同等性能所需的参数大小，并将容量密度正式定义为目标 LLM 的有效参数大小与实际参数大小之比。容量密度为评估模型的有效性和效率提供了一个统一的框架。

他们对近期开源基础 LLM 的进一步分析揭示了“密度定律”（densing law），即 LLM 的容量密度随着时间的推移呈指数增长。更具体地说，使用一些广泛使用的基准进行评估，LLM 的容量密度大约每三个月翻一番。该定律为指导未来的 LLM 开发提供了新的视角，强调了提高容量密度的重要性，从而以最小的计算开销获得更优的结果。

论文链接：

https://arxiv.org/abs/2412.04315

足球领域首个视觉语言基础模型

作为一项举世闻名的体育运动，足球吸引了全世界球迷的广泛关注。在这项工作中，来自上海交通大学的研究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。

具体来说，他们做出了以下贡献：（1）他们提出了 SoccerReplay-1988，这是迄今为止最大的多模态足球数据集，其中包括来自 1988 场完整比赛的视频和详细注释，以及一个自动注释管道；（2）他们提出了足球领域的第一个视觉语言基础模型 MatchVision，它利用足球视频中的时空信息，在各种下游任务中表现出色；（3）他们在事件分类、解说生成和多视角犯规识别方面进行了广泛的实验和消融研究。MatchVision 在所有这些方面都表现出了 SOTA。

论文链接：

https://arxiv.org/abs/2412.01820

项目地址：

https://jyrao.github.io/UniSoccer/

Aguvis：首个完全自主的纯视觉 GUI agent

图形用户界面（GUI）对人机交互至关重要，但由于视觉环境的复杂性和多变性，GUI 任务的自动化仍具有挑战性。现有的方法通常依赖于 GUI 的文本表示，这在通用性、效率和可扩展性方面带来了限制。

在这项工作中，香港大学和 Salesforce 研究团队提出了一个可在各种平台上运行的基于纯视觉的统一自主 GUI agent 框架——Aguvis。这一方法利用了基于图像的观察和自然语言对视觉元素的基础指令，并采用了一致的行动空间来确保跨平台通用性。为了解决以往工作的局限性，他们在模型中集成了明确的规划和推理功能，增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI agent 轨迹数据集，整合了多模态推理和接地（grounding），并采用了两阶段训练管道，首先侧重于一般的 GUI 接地，然后是规划和推理。

通过全面的实验，他们证明了 Aguvis 在离线和实际在线场景中都超越了之前的 SOTA 方法，据介绍，它是首个能够独立执行任务而无需与外部闭源模型协作的完全自主纯视觉 GUI agent。

论文链接：

https://arxiv.org/abs/2412.04454

项目地址：

https://aguvis-project.github.io/

Google DeepMind：利用运动轨迹控制视频生成

运动控制对于生成具有表现力和吸引力的视频内容至关重要；然而，现有的大多数视频生成模型主要依靠文本提示进行控制，难以捕捉动态动作和时间组合的细微差别。

为此，来自 Google DeepMind 的研究团队及其合作者训练了一种以时空稀疏或密集运动轨迹为条件的视频生成模型。与之前的运动调节工作不同的是，这种灵活的表示方法可以编码任意数量的轨迹、特定对象或全局场景运动以及时空稀疏运动；由于其灵活性，他们将这种调节方法称为运动提示（motion prompt）。虽然用户可以直接指定稀疏轨迹，但他们也展示了如何将高级用户请求转化为详细的半密集运动提示，他们将这一过程称为运动提示扩展（motion prompt expansion）。

他们通过各种应用展示了这一方法的多功能性，包括相机和物体运动控制、与图像“互动”、运动传输和图像编辑。研究结果展示了一些涌现行为，如逼真的物理现象，这表明运动提示具有探测视频模型和与未来生成世界模型交互的潜力。

论文链接：

https://arxiv.org/abs/2412.02700

项目地址：

https://motion-prompting.github.io/

大模型数学新基准：成功率最高 2%

来自 Epoch AI 的研究团队及其合作者提出了 FrontierMath，这是一个由数学专家精心设计和审核的数百个极具挑战性的原创数学问题组成的基准。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力，对于高端问题，则需要数天。FrontierMath 使用未公开的新问题和自动验证来可靠地评估模型，同时最大限度地降低数据污染的风险。目前的 SOTA 人工智能模型只解决了不到 2% 的问题，这揭示了人工智能能力与数学界实力之间的巨大差距。

论文链接：

https://arxiv.org/abs/2411.04872

Meta 推出「高效追踪一切」模型

SAM 2 已成为视频对象分割和跟踪的强大工具。SAM 2 的关键部件包括一个用于提取帧特征的大型多级图像编码器，以及一个用于存储过去帧上下文以帮助当前帧分割的存储机制。多级图像编码器和内存模块的高计算复杂度限制了其在实际任务中的应用，例如移动设备上的视频对象分割。

为了解决这一局限性，Meta 团队提出了 EfficientTAMs 模型，它是一种轻量级的轨迹信息模型，能以较低的延迟和模型大小产生高质量的结果。他们的想法基于重新审视普通、非层次化的视觉 Transformer（ViT），将其作为用于视频对象分割的图像编码器，并引入高效内存模块，从而降低帧特征提取和当前帧分割内存计算的复杂性。他们利用 Vanilla 轻量级 ViTs 和高效内存模块构建了 EfficientTAMs，并在 SA-1B 和 SA-V 数据集上对模型进行了训练，以完成视频对象分割和跟踪任务。

他们在多个视频分割基准（包括半监督 VOS 和可提示视频分割）上进行了评估，发现 EfficientTAM 与 vanilla ViT 的性能相当，在 A100 上比 SAM 2（HieraB+SAM 2）快约 2 倍，参数减少约 2.4 倍。在分割任何图像任务时，EfficientTAM 也优于原始 SAM，A100 速度提高了约 20 倍，参数减少了约 20 倍。在 iPhone 15 Pro Max 等移动设备上，EfficientTAM 能以约 10 FPS 的速度运行，以合理的质量执行视频对象分割，这凸显了小型模型在端侧视频对象分割应用中的能力。

论文链接：

https://arxiv.org/abs/2411.18933

项目地址：

https://yformer.github.io/efficient-track-anything/

SOLAMI：首个端到端社交视觉-语言-动作建模框架

人类是社会性动物。如何让 3D 自主角色具备类似的社会智能，能够感知、理解人类并与之互动，仍然是一个尚未解决的基本问题。

在这项工作中，来自商汤科技和南洋理工大学 S-Lab 的研究团队提出了首个端到端社交视觉-语言-动作（VLA）建模框架 SOLAMI，用于与 3D 自主角色进行沉浸式交互。具体来说，SOLAMI 从三个方面构建 3D 自主角色：（1）社交 VLA 架构：他们提出了一个统一的社交 VLA 框架，可根据用户的多模态输入生成多模态响应（语音和动作），从而驱动角色进行社交互动。（2）交互式多模态数据：他们推出了一个合成的多模态社交互动数据集 SynMSI，其由一个自动 pipeline 生成，仅使用现有的运动数据集，以解决数据稀缺的问题。（3）沉浸式 VR 界面：他们开发了一种 VR 界面，使用户能够身临其境地与这些由各种架构驱动的角色进行互动。

广泛的定量实验和用户研究表明，这一框架能带来更精确、更自然的角色响应（包括语音和动作），符合用户的期望，而且延迟更低。

论文链接：

https://arxiv.org/abs/2412.00174

项目地址：

https://solami-ai.github.io/

RevThink：使用逆向思维增强 LLM 推理

逆向思维在人类推理中起着至关重要的作用。人类不仅可以从问题到解决方案进行推理，还可以反向推理，即从解决方案出发，向问题方向推理。这通常可以提高整体推理性能，因为这可以检查正向思维和反向思维之间的一致性。

为了让大语言模型（LLM）能够进行逆向思维，来自北卡罗来纳大学教堂山分校和谷歌的研究团队提出了逆向增强思维（RevThink），这是一个由数据增强和学习目标组成的框架。在 RevThink 中，他们通过从教师模型中收集结构化的正向-反向推理来增强数据集，其中包括：（1）原始问题；（2）正向推理；（3）反向问题；（4）反向推理。然后，他们采用三个目标，以多任务学习的方式训练一个较小的学生模型：（a）从问题中生成前向推理，（b）从问题中生成后向问题，（c）从后向问题中生成后向推理。

在涵盖常识推理、数学推理和逻辑推理的 12 个数据集上进行的实验表明，这一方法比学生模型的零样本性能平均提高了 13.53%，比 SOTA 知识提炼基线提高了 6.84%。此外，这一方法还展示了样本效率——仅使用训练数据中 10% 的正确前向推理，它就超越了使用 10 倍前向推理训练的标准微调方法。RevThink 还表现出对分布不均的数据集的泛化能力。

论文链接：

https://arxiv.org/abs/2411.19865

如需转载或投稿，请直接在公众号内留言

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-10 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,语言基础,清华,定律,密度,团队的资讯：

DeepSeek火爆后，会发生什么

2025年开年，国内深度求索（DeepSeek）公司推出大语言模型DeepSeek R1引发全球轰动。这款开源模型在有限算力条件下

2025-02-27 21:52:00

全球科研团队竞逐低成本AI模型研发新范式

...外版美国斯坦福大学等机构研究团队近日宣布，在基座大模型基础上，仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心（OpenAI）开发的

2025-02-27 05:08:00

理解并超越大模型需要数学“应战”

...茂松表示，三五年内有望破解智能涌现之谜理解并超越大模型需要数学“应战” ■本报记者许琦敏瓦特改良蒸汽机后大约100年，热力学三定律才阐明其机理。眼下，Chat

2023-07-26 06:00:00

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品｜搜狐科技作者｜郑松毅2024年已过半，大模型之争热度不减，通往AGI的路究竟该怎么走？近日，清华大学计算机系

2024-06-05 18:36:00

对话清华刘知远：Scaling Law已被OpenAI验证，

...他长期从事知识图谱与语义计算等方面的研究，在基础大模型技术前沿探索上取得多项成果，并和他的学生曾国洋一起创立了端侧大模型公司面壁智能。他认为，今年大模型行业更关注落地，更关注

2024-06-14 23:24:00

面壁智能完成数亿融资，CEO：大模型进入真刀真枪比拼阶段

...财务顾问。对于新一轮融资，面壁智能CEO李大海表示，大模型正在开始进入“真刀真枪”的比拼阶段，从“大跃进”转向“持久战”。新一轮融资完成后，面壁智能将进一步提速以端侧AI为代

2024-12-11 11:40:00

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

...，清华大学智能产业研究院（AIR）-字节跳动 “可扩展大模型智能技术联合研究中心（SIA Lab） ” 在清华大学举行成立仪式

2024-10-12 14:01:00

清华大学教授孙茂松：理解大模型机理建立AI新理论

·只有搞清楚大模型的机理，才有可能克服现有人工智能大模型的局限性，超越现有大模型，建立下一代人工智能理论和模型。·人工智能最前沿之争就是人才的竞争，顶尖高手决定了人工智能的高度，

2023-07-27 15:01:00

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司，近期完成了新一轮融资。投资名单中，也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生

2024-03-14 15:12:00

更多关于科技的资讯：

“内容重构论”引短剧行业共鸣

当“反转”“爽点”不再能轻易留住观众，微短剧行业正迎来一场深层重构。到2024年中，中国微短剧用户规模已接近7亿，市场体量超过500亿元

2025-10-29 14:01:00

鲸鸿动能亮相中国国际广告节&亚洲广告大会，全场景AI驱动增长

10月24日，第32届中国国际广告节&第34届亚洲广告大会在北京举办，鲸鸿动能受邀出席，并发表主题演讲《从孤岛到共生

2025-10-29 11:21:00

如何选择适合你的视频画质修复工具

在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊

2025-10-29 11:22:00

精工匠心极致服务！2025年小蓝翼杯全品类服务技术比武大赛圆

10月23日，2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中，空调品类经过30个战区初赛

2025-10-29 11:30:00

联舌工坊落子杨浦区加速全球化战略布局

‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册，此举被视为其深化资本市场布局的关键一步

2025-10-29 12:37:00

三星电视荣登天猫艺术电视榜单双十一钜惠助力消费者轻松解锁艺

在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下，三星凭借对前沿科技与生活美学的深度解构与融合，始终站在全球艺术电视品类发展的潮头

2025-10-29 12:40:00

河北天翼业财一体化项目落地见效

河北新闻网讯（吴建春）近日，由河北天翼科贸发展有限公司（简称“河北天翼”）为一家农业融资担保公司量身打造的在线收付款业财一体化项目

2025-10-29 13:31:00

宝宝巴士回应APP出现不良广告：严处审核负责人研发广告强制

华商网讯 10月29日，针对“宝宝巴士App出现不良广告”一事，宝宝巴士官方微信公众号发布致歉及整改声明。根据声明，对于近期用户关注的宝宝巴士App产品跳转不良广告一事

2025-10-29 13:40:00

米兰冬奥倒计时100天国际奥委会携手阿里巴巴首次推出五环系

2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际，奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时，国际奥委会首次推出奥林匹克五环系列首饰

2025-10-29 13:47:00

王玉宝：于商业迷途中寻一盏不灭的心灯

鲁网10月29日讯踏入儒商研究会的大门，已是一载有余。今日静坐回望，恍然惊觉，这段旅程并非寻常的“加入一个组织”，倒更像是一场在商业迷途中的精神返乡

2025-10-29 13:51:00

2025上海国际压缩机展开幕，美的楼宇科技赋能工业制造绿色

10月28日-31日，2025上海国际压缩机及设备展览会（以下简称“上海国际压缩机展”）在上海新国际博览中心举办。作为核心参展商

2025-10-29 12:41:00

深圳首宗！医疗健康数据产品场内交易，十年临床数据为手术机器人

经过严格匿名化处理和多轮合规审查，在严格遵守隐私保护的红线下，医疗数据也可以“活”起来，成为驱动AI技术发展的“燃料”

2025-10-29 12:38:00

阜阳烟草聚焦弱点上好“基础课”跑出“茄”速度

为进一步推动国产雪茄高质量发展，持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力，提升服务质量，重振经营信心

2025-10-29 12:39:00

富士胶片X-SPACE迎来七周年朋友月胶片模拟色彩配方书籍

2025年10月，富士胶片（中国）投资有限公司旗下X-SPACE富士胶片影像空间（以下简称"X-SPACE"）迎来成立七周年

2025-10-29 10:59:00

河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖

河北新闻网讯（钟蕾）近日，推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”

2025-10-29 11:11:00

头条订阅服务

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型