我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer

类别：科技发布时间：2024-11-15 09:51:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

本论文第一作者是汪海洋，北京大学20级博士生，目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威，北京大学智能学院教授；Bernt Schiele，德国马普计算所教授；Federico Tombari 谷歌人工智能科学家等。

新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦！

TokenFormer 不仅像原始 Transformer 一样 Token 化了 input data，并且 Token 化了网络参数，将 attention 机制拓展到 Token 和 parameters 的交互中，最大化了 Transformer 的灵活性，真正得到了一个 Fully attention-based 的网络结构。

这种方式打破了原有人们区别看待 data 和 model 的观念，即所有的计算都归纳为不同类型的 Token（e.g., data, param token）通过灵活的 attention 来交互。得益于这一灵活的性质，TokenFormer 允许 incremental scaling model size，基于训好的模型上增量的拓展新的更大的模型，大大节省了计算的开销：

这项名为 TokenFormer 的新工作，由谷歌，马普计算所和北大的研究者提出，在 Twitter，HackerNews, Reddit 上得到广泛的讨论和关注 (Twitter 上有 150K + 的浏览量)。

目前代码、模型和项目主页均已放出：

论文链接：https://arxiv.org/pdf/2410.23168 开源代码：https://github.com/Haiyang-W/TokenFormer 开源模型：https://huggingface.co/Haiyang-W

背景介绍

得益于其处理各种数据的灵活性，Transformer 网络结构在各个 AI 领域都取得了巨大的成功。

Transformer 模型通常将处理单个 Token 所需的计算分为两个部分：与其他 Token 的交互（Token-Token Interaction）和涉及模型参数的计算（Token-Parameter Interaction）。

Attention 促进了 Token-Token 之间的交互，使现代通用基础模型能够将多模态数据编码成统一的 Token 序列，并有效捕捉它们之间的复杂依赖关系。

相反，Token-Parameter 计算主要依赖于固定的 linear projection，大大限制 model size 的 scaling。Scaling model 是通常改变模型结构，往往需要从头训练整个模型，带来了过多的资源消耗，使其越来越不切实际。

在本文中，研究团队使用 token 这一概念建模所有的计算，即将 model parameters 也视为一种 token，网络的计算统一为各种不同的 token ( e.g., data tokens and parameter tokens) 之间通过 attention 来进行交互，大大增强了 Token-Parameter 交互的灵活性，从而能够增量式的扩展模型参数，有效地重用先前训练的模型，从而显著降低了训练负担。

为实现这一目标，研究团队引入了 TokenFormer。统一 Token-Token 和 Token-Parameters Interaction 的计算。其 Token-Parameter attention 具有灵活性，并能够处理可变数量的参数，从而本质上最大化了 Transformer 的灵活性，增强了模型的可扩展性。

TokenFormer 提供一种新的看待模型的视角，即网络的计算就是一些 Tokens 相互任意交互。基于这些 Tokens （e.g., data token, parameter token, memory token）和 attention 机制可以灵活地构造任意的网络结构。

该团队希望 TokenFormer 作为一种通用的网络结构，不仅在 incremental model scaling 上有贡献，还在 Sparse Inference, Parameter-Efficient Tuning, Vision and Language Models, Device-Cloud Collaboration 和 Model Interpretability 等领域有更多的贡献。

方法

Tokenformer 的核心创新是 Token-Parameter Attention（Pattention） Layer，它结合了一组 Trainable Tokens 作为 model parameters，并通过 cross-attention 来管理 Input Token 与这些 Parameter Tokens 之间的交互。

通过这种方式，Pattention 层引入了一个额外的维度 —Parameter Token 的数量，这一维度独立于输入和输出维度。此解耦方式使得输入数据可以与 variable number of parameters 进行交互，提供了增量模型扩展所需的灵活性。

应用：天生的增量式 Model Scaling

有了 TokenFormer 这一灵活的性质，可以延伸出很多应用。这里以增量式 model scaling 为例。

实验结果

增量式 model scaling：如下右图所示，模型在已经训好的 124M 的模型的基础上，采用增量式训练，只用十分之一的数据就可以达到从头训练策略相近的性能，让模型可以不断迭代，真正地活起来了。

Language Modeling：如下表所示，研究团队比较了 Transformer-based 的模型和 TokenFormer 在语言建模上的能力。

在相同规模、相同模型尺寸下， TokenFormer 在大大增加灵活性的前提下达到了比 Transformer 更好的 zero-shot 性能。这里研究团队 follow 了 pythia 标准的训练代码以及数据集：Pile (300B)。上述结果展现了 TokenFormer 在语言模型建模上的能力。

Visual Modeling: 为了进一步验证 TokenFormer 的表达能力，研究团队还和标准的 vision transformer 进行了对比。

在 ImageNet-1K 的监督训练的 setting 上，使用相同的训练策略， TokenFormer 的性能超过了 vision-transformer，验证了其在 visual modeling 上的能力。

未来研究方向

极致的专家混合（Mixture-of-Experts）范式

研究团队认为 Tokenformer 是专家混合（MoE）框架的极致实例化，其中每一组键 - 值参数对都充当一个独立的专家。这种创新的类 MoE 架构有可能显著减少与 Token-Parameter 交互相关的计算成本。

新的参数高效微调范式

Tokenformer 的扩展方法通过集成额外的 key-value parameter pairs，展现了一种参数高效的微调策略。当面对新任务或数据集时，该模型可以通过加入新的 Token Parameters 来扩展其预训练参数，从而快速适应特定任务需求。

整合视觉和语言模型

利用 Tokenformer 的参数高效微调能力，可以实现视觉和语言模态的无缝集成。具体方法是将预训练的 Visual Tokenformer 和 Language Tokenformer 的 key-value parameter Tokens 统一为一个参数集，然后引入新的 Trainable Tokens 来执行视觉 - 语言对齐和指令微调。

端云协同

Tokenformer 可以在设备 - 云协作中充当云端知识库，为设备端的大语言模型（LLM）提供支持，其中每组 key-value parameter tokens 代表一个可学习模式，通过设备进行实时处理，并利用云端执行密集任务。

增强模型的可解释性

由于 Tokenformer 完全基于注意力机制，它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性，为 AI 社区开发更透明、易理解的模型贡献力量。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-15 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于马普,北大,网络,模型,增量式,增量的资讯：

更快、更强、更经济！港大开源大模型RAG系统LightRAG

...程，LightRAG可以避免对全部数据进行重新处理，而只进行增量式的信息索引和合并，大大提升了RAG系统的适应能力

2024-10-15 09:57:00

技术最前沿|瞄准行业痛点， AI验布机赋能传统行业技术焕新

...同客户场景，采集少量缺陷图片，基于预训练大模型进行增量式小模型蒸馏，做到少量缺陷数据下快速部署。“多层金字塔”推理是指融合传统图像处理算法思想，在数据预处理阶段针对图像构建多

2024-06-25 09:44:00

海洋大语言模型“瀚海智语”发布

...瀚海”，具备极为丰富的海洋专业中文知识。该模型基于增量式向量数据库技术构建了内容丰富的海洋领域专业知识库，其中包含精选专业图书、专业科技文献以及巨量的公告、标准和政策文件，词

2025-03-26 04:43:00

前瞻智能化时代军事治理

...向多维度演变，以信息交互协同推动军事治理多域融合。增量式赋权：优化治理生态，打造韧性治理人工智能技术在提升军事治理主体感知能力的同时，也为其参与军事治理实践提供了渠道，实现增

2024-01-11 04:27:00

百度文心大模型4.0技术进展

...型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优，有效节省了训练资源和时间，加快了模型迭代速度。此外，文心大模型4.0在输入和输出阶段都进行知识点增强。一方

2023-10-18 04:20:00

百度CTO王海峰：文心大模型的底色和成色

...类价值观。同时，技术团队还使用可再生训练技术，通过增量式的参数调优，进一步节省训练资源和时间，加快模型迭代速度。价值对齐，多多益善。为提升大模型的准确性，文心大模型4.0在输

2023-10-19 05:50:00

数字碳中和投资价值凸显中网投积极布局

...直关注数字化绿色化协同转型发展，坚持“重构式创新、增量式赋能”的投资理念，持续关注前沿性技术带来的新突破、赋能性技术带来的价值增值以及标准性技术带来的新投资机遇，数字碳中和已

2023-02-25 17:11:00

双桥区税务局创新升级为便民办税赋能添力

...核、线上申报缴纳税款和回传完税信息，这标志着承德市增量房契税申报缴纳业务成功实现全流程“掌上办”。“全流程掌上办”是税务、土地、房产三家业务一窗一人全流程办理的再扩围，是进一

2023-01-03 11:00:00

2024年最重要的趋势，可能影响你的工作

...事就是它代表了AI具有想象力和融合性，有组合式创新和增量式创新的能力，但坏事就是它里面有很多错误的信息。所以说AI幻觉既是一个很大的挑战，也是一个不小的机遇。第三个重大问

2024-01-01 09:55:00

更多关于科技的资讯：

企业选型终极指南：基于预算与行业，中国GEO服务商推荐（附T

在AI重构流量分配规则的2025年，生成式AI搜索优化（GEO）已成为企业不可或缺的战略投入。然而，面对市场上众多的GEO服务商

2025-10-31 11:00:00

增压好的热水器推荐：万和多款热水器待你选择

在城镇化加速与高层住宅普及的当下，老旧小区管道老化、高层建筑水压衰减等问题愈发突出，不少家庭正遭受 “细流澡”“忽冷忽热” 的沐浴困扰

2025-10-30 08:16:00

创新，是让世界重新认识中国制造

“创新”，这个词我们每天都在说。要让世界记住中国制造的创新，一定是要让人们能看得见、记得住、感受到。我给大家分享几个小故事

2025-10-30 08:35:00

团石家庄市委启动青年创业训练营百名青年开启小店创业之旅

河北日报讯（记者孙青）为激发青年创业活力，点燃青年创业梦想，日前，团石家庄市委正式启动“青年创业训练营——青年小店孵化计划”

2025-10-30 08:36:00

文化快评丨莫让文创“李鬼”伤了原创的心

当故宫的红墙金瓦凝缩成书签的精致纹路，当敦煌的飞天壁画跃然咖啡杯的杯身，博物馆中的千年文明正通过文创产品打开新的传承通道

2025-10-30 08:44:00

校宝智慧校园发布招生智能化解决方案，为民办教育注入增长新动能

2025年10月29日，校宝智慧校园正式推出面向民办、国际化学校的招生智能化解决方案，包含流量获取、线索转化、组织建设与数据决策四大核心板块

2025-10-30 09:10:00

Soul App开源播客语音合成模型SoulX-Podcas

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人

2025-10-30 09:10:00

中宏保险发布2025年第三季度个险理赔服务报告

服务效能持续提升中老年多元化保障需求凸显近日，中宏保险正式发布了《2025年第三季度中宏保险个险理赔服务报告》（以下简称"报告"）

2025-10-30 09:10:00

AI+人工双核验：深瞳查重如何以精准核查守护科研诚信

在科研诚信日益重要的今天，图片查重已成为维护科研诚信的关键环节手段。作为国内首家推出图片查重服务的深瞳查重，深瞳查重始终将结果的准确性和可靠性放在首位

2025-10-30 09:10:00

德明利亮相安博会，推出面向智能安防的多维度存储解决方案

10月28日，深圳CPSE安博会在福田会展中心顺利开幕，展会聚焦AI与大数据的智能安防创新。德明利携工业级存储产品及多维矩阵方案亮相

2025-10-30 09:10:00

碧欧宝亮相2025德国品牌周，于外滩百年地标演绎德式健康美学

2025年10月23日，由德国工商总会主办的“Discover Germany 德国品牌周”在外滩百年地标老市府隆重启幕

2025-10-30 10:10:00

留学常用APP与交友软件推荐：学习、生活、社交一站式搞定

即将远赴海外求学，除了收拾行囊，在手机里提前装好实用的留学APP，也成了许多准留学生的必备功课。面对应用商店里海量的留学常用APP选择

2025-10-30 10:56:00

工商银行联合腾讯云发布《中国金融生成式AI多模态内容鉴伪与安

随着生成式人工智能浪潮全面兴起，金融行业在加速迈向“AI原生”时代的同时，也面临多模态深度伪造内容带来的新型安全挑战。利用生成式AI合成的语音

2025-10-30 12:08:00

片仔癀黄芩多肽洗护新品亮相漳州，以东方智慧开启舒缓新“净”界

10月23日，东方新国妆代表品牌——片仔癀化妆品，在品牌发源地漳州隆重举办黄芩多肽系列新品发布会。活动以“亮剑·向新而生”为主题

2025-10-30 12:11:00

灵芝孢子油三大品牌 2025年权威推荐与选购指南

灵芝孢子油作为养生市场的明星产品,其品质差异直接影响消费者体验。本文基于实测数据与行业深度调研,为您梳理灵芝孢子油三大品牌

2025-10-30 12:11:00

头条订阅服务

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer