• 我的订阅
  • 科技

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

类别:科技 发布时间:2024-07-22 09:44:00 来源:新智元

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

时间序列提供了数据随时间变化的视角,对于理解复杂系统、预测未来变化和制定决策规划至关重要,在金融、气象、医疗、供应链等多个行业中发挥着至关重要的作用。

近年来,基于深度学习开发的模型在时序分析领域取得了突破性进展。然而,相较于语言、视觉大模型的蓬勃发展,现有模型依然面临若干瓶颈:

(1)泛化性:模型能处理训练时未遇到的新数据;或在数据稀缺时,根据有限的训练数据快速适配。然而,即便是目前领域前沿的时序模型,在少样本场景下依然会产生明显的性能劣化。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

时序预测模型PatchTST在不同数据稀缺条件下的效果

(2)通用性:小型深度模型训练后仅适合单一任务和场景,具有固定输入输出长度,适配的变量数等难以泛化的性质,难以像大语言模型一样,适用于各类下游任务,例如T5,LLaMA和BLOOM等。

(3)可扩展性:大模型关键特征之一在于Scaling Law:扩大参数量或预训练规模可以取得效果提升。然而,时序领域的大模型骨架尚无定论,即使是Transformer,在以往时序大模型研究中尚未展现出明显的可扩展性。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

最近,清华大学软件学院机器学习实验室和大数据系统软件国家工程研究中心提出了名为Timer(Time Series Transformer)的面向时间序列的大模型(Large Time Series Model, LTSM)。

模型采用仅编码器(Decoder-only)结构,基于多领域时间序列进行大规模预训练,通过微调突破了少样本场景下的性能瓶颈,适配不同输入输出长度的时间序列,以及预测,填补,异常检测等任务,展现出模型可扩展性。

目前,该工作已被ICML 2024接收。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

论文链接:https://arxiv.org/abs/2402.02368

代码仓库:https://github.com/thuml/Large-Time-Series-Model

数据构建:基于时序特性构建层次化数据集

尽管时间序列在现实世界中无处不在,大规模时间序列数据集的发展却滞后于语言,图像,视频等领域。

并且,基于低质量,弱语义,以及难预测数据训练的模型无法展现对时间序列的通用理解能力。

为此,作者团队基于可预测性、平稳性等指标重重筛选,文章构建了包含10亿数据点的统一时间序列数据集(Unified Time Series Dataset, UTSD)。

UTSD覆盖七个领域的高质量时间序列,蕴含时间序列模态的通用“常识”,以此训练模型获得跨领域时序建模的基本能力,例如捕捉主要周期,生成重要模式,以及关注自相关部分等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

文章尤其重视数据质量的重要性,对数据集进行难度分级和配比,随着数据规模的扩大,变化规律复杂的数据比例也在不断增加,以便逐步进行模型的容量扩展和课程学习。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队目前还在持续扩大数据集,并将UTSD公开至HuggingFace,以促进时序领域的预训练以及大模型研究。

训练方法:统一格式 + 自回归生成

不同于语言、图像有着相对固定的格式,时序领域的数据存在异构性,例如变量数目,采样频率和时间跨度等,因此,进行大规模时序预训练的首要难题在于如何统一异构的时间序列。

为将异构时间序列转换为统一格式,作者团队提出了一种单序列(Single Series Sequence, S3)格式。

如下图所示,通过变量拆分,归一化合并,分窗和采样等流程,文章将时序数据转换成了与语言类似的固定长度的一维序列,在数值范围内保证分布稳定的同时,让模型更加关注序列本身的变化模式。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

在预训练方法上,文章将单序列切分为序列片段,每个片段作为一个“词”,采用与LLM类似的下一词预测(Next Token Prediction, NTP)进行预训练。推理时,模型可通过自回归生成任意长度的序列。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型结构:剑走偏锋的仅解码器结构

不同于当下时序领域流行的仅编码器结构,Timer采用GPT风格的仅解码器Transformer。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队发现,Encoder-only结构接受了预测区间的所有监督信号,在端到端的训练场景中能取得较好效果,但在一定程度上限制Transformer作为时序大模型的潜力。

一方面,在Encoder-only Transformer中,输入序列中的“词”互相可见,可能降低了模型建模序列变化的难度;模型引入的平整化(Flattening)会影响词之间的独立性,导致难以学到序列片段的语义。

另一方面,LLM广泛采用以词为单位的自回归式监督信号,每个“词”都是预测的目标,产生了细粒度且互相独立的监督信号。

文章认为基于大规模时序数据,学习序列片段的独立语义,能够赋予模型在数据集之间泛化的能力。并且获得的模型和LLM一样,模型只限制了最大输入长度,从而能够适用于下游任务中各种长度的序列。

任务统一:生成式模型应对多种任务

Timer与GPT类似进行生成式自回归,为进一步扩展模型的通用性,文章将典型时序分析场景统一为生成式任务。

(1)时序预测(Forecasting):Timer一次推理输出一个序列片段,通过多步自回归给出任意长的预测结果。作者团队发现,在预测上下文长度不超过预训练序列长度的情况下,模型不会出现明显的多步误差累积现象。

(2)时序填补(Imputation):类似语言模型T5,作者引入Mask Token表示一段连续的缺失序列。通过微调,模型根据Mask之前的序列来填补连续的缺失值。

(3)异常检测(Detection):文章提出了一种预测式异常检测方法,模型首先在正常序列上进行微调,随后根据输入给出偏移一段时期的序列作为正常值,将其与实际采集的值对比,基于对比误差给出异常区间的置信度。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

多种时序分析任务与基于Timer的生成式分析方案

实验效果

文章从多个角度评估了Timer作为时序大模型的能力,包括少样本微调,零样本预测,任务通用性,可扩展性等,并分析了模型骨架选择,以及对于可变序列长度的适配性。

少样本预测

文章测试了Timer在不同数据稀缺性下的预测误差(MSE),并与此前的领域最优效果(SOTA)进行了比较。

可以发现:Timer使用极少的训练样本,例如1%的ETTh1或者3%的PEMS03,就能超过领域前沿的PatchTST,iTransformer等模型在100%数据上的训练效果。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

实线:预训练Timer;虚线:端到端训练的Timer;深色基准:SOTA模型在全量数据上的训练效果

另外,预训练Timer的预测误差(实线)一致小于未经过预训练的模型(虚线),证明了大规模预训练的有效性。

任务通用性

文章评估了Timer在填补任务和异常检测上的效果,验证了预训练能够给模型在各个数据集上带来稳定的收益。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

左:填补任务中相对端到端模型的效果提升;右:在UCR Anomaly Archive中成功检测出的异常数

文章还将Timer与此前的领域专用模型进行了对比:Timer在全部的44个填补场景中取得了领先,并成功检测出了172个序列异常,相较之下,Anomaly Transformer为129个,TimesNet为109个。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

可扩展性

作者团队研究了Timer的可扩展性,发现随着参数量和数据规模的增加,模型在PEMS数据集上的多变量预测误差降低了36.6%(0.194 -> 0.123),低于此前最优的多变量预测模型iTransformer(0.139)。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

从左到右:扩展Timer层数,特征维度和预训练数据规模都能提升预测效果

零样本预测

作者团队对同期涌现的时序大模型进行了全面测评,在零样本预测任务中,大模型不更新任何参数,直接输入数据集中时间序列进行预测。在7个真实数据集中,Timer取得了综合最优的水平。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型分析

为确认时序领域的大模型骨架,作者团队对不同模型进行了同样规模的预训练,包括基于MLP的TiDE、TCN、LSTM以及Transformer的两种结构,结果显示Transformer在大规模时序数据预训练中具备足够的模型容量。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

训练/验证时的损失函数,横轴以模型训练过的数据点数代表训练进程

文章探讨了Timer对可变序列长度处理能力:如左图所示,随着输入序列的变长,Timer的预测误差逐步降低。如左图所示,为支持任意长度的序列输出,文章对两种结构的Transformer进行了滚动预测。相较于Encoder-only Transformer,Timer显著缓解了多步误差累积。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者进一步分析了两种Transformer结构在下游任务上的泛化性,发现时下流行的仅编码器结果在小规模训练场景中可以取得较好的效果。然而,在预训练-微调范式下,Timer表现出更强的泛化性,即使在多步滚动预测的场景中也能取得领域最优效果,打破了此前针对不同输入-输出长度分别训练的现状。

分析示例

文章提供了Timer在各个任务上的分析示例和具体指标,详情可参考论文附录。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

未来方向

文章最后,作者对现有时序大模型进行了能力测评和对比,总结了时序领域大模型的潜在发展方向,主要包含更强的泛化能力(例如零样本预测),支持更长的上下文长度,支持多变量建模,以及提供置信度的概率预测等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

总结

该工作关注大模型的预训练-微调范式,验证了构建时序领域大模型的可行性,对多领域时间序列的生成式预训练进行了深入探究,证明了生成式模型在处理多种时序分析任务的有效性,相关数据集与代码已经开源,欢迎感兴趣的朋友阅读论文或访问GitHub页面。

参考资料:

https://arxiv.org/abs/2402.02368

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
... NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收
2024-11-01 09:27:00
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前
2024-07-31 09:39:00
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的
2024-10-30 09:58:00
Apache IoTDB:更适合工业物联网场景,存、查、用不再是难题
...过 5G 移动网络发送到服务器。在服务器中,数据被写入时间序列数据库,用于 OLTP 查询。最后,数据科学家可以将数据从数据库加载到大数据平台,用于复杂的分析和预测,即 OL
2023-08-29 10:59:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强
2024-10-23 09:55:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较
2024-10-29 09:55:00
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理
2024-12-05 09:49:00
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...式 Transformer,它将 LLM 的输出表示作为输入,并使用连接时序分类(Connectionist Temporal Classification
2024-09-24 13:42:00
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00