• 我的订阅
  • 科技

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

类别:科技 发布时间:2024-07-22 09:44:00 来源:新智元

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

时间序列提供了数据随时间变化的视角,对于理解复杂系统、预测未来变化和制定决策规划至关重要,在金融、气象、医疗、供应链等多个行业中发挥着至关重要的作用。

近年来,基于深度学习开发的模型在时序分析领域取得了突破性进展。然而,相较于语言、视觉大模型的蓬勃发展,现有模型依然面临若干瓶颈:

(1)泛化性:模型能处理训练时未遇到的新数据;或在数据稀缺时,根据有限的训练数据快速适配。然而,即便是目前领域前沿的时序模型,在少样本场景下依然会产生明显的性能劣化。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

时序预测模型PatchTST在不同数据稀缺条件下的效果

(2)通用性:小型深度模型训练后仅适合单一任务和场景,具有固定输入输出长度,适配的变量数等难以泛化的性质,难以像大语言模型一样,适用于各类下游任务,例如T5,LLaMA和BLOOM等。

(3)可扩展性:大模型关键特征之一在于Scaling Law:扩大参数量或预训练规模可以取得效果提升。然而,时序领域的大模型骨架尚无定论,即使是Transformer,在以往时序大模型研究中尚未展现出明显的可扩展性。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

最近,清华大学软件学院机器学习实验室和大数据系统软件国家工程研究中心提出了名为Timer(Time Series Transformer)的面向时间序列的大模型(Large Time Series Model, LTSM)。

模型采用仅编码器(Decoder-only)结构,基于多领域时间序列进行大规模预训练,通过微调突破了少样本场景下的性能瓶颈,适配不同输入输出长度的时间序列,以及预测,填补,异常检测等任务,展现出模型可扩展性。

目前,该工作已被ICML 2024接收。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

论文链接:https://arxiv.org/abs/2402.02368

代码仓库:https://github.com/thuml/Large-Time-Series-Model

数据构建:基于时序特性构建层次化数据集

尽管时间序列在现实世界中无处不在,大规模时间序列数据集的发展却滞后于语言,图像,视频等领域。

并且,基于低质量,弱语义,以及难预测数据训练的模型无法展现对时间序列的通用理解能力。

为此,作者团队基于可预测性、平稳性等指标重重筛选,文章构建了包含10亿数据点的统一时间序列数据集(Unified Time Series Dataset, UTSD)。

UTSD覆盖七个领域的高质量时间序列,蕴含时间序列模态的通用“常识”,以此训练模型获得跨领域时序建模的基本能力,例如捕捉主要周期,生成重要模式,以及关注自相关部分等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

文章尤其重视数据质量的重要性,对数据集进行难度分级和配比,随着数据规模的扩大,变化规律复杂的数据比例也在不断增加,以便逐步进行模型的容量扩展和课程学习。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队目前还在持续扩大数据集,并将UTSD公开至HuggingFace,以促进时序领域的预训练以及大模型研究。

训练方法:统一格式 + 自回归生成

不同于语言、图像有着相对固定的格式,时序领域的数据存在异构性,例如变量数目,采样频率和时间跨度等,因此,进行大规模时序预训练的首要难题在于如何统一异构的时间序列。

为将异构时间序列转换为统一格式,作者团队提出了一种单序列(Single Series Sequence, S3)格式。

如下图所示,通过变量拆分,归一化合并,分窗和采样等流程,文章将时序数据转换成了与语言类似的固定长度的一维序列,在数值范围内保证分布稳定的同时,让模型更加关注序列本身的变化模式。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

在预训练方法上,文章将单序列切分为序列片段,每个片段作为一个“词”,采用与LLM类似的下一词预测(Next Token Prediction, NTP)进行预训练。推理时,模型可通过自回归生成任意长度的序列。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型结构:剑走偏锋的仅解码器结构

不同于当下时序领域流行的仅编码器结构,Timer采用GPT风格的仅解码器Transformer。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队发现,Encoder-only结构接受了预测区间的所有监督信号,在端到端的训练场景中能取得较好效果,但在一定程度上限制Transformer作为时序大模型的潜力。

一方面,在Encoder-only Transformer中,输入序列中的“词”互相可见,可能降低了模型建模序列变化的难度;模型引入的平整化(Flattening)会影响词之间的独立性,导致难以学到序列片段的语义。

另一方面,LLM广泛采用以词为单位的自回归式监督信号,每个“词”都是预测的目标,产生了细粒度且互相独立的监督信号。

文章认为基于大规模时序数据,学习序列片段的独立语义,能够赋予模型在数据集之间泛化的能力。并且获得的模型和LLM一样,模型只限制了最大输入长度,从而能够适用于下游任务中各种长度的序列。

任务统一:生成式模型应对多种任务

Timer与GPT类似进行生成式自回归,为进一步扩展模型的通用性,文章将典型时序分析场景统一为生成式任务。

(1)时序预测(Forecasting):Timer一次推理输出一个序列片段,通过多步自回归给出任意长的预测结果。作者团队发现,在预测上下文长度不超过预训练序列长度的情况下,模型不会出现明显的多步误差累积现象。

(2)时序填补(Imputation):类似语言模型T5,作者引入Mask Token表示一段连续的缺失序列。通过微调,模型根据Mask之前的序列来填补连续的缺失值。

(3)异常检测(Detection):文章提出了一种预测式异常检测方法,模型首先在正常序列上进行微调,随后根据输入给出偏移一段时期的序列作为正常值,将其与实际采集的值对比,基于对比误差给出异常区间的置信度。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

多种时序分析任务与基于Timer的生成式分析方案

实验效果

文章从多个角度评估了Timer作为时序大模型的能力,包括少样本微调,零样本预测,任务通用性,可扩展性等,并分析了模型骨架选择,以及对于可变序列长度的适配性。

少样本预测

文章测试了Timer在不同数据稀缺性下的预测误差(MSE),并与此前的领域最优效果(SOTA)进行了比较。

可以发现:Timer使用极少的训练样本,例如1%的ETTh1或者3%的PEMS03,就能超过领域前沿的PatchTST,iTransformer等模型在100%数据上的训练效果。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

实线:预训练Timer;虚线:端到端训练的Timer;深色基准:SOTA模型在全量数据上的训练效果

另外,预训练Timer的预测误差(实线)一致小于未经过预训练的模型(虚线),证明了大规模预训练的有效性。

任务通用性

文章评估了Timer在填补任务和异常检测上的效果,验证了预训练能够给模型在各个数据集上带来稳定的收益。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

左:填补任务中相对端到端模型的效果提升;右:在UCR Anomaly Archive中成功检测出的异常数

文章还将Timer与此前的领域专用模型进行了对比:Timer在全部的44个填补场景中取得了领先,并成功检测出了172个序列异常,相较之下,Anomaly Transformer为129个,TimesNet为109个。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

可扩展性

作者团队研究了Timer的可扩展性,发现随着参数量和数据规模的增加,模型在PEMS数据集上的多变量预测误差降低了36.6%(0.194 -> 0.123),低于此前最优的多变量预测模型iTransformer(0.139)。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

从左到右:扩展Timer层数,特征维度和预训练数据规模都能提升预测效果

零样本预测

作者团队对同期涌现的时序大模型进行了全面测评,在零样本预测任务中,大模型不更新任何参数,直接输入数据集中时间序列进行预测。在7个真实数据集中,Timer取得了综合最优的水平。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型分析

为确认时序领域的大模型骨架,作者团队对不同模型进行了同样规模的预训练,包括基于MLP的TiDE、TCN、LSTM以及Transformer的两种结构,结果显示Transformer在大规模时序数据预训练中具备足够的模型容量。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

训练/验证时的损失函数,横轴以模型训练过的数据点数代表训练进程

文章探讨了Timer对可变序列长度处理能力:如左图所示,随着输入序列的变长,Timer的预测误差逐步降低。如左图所示,为支持任意长度的序列输出,文章对两种结构的Transformer进行了滚动预测。相较于Encoder-only Transformer,Timer显著缓解了多步误差累积。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者进一步分析了两种Transformer结构在下游任务上的泛化性,发现时下流行的仅编码器结果在小规模训练场景中可以取得较好的效果。然而,在预训练-微调范式下,Timer表现出更强的泛化性,即使在多步滚动预测的场景中也能取得领域最优效果,打破了此前针对不同输入-输出长度分别训练的现状。

分析示例

文章提供了Timer在各个任务上的分析示例和具体指标,详情可参考论文附录。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

未来方向

文章最后,作者对现有时序大模型进行了能力测评和对比,总结了时序领域大模型的潜在发展方向,主要包含更强的泛化能力(例如零样本预测),支持更长的上下文长度,支持多变量建模,以及提供置信度的概率预测等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

总结

该工作关注大模型的预训练-微调范式,验证了构建时序领域大模型的可行性,对多领域时间序列的生成式预训练进行了深入探究,证明了生成式模型在处理多种时序分析任务的有效性,相关数据集与代码已经开源,欢迎感兴趣的朋友阅读论文或访问GitHub页面。

参考资料:

https://arxiv.org/abs/2402.02368

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
... NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收
2024-11-01 09:27:00
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前
2024-07-31 09:39:00
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的
2024-10-30 09:58:00
Apache IoTDB:更适合工业物联网场景,存、查、用不再是难题
...过 5G 移动网络发送到服务器。在服务器中,数据被写入时间序列数据库,用于 OLTP 查询。最后,数据科学家可以将数据从数据库加载到大数据平台,用于复杂的分析和预测,即 OL
2023-08-29 10:59:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强
2024-10-23 09:55:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较
2024-10-29 09:55:00
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理
2024-12-05 09:49:00
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...式 Transformer,它将 LLM 的输出表示作为输入,并使用连接时序分类(Connectionist Temporal Classification
2024-09-24 13:42:00
更多关于科技的资讯:
日常生活中,电梯是高层楼宇里不可或缺的垂直交通工具。超过80%的电梯在发生故障前都会释放“求救信号”。这些容易被忽视的异常现象
2025-11-08 05:24:00
进博会上,南京“买手团”大逛“世界超市”全球直采,优品好物装进“购物车”□南京日报/紫金山新闻记者 黄琳燕11月7日,第八届进博会7
2025-11-08 09:31:00
八赴进博彰显深耕决心!凯克携 77 年加拿大真洋牌伟博天然,以全维优势点亮健康新生态
2025 年第八届中国国际进口博览会(进博会)盛大启幕,凯克集团再度携手 webbernaturals 伟博天然荣耀参展
2025-11-08 14:40:00
双11调研:家庭日用类消费成65.89%人大促固定选择,京东成消费者下单日百和服务首选平台
双11已步入第十七个年头,消费者的心态与行为模式也发生了深刻变化。越来越多的中国家庭将双11视为进行生活规划与品质升级的关键节点
2025-11-08 14:42:00
从巴黎歌剧院到家庭客厅,海信激光电视携手 DEVIALET 帝瓦雷开启“家庭影院新世代”
法国当地时间11月4日,全球显示领军品牌海信与知名高端音响品牌 DEVIALET 帝瓦雷在巴黎举办了一场科技与艺术的跨界盛宴
2025-11-08 14:43:00
双11囤货别忘囤“快乐”!华为应用解锁花式娱乐新体验
这个双11,你的购物车是不是已经塞满了心仪的好物?从智能家电到秋冬新装,从母婴用品到家居日用。在忙着为全家人囤货的同时
2025-11-08 14:44:00
在乌镇遇见更懂你的AI,科大讯飞携星火大模型及全场景应用亮相2025世界互联网大会
当千年舟楫摇橹的乌镇,再次成为全球互联网的焦点,一场关于未来的想象正在这里变为现实。2025年11月6日至9日,以“AI共生
2025-11-08 14:44:00
工厂数智化升级,安全建设别再原地踏步!深信服安全托管常态守护
某全球知名的智能制造企业拥有多个生产基地,高智能化产线7*24H运转,而随之而来的安全挑战,却成了企业信息部门“心病”
2025-11-08 14:44:00
双11“精神囤货”指南:华为音乐、视频、阅读,承包你的快乐源泉
又是一年双十一,当购物车被各种生活好物填满,你是否想过,也该为自己的休闲娱乐体验升个级?无论是上下班通勤路上、午休小憩时刻
2025-11-08 14:44:00
11月7日,在2025年世界互联网大会“互联网之光”博览会现场,两位机器人乐手用灵巧的双手演奏钢琴,引人驻足。“我很想去拍拍他们手的细节
2025-11-08 15:52:00
蚂蚁集团CEO韩歆毅:AQ承载蚂蚁健康新使命,让看病更简单、生活更健康
11月8日,乌镇峰会上,蚂蚁集团CEO韩歆毅作为企业代表分享了在AI医疗健康领域的思考与实践。此前,继旗下AI健康应用AQ月活用户突破千万后
2025-11-08 17:00:00
近日,2025福布斯中国・最具影响力华人精英TOP100榜单公布,山西美锦能源股份有限公司董事长姚锦龙上榜。据悉,本届榜单从“产业重塑者”“价值创造者”“趋势勘探者”三大维度
2025-11-08 18:06:00
冲刺四季度 打好收官战丨湖北胜龙机械:优产线强技术 订单实现最大增长
四季度是定全年、保全局的收官季,十堰各工业企业开足马力忙生产、赶订单。湖北胜龙机械有限公司通过产线优化、技术升级、质量提升
2025-11-08 20:36:00
潮玩的本质是“快乐经济”,而非“收割经济”。近日,潮玩品牌泡泡玛特在直播中上演了意外一幕。工作人员手持售价79元的DIMOO盲盒挂链
2025-11-09 01:14:00
厦大机器人项目获“挑战杯”特等奖聚焦提升双臂机器人的自主操作能力东南网11月7日讯 (海峡导报记者 郑薇 通讯员 郭煜新)11月3日
2025-11-09 03:08:00