• 我的订阅
  • 科技

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

类别:科技 发布时间:2024-07-22 09:44:00 来源:新智元

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

时间序列提供了数据随时间变化的视角,对于理解复杂系统、预测未来变化和制定决策规划至关重要,在金融、气象、医疗、供应链等多个行业中发挥着至关重要的作用。

近年来,基于深度学习开发的模型在时序分析领域取得了突破性进展。然而,相较于语言、视觉大模型的蓬勃发展,现有模型依然面临若干瓶颈:

(1)泛化性:模型能处理训练时未遇到的新数据;或在数据稀缺时,根据有限的训练数据快速适配。然而,即便是目前领域前沿的时序模型,在少样本场景下依然会产生明显的性能劣化。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

时序预测模型PatchTST在不同数据稀缺条件下的效果

(2)通用性:小型深度模型训练后仅适合单一任务和场景,具有固定输入输出长度,适配的变量数等难以泛化的性质,难以像大语言模型一样,适用于各类下游任务,例如T5,LLaMA和BLOOM等。

(3)可扩展性:大模型关键特征之一在于Scaling Law:扩大参数量或预训练规模可以取得效果提升。然而,时序领域的大模型骨架尚无定论,即使是Transformer,在以往时序大模型研究中尚未展现出明显的可扩展性。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

最近,清华大学软件学院机器学习实验室和大数据系统软件国家工程研究中心提出了名为Timer(Time Series Transformer)的面向时间序列的大模型(Large Time Series Model, LTSM)。

模型采用仅编码器(Decoder-only)结构,基于多领域时间序列进行大规模预训练,通过微调突破了少样本场景下的性能瓶颈,适配不同输入输出长度的时间序列,以及预测,填补,异常检测等任务,展现出模型可扩展性。

目前,该工作已被ICML 2024接收。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

论文链接:https://arxiv.org/abs/2402.02368

代码仓库:https://github.com/thuml/Large-Time-Series-Model

数据构建:基于时序特性构建层次化数据集

尽管时间序列在现实世界中无处不在,大规模时间序列数据集的发展却滞后于语言,图像,视频等领域。

并且,基于低质量,弱语义,以及难预测数据训练的模型无法展现对时间序列的通用理解能力。

为此,作者团队基于可预测性、平稳性等指标重重筛选,文章构建了包含10亿数据点的统一时间序列数据集(Unified Time Series Dataset, UTSD)。

UTSD覆盖七个领域的高质量时间序列,蕴含时间序列模态的通用“常识”,以此训练模型获得跨领域时序建模的基本能力,例如捕捉主要周期,生成重要模式,以及关注自相关部分等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

文章尤其重视数据质量的重要性,对数据集进行难度分级和配比,随着数据规模的扩大,变化规律复杂的数据比例也在不断增加,以便逐步进行模型的容量扩展和课程学习。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队目前还在持续扩大数据集,并将UTSD公开至HuggingFace,以促进时序领域的预训练以及大模型研究。

训练方法:统一格式 + 自回归生成

不同于语言、图像有着相对固定的格式,时序领域的数据存在异构性,例如变量数目,采样频率和时间跨度等,因此,进行大规模时序预训练的首要难题在于如何统一异构的时间序列。

为将异构时间序列转换为统一格式,作者团队提出了一种单序列(Single Series Sequence, S3)格式。

如下图所示,通过变量拆分,归一化合并,分窗和采样等流程,文章将时序数据转换成了与语言类似的固定长度的一维序列,在数值范围内保证分布稳定的同时,让模型更加关注序列本身的变化模式。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

在预训练方法上,文章将单序列切分为序列片段,每个片段作为一个“词”,采用与LLM类似的下一词预测(Next Token Prediction, NTP)进行预训练。推理时,模型可通过自回归生成任意长度的序列。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型结构:剑走偏锋的仅解码器结构

不同于当下时序领域流行的仅编码器结构,Timer采用GPT风格的仅解码器Transformer。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者团队发现,Encoder-only结构接受了预测区间的所有监督信号,在端到端的训练场景中能取得较好效果,但在一定程度上限制Transformer作为时序大模型的潜力。

一方面,在Encoder-only Transformer中,输入序列中的“词”互相可见,可能降低了模型建模序列变化的难度;模型引入的平整化(Flattening)会影响词之间的独立性,导致难以学到序列片段的语义。

另一方面,LLM广泛采用以词为单位的自回归式监督信号,每个“词”都是预测的目标,产生了细粒度且互相独立的监督信号。

文章认为基于大规模时序数据,学习序列片段的独立语义,能够赋予模型在数据集之间泛化的能力。并且获得的模型和LLM一样,模型只限制了最大输入长度,从而能够适用于下游任务中各种长度的序列。

任务统一:生成式模型应对多种任务

Timer与GPT类似进行生成式自回归,为进一步扩展模型的通用性,文章将典型时序分析场景统一为生成式任务。

(1)时序预测(Forecasting):Timer一次推理输出一个序列片段,通过多步自回归给出任意长的预测结果。作者团队发现,在预测上下文长度不超过预训练序列长度的情况下,模型不会出现明显的多步误差累积现象。

(2)时序填补(Imputation):类似语言模型T5,作者引入Mask Token表示一段连续的缺失序列。通过微调,模型根据Mask之前的序列来填补连续的缺失值。

(3)异常检测(Detection):文章提出了一种预测式异常检测方法,模型首先在正常序列上进行微调,随后根据输入给出偏移一段时期的序列作为正常值,将其与实际采集的值对比,基于对比误差给出异常区间的置信度。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

多种时序分析任务与基于Timer的生成式分析方案

实验效果

文章从多个角度评估了Timer作为时序大模型的能力,包括少样本微调,零样本预测,任务通用性,可扩展性等,并分析了模型骨架选择,以及对于可变序列长度的适配性。

少样本预测

文章测试了Timer在不同数据稀缺性下的预测误差(MSE),并与此前的领域最优效果(SOTA)进行了比较。

可以发现:Timer使用极少的训练样本,例如1%的ETTh1或者3%的PEMS03,就能超过领域前沿的PatchTST,iTransformer等模型在100%数据上的训练效果。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

实线:预训练Timer;虚线:端到端训练的Timer;深色基准:SOTA模型在全量数据上的训练效果

另外,预训练Timer的预测误差(实线)一致小于未经过预训练的模型(虚线),证明了大规模预训练的有效性。

任务通用性

文章评估了Timer在填补任务和异常检测上的效果,验证了预训练能够给模型在各个数据集上带来稳定的收益。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

左:填补任务中相对端到端模型的效果提升;右:在UCR Anomaly Archive中成功检测出的异常数

文章还将Timer与此前的领域专用模型进行了对比:Timer在全部的44个填补场景中取得了领先,并成功检测出了172个序列异常,相较之下,Anomaly Transformer为129个,TimesNet为109个。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

可扩展性

作者团队研究了Timer的可扩展性,发现随着参数量和数据规模的增加,模型在PEMS数据集上的多变量预测误差降低了36.6%(0.194 -> 0.123),低于此前最优的多变量预测模型iTransformer(0.139)。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

从左到右:扩展Timer层数,特征维度和预训练数据规模都能提升预测效果

零样本预测

作者团队对同期涌现的时序大模型进行了全面测评,在零样本预测任务中,大模型不更新任何参数,直接输入数据集中时间序列进行预测。在7个真实数据集中,Timer取得了综合最优的水平。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

模型分析

为确认时序领域的大模型骨架,作者团队对不同模型进行了同样规模的预训练,包括基于MLP的TiDE、TCN、LSTM以及Transformer的两种结构,结果显示Transformer在大规模时序数据预训练中具备足够的模型容量。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

训练/验证时的损失函数,横轴以模型训练过的数据点数代表训练进程

文章探讨了Timer对可变序列长度处理能力:如左图所示,随着输入序列的变长,Timer的预测误差逐步降低。如左图所示,为支持任意长度的序列输出,文章对两种结构的Transformer进行了滚动预测。相较于Encoder-only Transformer,Timer显著缓解了多步误差累积。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

作者进一步分析了两种Transformer结构在下游任务上的泛化性,发现时下流行的仅编码器结果在小规模训练场景中可以取得较好的效果。然而,在预训练-微调范式下,Timer表现出更强的泛化性,即使在多步滚动预测的场景中也能取得领域最优效果,打破了此前针对不同输入-输出长度分别训练的现状。

分析示例

文章提供了Timer在各个任务上的分析示例和具体指标,详情可参考论文附录。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

未来方向

文章最后,作者对现有时序大模型进行了能力测评和对比,总结了时序领域大模型的潜在发展方向,主要包含更强的泛化能力(例如零样本预测),支持更长的上下文长度,支持多变量建模,以及提供置信度的概率预测等。

清华提出时间序列大模型:面向通用时序分析的生成式Transformer

总结

该工作关注大模型的预训练-微调范式,验证了构建时序领域大模型的可行性,对多领域时间序列的生成式预训练进行了深入探究,证明了生成式模型在处理多种时序分析任务的有效性,相关数据集与代码已经开源,欢迎感兴趣的朋友阅读论文或访问GitHub页面。

参考资料:

https://arxiv.org/abs/2402.02368

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-22 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
... NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收
2024-11-01 09:27:00
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前
2024-07-31 09:39:00
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的
2024-10-30 09:58:00
Apache IoTDB:更适合工业物联网场景,存、查、用不再是难题
...过 5G 移动网络发送到服务器。在服务器中,数据被写入时间序列数据库,用于 OLTP 查询。最后,数据科学家可以将数据从数据库加载到大数据平台,用于复杂的分析和预测,即 OL
2023-08-29 10:59:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强
2024-10-23 09:55:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较
2024-10-29 09:55:00
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理
2024-12-05 09:49:00
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...式 Transformer,它将 LLM 的输出表示作为输入,并使用连接时序分类(Connectionist Temporal Classification
2024-09-24 13:42:00
更多关于科技的资讯:
十堰广电讯(全媒体记者 耿吉国)据2025新能源汽车零部件交易会组委会最新消息,9月21日10:30,本届交易会将在十堰国际会展中心的交易会活动现场
2025-09-21 08:54:00
9月20日,2025太原人形机器人欢乐跑比赛在晋阳湖公园举行。这是我市第一次举办人形机器人“跑步”比赛。本次比赛,共有来自省城高校
2025-09-21 06:42:00
混成全网公敌的“流水线式造假”,终于被整顿
一家三口站在某所知名小学校门前,松弛地拍了一张合照。照片发到小红书上,下方评论区都在问询:“这么优秀的娃,究竟该怎么培养
2025-09-20 22:18:00
家庭观影进入IMAX时代!海信发布全球最大150英寸激光电视
鲁网9月19日讯9月19日,以“无界”为主题的“2025激光显示技术与产业发展大会”隆重举行。作为全球激光显示领域的领军企业
2025-09-20 08:56:00
我国脑机接口技术取得重大突破 厦门大学研究人员参与
放大镜视野下的“神经蠕虫”电极。(受访者 供图)厦门网讯(厦门日报 佘峥 通讯员 戴佩琪)我国脑机接口技术有重大突破——近日
2025-09-20 09:18:00
厦门“屏实力”再添新动能 天马发布高端OLED技术品牌“天工屏”
图为天马“天工屏”发布会现场。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹 通讯员 雷飏 李舜)随着人们日常使用手机时长持续攀升
2025-09-20 09:18:00
“赢在南京”海外人才创业大赛总决赛落幕逐鹿未来机“慧” 四海英才“论剑”南报网讯(记者余梦娇)9月19日,2025年“赢在南京”海外人才创业大赛总决赛在紫金山科技城圆满落幕
2025-09-20 09:54:00
过节送福礼,就送波尼亚!老字号中秋礼盒,青岛人都认这口
鲁网9月20日讯中秋将至,岛城的节日氛围日渐浓厚,走亲访友、阖家团聚的时刻,一份饱含心意的礼品总能传递温暖。作为扎根青岛的老字号肉食品牌
2025-09-20 10:08:00
机器人“总动员”!2025世界制造业大会上演智造奇观
大皖新闻讯 机械臂在空中划出优美弧线,人形机器人灵活抓取糖果,机器狗稳步行走在模拟街区内……2025世界制造业大会的智能机器人展区仿佛穿越至未来世界
2025-09-20 13:25:00
茶话弄九周年,这款经典单品即将迎来“家族式”升级
9月的西安,金桂飘香。2016年创立于西安的国风新中式茶饮品牌茶话弄,也将于近期启动以“桂花”为主题元素的品牌九周年庆典系列活动
2025-09-20 15:33:00
了不起的河南制造丨汉威科技:唤醒机器人“感知”世界的能力
大河网讯 2025世界制造业大会9月20日至23日在安徽省合肥市举办,大会以“智造世界·创造美好”为主题,举办开幕式暨主旨演讲
2025-09-20 16:14:00
了不起的河南制造丨2025世界制造业大会举行,河南“工业机器人”现场秀签名
大河网讯 9月20日,2025世界制造业大会开幕式暨主旨演讲在合肥市举行。河南省作为主宾省参会,30家制造业企业“重装上阵”
2025-09-20 16:45:00
2026届校园招聘大战启幕 科技企业派机器狗进高校抢人
近期,2026届校园招聘在全国多所高校陆续启动,一场围绕科技人才的“抢人大战”正式拉开帷幕。与往年相比,今年众多科技企业积极创新招聘形式
2025-09-20 17:55:00
2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度盛大启幕
鲁网9月20日讯(记者 潘亚妮 实习记者 刘悦 通讯员 袁嘉利 位一凡)9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市美妆在线新经济产业园盛大启幕
2025-09-20 17:55:00
从“炕头经济”到“美丽经济” ,平度睫毛产业数字化蝶变升级
齐鲁晚报•齐鲁壹点 刘震 通讯员 袁嘉利 位一凡9月20日,2025山东省“产业大脑”建设工作推进会暨第五届中国(国际)美妆睫毛产业博览会在平度市开幕
2025-09-20 18:05:00