• 我的订阅
  • 科技

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

类别:科技 发布时间:2024-10-23 09:55:00 来源:新智元

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

【新智元导读】Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。

在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。

近日,由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科研团队携手通力合作,创新性地提出了一种基于混合专家架构(Mixture of Experts, MoE)的时间序列基础模型Time-MoE,首次将时间序列预训练大模型的参数规模推向十亿级别,在时序预测领域实现了里程碑式的突破。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

论文链接:https://arxiv.org/pdf/2409.16040

代码链接:https://github.com/Time-MoE/Time-MoE

与此同时,团队精心整理了预训练数据集Time-300B,这是目前时序领域最大的公开数据集,为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型,标志着时序预测技术迈入了一个全新的时代。

Time-MoE模型通过MoE架构的独特优势,将模型参数成功扩展至24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了众多现有模型,全面达到了SOTA(State of the Art)水平。

关键技术突破

1. 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。

2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。

3. 全球最大规模的开源时序数据集:团队开发了Time-300B数据集,涵盖9个领域的超过3000亿个时间点,为模型提供了丰富的多领域训练数据,确保其在多种任务中的卓越泛化能力。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

在相同激活参数条件下,Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下,其稀疏架构展现出相较于密集模型的卓越精度优势。

模型框架

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息的完整性,提高了模型处理不同长度序列的灵活性与适用性,如模型框架图中①所示。在②中,SwiGLU激活函数对每个时间序列点进行嵌入,其中包括一个Feed-forward network (FFN) 和一个Swish FFN,从而增强模型对多维输入的处理能力:

MoE Transformer模块

Time-MoE基于decoder-only Transformer,并结合了大规模语言模型中的最新技术。Transformer模块里, RMSNorm对每个子层输入进行了归一化处理,从而提升了训练的稳定性。

同时,采用旋转位置编码代替绝对位置编码,使得模型在处理可变序列长度时具备更好的外推能力。此外,模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。

公式化概括如下:

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

其中Mixture代表混合专家层。如模型框架图中③所示,单个时间序列数据点可以被分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入,模型的计算效率得到了提高。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

多分辨率预测

如模型框架图中④和⑤所示,Time-MoE设计了一种多分辨率预测头,可以同时进行不同尺度的预测,突破了单一尺度预测的局限。

在训练时,不同分辨率头会被联合优化。在与推理时,模型采用贪心算法,利用不同尺度的输出组合成任意的预测长度。这种设计允许模型根据不同的预测范围进行灵活预测,并在训练过程中综合多个预测尺度的误差来优化模型的泛化能力,从而显著提升预测的准确性和鲁棒性。

实验效果

1. 零样本zero-shot预测

零样本预测能有效检验时序基础模型的泛化能力和通用性。实验表明,与现有的时序基础模型相比,Time-MoE达到了最好的预测效果,均方误差(MSE)降低了约20%

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

2. 全样本full-shot预测

在全样本预测中,预训练的Time-MoE会使用相应数据的训练集进行微调。实验表明,与专门为全样本预测设计的时序模型相比,Time-MoE依然能达到最优的效果, MSE降低了约24%。这体现了模型对于不同领域数据的适用性,以及预训练基础模型对于下游任务帮助的有效性。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

3. 消融实验

文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明,Time-MoE的设计在提升模型精度上是有效的。特别地,在不使用混合专家的情况下,模型的MSE会有明显的退化。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

4. Scalability分析

作者对于模型的规模化效果进行了详细分析,如下图所示。左图的实验表明,与稠密模型相比,稀疏模型减少了平均78%的训练成本和39%的推理成本。

右图的结果表明,随着数据量和模型参数的增大,Time-MoE持续表现出稳定的性能提升,并且与同规模的稠密模型相比,总能达到更小的MSE和更好的预测性能。

此外,作者还分析了训练精度的影响。如下表所示,与使用float32精度进行训练相比,使用bfloat16精度能得到相似的预测性能,但是bfloat16模型能在训练速度上获得12%的提升,内存占用上有 20%的减少。

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

此外,bfloat16还可以与flash-attention(表中简称为FA)无缝结合,从而进一步在训练和推理速度上带来23%和19%的提升。

总结

Time-MoE的成功标志着时序预测领域迈入了一个全新时代。它不仅在性能上全面超越了现有模型,更为构建大规模、高效、通用的时序预测基础模型奠定了一个可行的范式。Time-MoE的发布不仅为学术界开辟了全新的研究方向,也为工业界的多种时序应用场景注入了巨大的潜力。在能源管理、金融预测、电商销量、气象预报等众多关键领域,Time-MoE将成为企业和研究机构的强大工具。

团队成员相关论文:

[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.

https://arxiv.org/abs/2403.14735

[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023

https://arxiv.org/abs/2310.10196

[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.

https://arxiv.org/abs/2402.02713

[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.

https://arxiv.org/abs/2310.01728

[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2405.14616

[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.

https://arxiv.org/abs/2310.06625

[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024

https://arxiv.org/abs/2410.16032

[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360

[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.

https://arxiv.org/abs/2406.08627

[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.

https://arxiv.org/abs/2405.14252

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

清华提出时间序列大模型:面向通用时序分析的生成式Transformer
...得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获
2024-07-22 09:44:00
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
...ayers 模块,通过 inter-clip temporal layer 来捕捉跨时间片段的时序信息,通过 intra-clip temporal layer 来捕捉单个片段内的时序信息
2024-09-13 13:34:00
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...确地理解、表示文本含义。2)实现并行化计算:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制
2024-10-21 10:03:00
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...测是人类理解物理世界变化的重要一环。自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。目前虽然有不少基础模型已
2024-11-01 09:27:00
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
...在细分任务上展现出色的性能,但由于缺乏灵活和通用的时序特征的提取能力,无法成为通用的模型架构。为了解决这些问题,来自MIT、港科大、浙大以及格里菲斯大学的华人团队联合推出了一
2024-10-30 09:58:00
RTX3090可跑,360AI团队开源视频模型FancyVideo,红衣大叔都说好
...了现有文本控制机制。具体来说,CTGM 包含 3 个子模块:时序信息注入器(Temporal Information Injector
2024-08-27 09:52:00
回看自动驾驶十年,回答毫末智行DriveGPT是怎样炼成的?
...一步增强。但很快,特斯拉从2D的BEV空间快速提升到带有时序特征的信息,使得FSD系统获得帧间连续的感知结果,从而获得了应对视野盲区和遮挡的能力
2023-02-22 22:00:00
宇谷科技发布端侧通用智能锂电池大模型,化解锂电池应用技术难题
...户的生命财产安全。同时,宇谷科技自主研发的基于深度时序学习和图神经网络的锂电池实时异常检测模型,通过大量电池使用日志和行为数据,能提前识别风险电池,实时精确预测电池的电量和容
2024-04-19 12:30:00
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前
2024-07-31 09:39:00
更多关于科技的资讯:
鲁网9月17日讯万物互联,信息化浪潮奔涌。在数字化转型的过程中,工业互联网平台发挥着中枢神经般的重要作用。企业生产过程的数字化管理
2025-09-17 10:40:00
王涵为了准确识别由AI生成的内容并防止其被滥用,不少人建议用AI对抗AI,“AI溯源”技术应运而生。OpenAI宣布将推出一款工具
2025-09-17 10:52:00
360集团董事长周鸿祎:“超级员工” 是这样炼成的
周鸿祎(本报记者 林铭鸿 摄)厦门网讯 (厦门日报记者 刘艳)大模型相当于头脑,能说会道,能思考、能规划、能推理,但是没有手跟脚
2025-09-17 08:35:00
从高速增长到高质量发展:AI智习室的行业变革与挑战
从高速增长到高质量发展:AI智习室的行业变革与挑战在技术赋能教育的大背景下,AI智习室正成为连接传统教育与未来教育的重要桥梁
2025-09-17 09:03:00
烟台联通圆满完成2025莱州半程马拉松通信保障工作
9月14日,2025莱州半程马拉松正式鸣枪开跑,近5000名来自全国各地的跑步爱好者齐聚莱州,以奔跑感受城市风貌,用激情点燃赛事氛围
2025-09-17 08:06:00
手握101项专利,曜灵时代以创新引擎驱动临沂新能源产业升级
齐鲁晚报·齐鲁壹点 高松作为临沂新能源产业链的代表企业,曜灵时代积极践行绿色发展理念,不断创新和突破科学技术。目前,集团下设多个核心全资子公司
2025-09-17 08:08:00
南报网讯(记者孙琳通讯员焦娇李妍妍)9月15日,全国首个市级场景公共服务平台——“南京场景服务平台”正式上线。记者获悉
2025-09-17 07:45:00
□南京日报/紫金山新闻记者张安琪【实验室档案】新型显示与视觉感知石城实验室,由中央广播电视总台、南京市科技局、东南大学和鼓楼区于2022年8月开始合作共建
2025-09-17 07:45:00
南报网讯(记者曹丽珍)当《哈利·波特》系列电影中的魔法道具“隐身斗篷”有可能从银幕走向现实,如何为这种前沿科研保驾护航
2025-09-17 07:46:00
□南京日报/紫金山新闻记者张甜甜9月正值开学季,各大高校相继迎来新生报到。运满满司机申英良将刚刚收到的“云程奖学金”交到小儿子申宝凯手中——今年
2025-09-17 07:46:00
鹭江观察 | 人工智能+ 厦门加出了什么?
客商体验厦门绽优科技的AI+VR产品。厦门美图大楼展厅演示AI产品。(本组图/厦门日报记者 林铭鸿 摄)●2024年,厦门位列中国人工智能城市排行榜前10●截至去年底
2025-09-16 08:18:00
德资企业威卡荣获2025“大苏州雇主品牌一等奖”及“最具发展潜力奖”
9月12日,2025 "大苏州雇主品牌大赛" 颁奖盛典在苏州广电总台落幕。德资企业威卡中国凭借卓越的雇主形象、优秀的企业文化和突出的商业表现
2025-09-16 08:34:00
记者走基层|“邯郸造”掘进钻车 北极圈矿场上岗
9月15日,河北宏远液压机械有限公司装配车间内,技术人员对智能掘进钻车进行出厂前调试。河北日报记者 陈正摄“臂展伸缩正常
2025-09-16 08:52:00
近期,预制菜话题备受消费者关注。各方讨论背后,是消费者对于知情权的关切以及对提高餐饮质量的诉求。这场讨论也促使餐饮从业者思考
2025-09-16 09:02:00
穿警服直播带货引争议,“嘎子哥”道歉,云南警方已介入
近日,辽宁的李先生向记者反映称,他在观看“嘎子谢孟伟”的直播时发现,其身着人民警察制式服装带货,于是向事发地所属的云南警方报了警
2025-09-16 10:08:00