我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
本文转自:中国科学报
南开大学等
让人工智能模型训练提速10倍以上
本报讯(通讯员高雨桐 记者陈彬)南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布了一项国际联合研究成果MDT,与人工智能文字生成视频大模型Sora核心组件DiT相比,训练速度提升10倍以上,再次刷新SoTA最佳图像生成质量和学习速度。近日,相关成果公布于预印本服务器arXiv。
2024年初,美国OpenAI公司发布Sora模型,其通过计算机视觉技术模拟现实世界的动态变化,可以一次生成60秒流畅逼真的视频,被视为继ChatGPT之后人工智能技术的又一重大突破。
以Sora核心组件之一DiT为代表的扩散模型,可以“无中生有”得到一张高质量图像,是近年来人工智能技术最大亮点之一。但DiT往往难以高效学习图像中物体各部分之间的语义关系,这导致了训练过程的低收敛效率。同时,更大的模型规模和数据规模也会消耗大量的算力,导致训练成本飙升。
“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”程明明说。
如何降低训练成本、提高训练效率?研究团队在扩散训练过程中引入上下文表征学习,使模型能够利用图像物体的上下文信息,重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,提高图像生成的质量和学习速度。
近日,研究团队又将MDT版本升级,引入了一个更为高效的宏观网络结构,进一步优化了学习过程,同时通过采用更优的训练策略进一步加速模型的训练过程。实验结果证明,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。
相关论文信息:https://arxiv.org/abs/2303.14389
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-04-03 08:45:19
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: