我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
7月12日消息,智谱AI宣布,训练了一种新的视频理解模型CogVLM2-Video,并将其开源。
据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。
▲官方效果演示
智谱AI提出了一种基于视觉模型的自动时间定位数据构建方法,生成了3万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出CogVLM2-Video模型。
智谱AI表示,CogVLM2-Video不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-07-13 12:45:03
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: