• 我的订阅
  • 头条热搜
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...。那么,Wan 2.1是如何实现又好又省的呢?创新3D变分自动编码器和主流的视频生成技术路线一样,Wan 2.1的主体采用了DiT(Diffusion Transformer)架构。Wan利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注...……更多
智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub3.7K星
...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶...……更多
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多视角镜头切换主体保持能力,艺术...……更多
【玖越机器人】视频网站为了降本纷纷砍画质,为何只有谷歌仍在坚持?
...歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每个VCU服务器系统由10块板卡组成,每块板卡上配有2...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预训练的CLIP编码器(如BLIPv2,CrossTVR,ChatBridge,还有一些使用自定义多模态预训练...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v1一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频Stable Audio Open引...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...低的离线应用提供更高性能。Gemma Scope:通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...资料看,腾讯混元视频生成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多
主流手机首次深度支持H.266 vivo X200搭载Ali266解码器:高清播放功耗下降13%
快科技10月25日消息,近日,vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案,基于阿里自研解码器Ali266,在高清视频播放场景下实现功耗下降13%,解码速度提升12%。该方案已率先落地vivo X200系列旗舰手机,这...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...。▲Tora整体架构其中,轨迹提取器采用3D运动VAE(变分自编码器),将轨迹向量嵌入到与视频补丁(video patches)相同的潜在空间中,可以有效地保留连续帧之间的运动信息,随后使用堆叠的卷积层来提取分层运动特征。运动引...……更多
MSU世界视频编码器大赛放榜 腾讯编码器斩获全场最佳
7月24日记者获悉,由莫斯科国立大学举办的MSU世界视频编码器大赛成绩出炉,在全部21个参赛编码器中,腾讯编码器包揽所有15项关键指标的全部第一,全场最佳。MSU大赛官网比赛结果,腾讯编码器全面第一(MSU Main Report)注:M...……更多
谷歌开源libdav1d编解码器,改善对av1编码视频的支持
4月20日消息,安卓系统开发经理阿里夫・迪基奇(ArifDikici)昨日证实,已经通过2024年3月发布的PlaySystem更新,改用VideoLAN的开源libdav1d编解码器,从而改善对AV1编码视频的支持。谷歌自发布安卓10系统以来,安卓开源项目(AOSP)...……更多
AI音乐创作、水墨画、3D空间重建、6DoF,腾讯多媒体实验室领先技术亮相数贸会
...联合主编、参考软件联席主席等重要席位。在MSU世界视频编码器大赛FullHD比赛中,腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一,第一总数全场最多;并在全部VVC编码器中包揽15项指标全部第一。此外Tencent2...……更多
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...远超图像数据。为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多
音视频激荡40年:从9英寸的黑白电视,到4.56亿人的直播狂欢
...决方案,其标准且灵活的开放软件堆栈和oneAPI、强大的AV1编码器和AI视觉推理能力,有助于减少边缘云使用不同解决方案并管理异构或专有环境的需求,助力参赛选手更好的探索性能加速与低延时命题。结语从9英寸的黑白世界杯...……更多
2022-12-23 19:27:00音视,直播,黑白,电视
掰开揉碎告诉你,ChatGPT凭啥是人工智能“流量王”
...‍注意力机制自然语言处理中常用的一种通用算法框架是编码器-解码器网络。其中,编码器是将输入序列“编码”为一个输出(向量C),解码器是将该输出(向量C)作为输入“解码”为一个输出序列。在这个框架下可以使用...……更多
刚炮轰完GPT模式 杨立昆推出首个“世界模型”
...下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个视觉Transformer(ViT),它只处理可见的上下文补丁。预测器是一个狭窄的ViT,它接受上下文编码器的输出,并根据目标的位置标记(以颜色显示)来预测目标...……更多
高通ali266实现4k120fpsvvc视频流畅播放
...息,在刚结束的国际广播电视展(IBC)上,高通展出基于阿里自研解码器Ali266的视频解码方案,在搭载了骁龙XElite的Windows11AIPC上首次实现4K120fpsVVC视频流畅播放。得益于采用Ali266的解码方案,骁龙XElite支持超低功耗、超高清、高...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
... Space)中进行生成。为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。流...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...一部分:音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器,分别得到语音和音频的编码向量序列(每1秒音频对应50个向量),同时使用InstructBLIP视觉编码器,以2 FPS的视频采样率得到视觉编码向量序列(...……更多
英国ai初创公司wayve公布gaia-1最新进展
...汽车上路时的安全性和效率。据悉,GAIA-1会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不...……更多
字节版Sora火爆24小时,同名论文再次被热议
...为训练中的图像指令。据了解,文本指令由预训练的文本编码器编码,并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码,并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中,团队使用...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...GPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的...……更多
SAM是如何做到“分割一切”的
...作‘编码解码器’的构架。”记者了解到,SAM先通过图像编码器为图像生成编码,同时用一个轻量级编码器将用户的文字提示转换为提示编码。然后,SAM将图像编码分别和提示编码信息源组合在一起,输送到一个轻量级解码器中...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...值的媒介,确定检索库是否包含相关知识。检索器和提示编码器经过联合训练,以实现知识编辑属性,即可靠性、通用性和局部性。在多个权威基座模型和编辑数据集上进行终身编辑对比实验,结果证明了RECIPE性能的优越性。 ...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要...……更多
稀疏自编码器是如何工作的,这里有一份直观说明
...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...预训练的视觉表征重要吗?该团队使用不同的预训练通用编码器作为世界模型的观察模型,并评估了它们的下游规划性能。 在涉及简单动态和控制的 PointMaze 任务中,该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多
更多关于科技的资讯:
在制造业提质增效的浪潮中,那些藏在生产环节里的“细枝末节”,往往藏着撬动效益升级的关键密码。近日,太重包储分公司的散件箱优化项目传来捷报
2025-09-24 07:52:00
被3000亿资金哄抢的创新药企,上市首日暴涨110%
文|胡香赟编辑|海若镜港股迎来今年第11家上市的创新药公司。9月19日,劲方医药在港交所挂牌,首日涨幅接近110%、市值逼近150亿
2025-09-24 06:26:00
2025北京文化论坛“虚实无界:视听产业融合破圈”平行论坛举办
中国青年报客户端北京9月23日电(中青报·中青网记者 沈杰群)今天,2025北京文化论坛平行论坛——“虚实无界:视听产业融合破圈”在北京国际饭店会议中心举行
2025-09-24 00:03:00
中信银行南京分行成功举办“小天元”企业生态服务平台江苏区域发布会
9月22日下午,在百余家江苏企业代表的共同见证下,中信银行“小天元”企业生态服务平台江苏区域发布会暨“进万企 信服惠企”系列活动在南京成功举办
2025-09-23 23:15:00
聚焦京津冀协同发展|一个平台,推动黄骅模具迈向高端
北京市科学技术委员会牵头,京冀相关单位共建智能模具科技成果转化中试平台一个平台,推动黄骅模具迈向高端9月11日,智能模具科技成果转化中试平台工作人员正在操作四轴机床进行生产
2025-09-23 08:49:00
AI赋能千行百业一线故事(十二):数智化转型,让电厂越来越智慧
数智化转型,让电厂越来越智慧——AI赋能千行百业一线故事(十二)8月28日,石家庄良村热电有限公司生产技术部专业主管苏朝宏介绍智慧展厅
2025-09-23 08:53:00
“产业炬光灯”系列短视频首期聚焦中材航特
“产业炬光灯”系列短视频于厦门日报官方视频号、抖音号、快手号、B站账号、央视频账号等全媒体平台同步上线,首期节目走进中材航特
2025-09-23 08:58:00
厦门网讯(厦门日报记者 林雯)旧低效工业用地加速变身科创高地。近日,随着位于思明区前埔片区的2025P13、2025P14地块成功出让
2025-09-23 08:58:00
国网厦门供电公司持续推进“EASIER用电”品牌建设
国网厦门供电公司为厦门天马微电子有限公司创造更优质、更稳定的用电环境。(国网厦门供电公司 供图)“EASIER用电”品牌厦门网讯(厦门日报记者 刘艳 通讯员 林艳婷 高芳 郭芷祎)近年来
2025-09-23 08:58:00
山东移动泰安分公司数智融合加速 赋能企业蝶变升级
鲁网9月22日讯数字化浪潮正在席卷千行百业,山东移动泰安分公司(简称:泰安移动)以“技术赋能、生态协同、梯次服务”为核心
2025-09-23 10:01:00
企鹅网络(Q学友)与腾讯云达成战略合作,携手共创“AI+职业教培”新范式
9月16日-17日,2025腾讯全球数字生态大会在深圳举办。大会期间,深圳市企鹅网络科技有限公司(以下简称“企鹅网络”)与腾讯云正式签署战略合作协议
2025-09-23 10:39:00
本报记者 赵 曦 □ 花沁昕“白天的时间都用于工作和社交,只有夜晚的时间才真正属于自己,我舍不得睡,但真想睡的时候又睡不着了
2025-09-23 10:48:00
科学为基,爱心为桥:儿童营养品牌inne携手德甲冠军俱乐部启动全球公益计划
在全民健康意识提高与消费升级的双重驱动下,新一代父母对儿童营养的重视程度前所未有。消费需求愈发细分、专业,推动儿童营养品行业从“标准化供给”向“专业化服务”转变
2025-09-23 11:20:00
《金刚狼》《权游》供应商分拆机器人数据业务,腾讯、字节大牛加入 | 智能涌现独家
文|邱晓芬编辑|苏建勋2023年底,全球出货量最大的动作捕捉设备提供商"诺亦腾(Noitom)"联合创始人戴若犁,一度以为自己被骗了
2025-09-23 20:47:00
近8成职场人每周都会使用AI工具 通用对话型AI占比最高
在人工智能技术日臻成熟的2025年,AI已不再是科幻概念或实验室产物,而是深度融入职场生态的“数字同事”。从“工具”走向“伙伴”
2025-09-23 11:37:00