• 我的订阅
  • 头条热搜
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...。那么,Wan 2.1是如何实现又好又省的呢?创新3D变分自动编码器和主流的视频生成技术路线一样,Wan 2.1的主体采用了DiT(Diffusion Transformer)架构。Wan利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注...……更多
智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub3.7K星
...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶...……更多
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多视角镜头切换主体保持能力,艺术...……更多
【玖越机器人】视频网站为了降本纷纷砍画质,为何只有谷歌仍在坚持?
...歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每个VCU服务器系统由10块板卡组成,每块板卡上配有2...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预训练的CLIP编码器(如BLIPv2,CrossTVR,ChatBridge,还有一些使用自定义多模态预训练...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v1一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频Stable Audio Open引...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...低的离线应用提供更高性能。Gemma Scope:通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...资料看,腾讯混元视频生成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多
主流手机首次深度支持H.266 vivo X200搭载Ali266解码器:高清播放功耗下降13%
快科技10月25日消息,近日,vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案,基于阿里自研解码器Ali266,在高清视频播放场景下实现功耗下降13%,解码速度提升12%。该方案已率先落地vivo X200系列旗舰手机,这...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...。▲Tora整体架构其中,轨迹提取器采用3D运动VAE(变分自编码器),将轨迹向量嵌入到与视频补丁(video patches)相同的潜在空间中,可以有效地保留连续帧之间的运动信息,随后使用堆叠的卷积层来提取分层运动特征。运动引...……更多
谷歌开源libdav1d编解码器,改善对av1编码视频的支持
4月20日消息,安卓系统开发经理阿里夫・迪基奇(ArifDikici)昨日证实,已经通过2024年3月发布的PlaySystem更新,改用VideoLAN的开源libdav1d编解码器,从而改善对AV1编码视频的支持。谷歌自发布安卓10系统以来,安卓开源项目(AOSP)...……更多
AI音乐创作、水墨画、3D空间重建、6DoF,腾讯多媒体实验室领先技术亮相数贸会
...联合主编、参考软件联席主席等重要席位。在MSU世界视频编码器大赛FullHD比赛中,腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一,第一总数全场最多;并在全部VVC编码器中包揽15项指标全部第一。此外Tencent2...……更多
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...远超图像数据。为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多
音视频激荡40年:从9英寸的黑白电视,到4.56亿人的直播狂欢
...决方案,其标准且灵活的开放软件堆栈和oneAPI、强大的AV1编码器和AI视觉推理能力,有助于减少边缘云使用不同解决方案并管理异构或专有环境的需求,助力参赛选手更好的探索性能加速与低延时命题。结语从9英寸的黑白世界杯...……更多
2022-12-23 19:27:00音视,直播,黑白,电视
掰开揉碎告诉你,ChatGPT凭啥是人工智能“流量王”
...‍注意力机制自然语言处理中常用的一种通用算法框架是编码器-解码器网络。其中,编码器是将输入序列“编码”为一个输出(向量C),解码器是将该输出(向量C)作为输入“解码”为一个输出序列。在这个框架下可以使用...……更多
高通ali266实现4k120fpsvvc视频流畅播放
...息,在刚结束的国际广播电视展(IBC)上,高通展出基于阿里自研解码器Ali266的视频解码方案,在搭载了骁龙XElite的Windows11AIPC上首次实现4K120fpsVVC视频流畅播放。得益于采用Ali266的解码方案,骁龙XElite支持超低功耗、超高清、高...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
... Space)中进行生成。为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。流...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...一部分:音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器,分别得到语音和音频的编码向量序列(每1秒音频对应50个向量),同时使用InstructBLIP视觉编码器,以2 FPS的视频采样率得到视觉编码向量序列(...……更多
英国ai初创公司wayve公布gaia-1最新进展
...汽车上路时的安全性和效率。据悉,GAIA-1会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不...……更多
字节版Sora火爆24小时,同名论文再次被热议
...为训练中的图像指令。据了解,文本指令由预训练的文本编码器编码,并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码,并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中,团队使用...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...GPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的...……更多
SAM是如何做到“分割一切”的
...作‘编码解码器’的构架。”记者了解到,SAM先通过图像编码器为图像生成编码,同时用一个轻量级编码器将用户的文字提示转换为提示编码。然后,SAM将图像编码分别和提示编码信息源组合在一起,输送到一个轻量级解码器中...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...值的媒介,确定检索库是否包含相关知识。检索器和提示编码器经过联合训练,以实现知识编辑属性,即可靠性、通用性和局部性。在多个权威基座模型和编辑数据集上进行终身编辑对比实验,结果证明了RECIPE性能的优越性。 ...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要...……更多
稀疏自编码器是如何工作的,这里有一份直观说明
...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...预训练的视觉表征重要吗?该团队使用不同的预训练通用编码器作为世界模型的观察模型,并评估了它们的下游规划性能。 在涉及简单动态和控制的 PointMaze 任务中,该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
笔者参加了几届阿里云栖大会,每一届都有不同的主题。但近两届,有一个越来越明晰的主线,那就是云与AI的融合。这一届的阿里云栖大会,无论是从主题演讲还是展览设置,这种云+AI的感觉都很强。在阿里巴巴的高层中,吴...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的助推剂,而其中的一股重要力量就是来自MetaMeta在人...……更多
更多关于科技的资讯:
厦门抢占具身智能产业新赛道
第十四届中国创新创业大赛——首届具身智能专业赛成果在厦发布。厦门网讯(文/厦门日报记者 吴晓菁 通讯员 高菲 康潇潇 图/厦门日报记者 卢剑豪)昨日的厦门国际会议中心酒店
2025-09-26 08:38:00
具身智能孵化加速器在厦正式揭牌第十四届中国创新创业大赛首届具身智能专业赛昨日发布成果东南网9月26日讯(海峡导报记者 黄奕琳)昨日
2025-09-26 10:17:00
全国26家实验室参与!由雷沃支持的这场“田间论剑”举行
日前,2025年农业机械检测实验室间比对活动在山东潍坊举行。该活动由中国农业机械化协会主办、农机鉴定检测分会承办、潍柴雷沃智慧农业协助开展
2025-09-26 07:05:00
人们依托脑力开展思维活动,而人工智能则依赖算力进行“思考”。“十四五”期间,中国在算力建设上的投入力度相当大,发展成效显著
2025-09-26 07:31:00
王灿:以笔为犁 深耕“城事”
王灿。 臧翔宇 摄□胡欣玥芮天舒祁绩外出采访结束后,王灿轻轻推开南京报业传媒集团融媒中心时政新闻部的门。工位上屏幕亮起
2025-09-26 07:41:00
560余家企业携4.8万余个岗位来东大揽才“AI+”岗位热度不减,实战经验是核心指标□南京日报/紫金山新闻记者何洁 实习生黄佳琪杨久久9月25日
2025-09-26 07:41:00
厦门网讯(厦门日报记者 沈彦彦 应洁)明日,厦门岛外首家永辉“胖东来模式”调改店将在杏林万科里正式开业。作为厦门第二家
2025-09-25 08:53:00
9月24日,“青春华章・向西而歌”网络大思政课活动上,西安交通大学微电子学院集成电路工程专业博士研究生魏上杰介绍,集成电路是“国之重器”的“心脏”
2025-09-25 09:44:00
杜建英一持股公司被吊销,名下关联60家企业其中8家已注销或吊销
企查查APP显示,近日,杜建英持股的杭州芸台文化创意有限公司被吊销,原因是公司成立后无正当理由超过6个月未开业,或者开业后自行停业连续6个月以上
2025-09-25 11:20:00
雷军“五十来岁正是闯的年纪”,出生于1969年,和余承东、陈明永同龄
9月25日,雷军发文:这5年,小米一路摸爬滚打、跌宕起伏,依然启动了造车、芯片和高端化……没什么好犹豫的,五十来岁,正是闯的年纪
2025-09-25 11:20:00
贵州国企“智”变攻坚推动数实融合
赤水河畔,国内首台高温复合型仿生压曲机稳定运转,物联网实时优化发酵参数……这场酿酒的“数字革命”,也是贵州习酒公司以全链数智革新推动产业跃迁的生动缩影
2025-09-25 11:57:00
近8成职场人每周都会用AI工具 “人机互信”仍在磨合期
在人工智能技术日臻成熟的2025年,AI已是深度融入职场生态的“数字同事”,在AI辅助下的2025年职场迎来了哪些变化
2025-09-25 13:30:00
9月23日下午,2025北京文化论坛“破界共生:科技激发文化原创力”平行论坛在京举办。本场论坛由中国文联、中国作协指导
2025-09-25 13:38:00
国庆前夕,房山区物美超市“胖改店”、居然之家房山店、瑞莱广场分别于9月26日、27日、28日开业,进一步丰富了房山区消费场景
2025-09-25 13:38:00
OPPO杭州研发总部项目易主,山子高科接手公司95%股权
企查查APP显示,近日,负责OPPO项目的杭州逗酷软件科技有限公司发生工商变更,新增山子高科旗下浙江山子超影科技有限公司为股东
2025-09-25 16:25:00