• 我的订阅
  • 头条热搜
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...。那么,Wan 2.1是如何实现又好又省的呢?创新3D变分自动编码器和主流的视频生成技术路线一样,Wan 2.1的主体采用了DiT(Diffusion Transformer)架构。Wan利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注...……更多
智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub3.7K星
...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶...……更多
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循,其具备强大的语义跟随能力,更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅...……更多
【玖越机器人】视频网站为了降本纷纷砍画质,为何只有谷歌仍在坚持?
...歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每个VCU服务器系统由10块板卡组成,每块板卡上配有2...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多视角镜头切换主体保持能力,艺术...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预训练的CLIP编码器(如BLIPv2,CrossTVR,ChatBridge,还有一些使用自定义多模态预训练...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...练数据的采用和部分架构上采取了调整,关键架构由自动编码器、基于T5的文本嵌入以及扩散模型(DiT)构成。论文地址:https://arxiv.org/html/2407.14358v1一、3个关键架构提供支持,免费生成44.1kHz高质量立体声短音频Stable Audio Open引...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...低的离线应用提供更高性能。Gemma Scope:通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...资料看,腾讯混元视频生成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多
主流手机首次深度支持H.266 vivo X200搭载Ali266解码器:高清播放功耗下降13%
快科技10月25日消息,近日,vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案,基于阿里自研解码器Ali266,在高清视频播放场景下实现功耗下降13%,解码速度提升12%。该方案已率先落地vivo X200系列旗舰手机,这...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...。▲Tora整体架构其中,轨迹提取器采用3D运动VAE(变分自编码器),将轨迹向量嵌入到与视频补丁(video patches)相同的潜在空间中,可以有效地保留连续帧之间的运动信息,随后使用堆叠的卷积层来提取分层运动特征。运动引...……更多
谷歌开源libdav1d编解码器,改善对av1编码视频的支持
4月20日消息,安卓系统开发经理阿里夫・迪基奇(ArifDikici)昨日证实,已经通过2024年3月发布的PlaySystem更新,改用VideoLAN的开源libdav1d编解码器,从而改善对AV1编码视频的支持。谷歌自发布安卓10系统以来,安卓开源项目(AOSP)...……更多
AI音乐创作、水墨画、3D空间重建、6DoF,腾讯多媒体实验室领先技术亮相数贸会
...联合主编、参考软件联席主席等重要席位。在MSU世界视频编码器大赛FullHD比赛中,腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一,第一总数全场最多;并在全部VVC编码器中包揽15项指标全部第一。此外Tencent2...……更多
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...远超图像数据。为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多
高通ali266实现4k120fpsvvc视频流畅播放
...息,在刚结束的国际广播电视展(IBC)上,高通展出基于阿里自研解码器Ali266的视频解码方案,在搭载了骁龙XElite的Windows11AIPC上首次实现4K120fpsVVC视频流畅播放。得益于采用Ali266的解码方案,骁龙XElite支持超低功耗、超高清、高...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
... Space)中进行生成。为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。流...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...一部分:音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器,分别得到语音和音频的编码向量序列(每1秒音频对应50个向量),同时使用InstructBLIP视觉编码器,以2 FPS的视频采样率得到视觉编码向量序列(...……更多
英国ai初创公司wayve公布gaia-1最新进展
...汽车上路时的安全性和效率。据悉,GAIA-1会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不...……更多
字节版Sora火爆24小时,同名论文再次被热议
...为训练中的图像指令。据了解,文本指令由预训练的文本编码器编码,并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码,并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中,团队使用...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...GPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...值的媒介,确定检索库是否包含相关知识。检索器和提示编码器经过联合训练,以实现知识编辑属性,即可靠性、通用性和局部性。在多个权威基座模型和编辑数据集上进行终身编辑对比实验,结果证明了RECIPE性能的优越性。 ...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要...……更多
稀疏自编码器是如何工作的,这里有一份直观说明
...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...预训练的视觉表征重要吗?该团队使用不同的预训练通用编码器作为世界模型的观察模型,并评估了它们的下游规划性能。 在涉及简单动态和控制的 PointMaze 任务中,该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
笔者参加了几届阿里云栖大会,每一届都有不同的主题。但近两届,有一个越来越明晰的主线,那就是云与AI的融合。这一届的阿里云栖大会,无论是从主题演讲还是展览设置,这种云+AI的感觉都很强。在阿里巴巴的高层中,吴...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的助推剂,而其中的一股重要力量就是来自MetaMeta在人...……更多
...新方法,Ilya 也参与:研究提出了改进大规模训练稀疏自编码器的方法,并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此,复杂语言模型的内部工作变得更加可理解。免费匿名使用 GPT 等热门大模型,DuckDuckGo AI Chat ...……更多
...石油天然气股份有限公司申请一项名为“一种基于堆栈自编码器的去除沉积背景方法及装置”的专利,公开号CN119861400A,申请日期为2023年10月。专利摘要显示,本发明公开了一种基于堆栈自编码器的去除沉积背景方法及装置。该...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...型不同的是,Pixtral选择从头开始训练了一个全新的视觉编码器。基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!从论文的测试结果来看,Pixtral 12B明显优于其他...……更多
更多关于科技的资讯:
近来,“包挂热”在年轻消费者群体中持续升温。社交平台上,有关“包挂”“包搭子”等相关话题的浏览量超过亿次。数据显示,今年上半年
2025-11-25 08:41:00
摘要:在全球市场飞速发展、竞争日趋激烈的当下,企业获得并保持核心竞争力是长远发展的动力源泉。企业的静态核心竞争力易随着技术的进步与市场的变换而失去光彩
2025-11-25 07:04:00
摘要:随着大数据技术的快速发展,传统中小企业的管理模式面临前所未有的挑战与机遇。大数据的应用使得中小企业能够通过数据分析
2025-11-25 07:04:00
外卖大战在不久前刚刚告一段落,市场就又有了新的动作:京东上线了独立App京东外卖,同时还发布了京东点评。而11月以来,也多次传出阿里的外卖平台“饿了么”要更名为淘宝闪购的消息
2025-11-25 07:22:00
在高度媒介化的社会环境中,社交媒体作为关键基础设施,其算法推荐机制催生的“信息茧房”现象日益凸显。本研究聚焦大学生群体
2025-11-25 07:04:00
猛犸世纪AI智能体训练营开课,引爆“一人公司”新范式
AI时代,企业的核心竞争力是什么?在2025年11月19日至20日于深圳南山成功举办的“猛犸AI智能体增长训练营”上,答案被清晰地指向了同一个方向
2025-11-24 14:18:00
澳柯玛多款产品获市长杯工业设计大赛金、银、铜奖
鲁网11月24日讯近日,青岛市2025年第八届“市长杯”工业设计大赛获奖名单正式公布,澳柯玛生活电器凭借卓越的设计实力
2025-11-24 14:44:00
嘉必优捷报频传,瞄定中国生物制造踏新阶
近日,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》正式发布,明确提出,推动生物制造、量子科技、氢能和核聚变能等成为新的经济增长点
2025-11-24 15:18:00
为规范大型网络平台个人信息处理活动,保护个人信息合法权益,促进平台经济健康发展,国家互联网信息办公室、公安部起草了《大型网络平台个人信息保护规定(征求意见稿)》
2025-11-24 15:29:00
为强化员工合规意识,切实保障SPACC+营销模式下老年客户的服务安全,富德生命人寿保险有限公司张家口中心支公司于11月12日至13日
2025-11-24 15:32:00
10月29日至31日,百年人寿银行保险渠道在深圳大学举办“金鹏启梦,领行新程”主题研学班。本次活动聚焦专业能力跃升与价值成长路径
2025-11-24 15:33:00
多维促消费,畅享“双十一”——邮储银行三明市分行携手商圈平台打造银客商共赢典范东南网11月24日讯 为紧抓“双十一”消费机遇
2025-11-24 15:44:00
王嘉琳女士受邀出席睿海希尔顿花园酒店开业盛典,共贺新章
日前,重庆渝北中央公园睿海希尔顿花园酒店(以下简称“睿海希尔顿花园酒店”)在渝北区中央公园片区盛大开业。作为全国首家开业的4
2025-11-24 16:30:00
11月21日,2025北京零售商品博览会在北京展览馆启幕,展会以“品质零售·融聚共生”为主题,联动生产商、品牌商、渠道商
2025-11-24 17:41:00
“这个锅的厂家还在吗?”一则寻锅视频在全网爆火,这口“用了三十年仍旧不锈不粘、耐用如初”的锅也被网友称为“传家锅”。感动之余
2025-11-24 18:26:00