阿里,商用,模型,视频,编码,编码器头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...。那么，Wan 2.1是如何实现又好又省的呢？创新3D变分自动编码器和主流的视频生成技术路线一样，Wan 2.1的主体采用了DiT（Diffusion Transformer）架构。Wan利用T5编码器对输入的多语言文本进行编码，并在每个Transformer块内加入交叉注...……更多

2025-02-26 20:05:00阿里,商用,模型,视频,编码,编码器

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitH

...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶...……更多

2024-08-07 09:31:00商用,小时,在线,视频,模型,生成

赛道正在变得拥挤腾讯混元大模型杀入文生视频让用户 “用起

...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅...……更多

2024-12-04 09:56:00文生,腾讯,赛道,模型,正在,关键

【玖越机器人】视频网站为了降本纷纷砍画质，为何只有谷歌仍在坚

...歌VCU芯片的布图规划也可以看出，大部分区域都分配给了编码器核心，其次是四通道的LPDDR4内存，不仅提供边带错误纠正，也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每个VCU服务器系统由10块板卡组成，每块板卡上配有2...……更多

2023-01-14 03:00:00画质,机器人,机器,只有,视频,网站

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...过程。语义遵从：业界首个以多模态大语言模型为文本编码器的视频生成模型，天然具备超高语义理解能力，在处理多主体及属性绑定等生成领域的难点挑战时表现出色。原生镜头转换：多视角镜头切换主体保持能力，艺术...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...，大型视觉语言模型在其更大的模型中使用预训练的图像编码器，其中一些使用监督分类进行预训练（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用预训练的CLIP编码器（如BLIPv2，CrossTVR，ChatBridge，还有一些使用自定义多模态预训练...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

火爆全球的AI音频大模型，最新技术细节揭秘

...练数据的采用和部分架构上采取了调整，关键架构由自动编码器、基于T5的文本嵌入以及扩散模型（DiT）构成。论文地址：https://arxiv.org/html/2407.14358v1一、3个关键架构提供支持，免费生成44.1kHz高质量立体声短音频Stable Audio Open引...……更多

2024-07-25 09:22:00最新技术,火爆,模型,细节,音频,全球

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微

...低的离线应用提供更高性能。Gemma Scope：通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点，就是开源稀疏自编码器——Gemma Scope了。语言模型的内部，究竟发生了什么？长久以来，这个问题一直困扰着研究人员和...……更多

2024-08-02 09:55:00小钢炮,显微镜,大脑,模型,编码器,特征

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全

...资料看，腾讯混元视频生成模型还有三个亮点。1、文本编码器部分，已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器，适配的主要是上一代语言模型，如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多

2024-12-04 09:50:00腾讯,权重,推理,模型,参数,代码

主流手机首次深度支持H.266 vivo X200搭载Ali

快科技10月25日消息，近日，vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案，基于阿里自研解码器Ali266，在高清视频播放场景下实现功耗下降13%，解码速度提升12%。该方案已率先落地vivo X200系列旗舰手机，这...……更多

2024-10-25 11:27:00解码器,功耗,高清,深度,主流,支持

阿里发“神笔马良版Sora”，轻轻一抹让猫咪转向，20个演示

...。▲Tora整体架构其中，轨迹提取器采用3D运动VAE（变分自编码器），将轨迹向量嵌入到与视频补丁（video patches）相同的潜在空间中，可以有效地保留连续帧之间的运动信息，随后使用堆叠的卷积层来提取分层运动特征。运动引...……更多

2024-08-05 09:34:00马良,神笔,阿里,猫咪,演示,报告

谷歌开源libdav1d编解码器，改善对av1编码视频的支持

4月20日消息，安卓系统开发经理阿里夫・迪基奇（ArifDikici）昨日证实，已经通过2024年3月发布的PlaySystem更新，改用VideoLAN的开源libdav1d编解码器，从而改善对AV1编码视频的支持。谷歌自发布安卓10系统以来，安卓开源项目（AOSP）...……更多

2024-04-20 14:39:00解码器,编码,支持,视频,安卓,解码器

AI音乐创作、水墨画、3D空间重建、6DoF，腾讯多媒体实验

...联合主编、参考软件联席主席等重要席位。在MSU世界视频编码器大赛FullHD比赛中，腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一，第一总数全场最多；并在全部VVC编码器中包揽15项指标全部第一。此外Tencent2...……更多

2023-11-29 19:02:00腾讯,水墨画,水墨,实验室,创作,领先

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源

...远超图像数据。为应对此挑战，团队提出了基于3D变分自编码器（3D VAE）的视频压缩方法。其中，3D VAE通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多

2024-08-07 09:43:00画质,电影,视频,模型,生成,团队

高通ali266实现4k120fpsvvc视频流畅播放

...息，在刚结束的国际广播电视展（IBC）上，高通展出基于阿里自研解码器Ali266的视频解码方案，在搭载了骁龙XElite的Windows11AIPC上首次实现4K120fpsVVC视频流畅播放。得益于采用Ali266的解码方案，骁龙XElite支持超低功耗、超高清、高...……更多

2024-09-21 20:59:00高通,视频,视频,高清,多核,高通

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

... Space）中进行生成。为此，他们训练了一个单一的时间自编码器（TAE），用于将RGB图像和视频映射到潜在空间。然后，再使用预训练文本编码器，来编码用户提供的文本提示，并获得文本提示嵌入，这些嵌入用作模型的条件。流...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训

...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时，我们知道一个事实，使用具有重建损失（reconstruction loss）的解码器的效果远远不如具有特征预测损失（feature prediction loss）和崩溃预防机制的联合嵌入架构。这...……更多

2024-10-23 09:55:00新作,速度,训练,学习,模型,训练

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...一部分：音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器，分别得到语音和音频的编码向量序列（每1秒音频对应50个向量），同时使用InstructBLIP视觉编码器，以2 FPS的视频采样率得到视觉编码向量序列（...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

英国ai初创公司wayve公布gaia-1最新进展

...汽车上路时的安全性和效率。据悉，GAIA-1会先运用专门的编码器，将影片或文字等各种形式的输入，编码成一个共享的表示形式，进而在模型中实现统一的时序对齐和上下文理解，这种编码方法，让模型能够更好地整合和理解不...……更多

2023-10-10 11:51:00英国,进展,公司,模型,驾驶,生成

字节版Sora火爆24小时，同名论文再次被热议

...为训练中的图像指令。据了解，文本指令由预训练的文本编码器编码，并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码，并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中，团队使用...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...GPT是一种创新的时空大型语言模型，它通过结合时空依赖编码器和指令微调技术，展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖，即使在数据稀缺的情况下也能提供准确的...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...值的媒介，确定检索库是否包含相关知识。检索器和提示编码器经过联合训练，以实现知识编辑属性，即可靠性、通用性和局部性。在多个权威基座模型和编辑数据集上进行终身编辑对比实验，结果证明了RECIPE性能的优越性。 ...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...决内容连贯性的问题，智谱自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面，智谱采用因果三维卷积（Causal 3D convolution）为主要...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

稀疏自编码器是如何工作的，这里有一份直观说明

...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面，稀疏自编码器（SAE）是一种越来越常用的工具（虽然 SAE 在 1997 年左右就已经问世了）。机器学习模型和 LLM 正变得越来越强大、越来越有用，但它们仍旧是黑箱，我们并不理解...……更多

2024-08-06 09:27:00编码器,直观,编码,工作,向量,编码器

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...预训练的视觉表征重要吗？该团队使用不同的预训练通用编码器作为世界模型的观察模型，并评估了它们的下游规划性能。在涉及简单动态和控制的 PointMaze 任务中，该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

笔者参加了几届阿里云栖大会，每一届都有不同的主题。但近两届，有一个越来越明晰的主线，那就是云与AI的融合。这一届的阿里云栖大会，无论是从主题演讲还是展览设置，这种云+AI的感觉都很强。在阿里巴巴的高层中，吴...……更多

2024-09-20 09:51:00阿里,生成,统一,语言,世界,模态

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表

...多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等，提升了AI在图像处理和语音识别领域的能力，进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的助推剂，而其中的一股重要力量就是来自MetaMeta在人...……更多

2024-11-28 12:02:00一文,大礼包,大礼,安全性,语音,图像

苹果AI登场，与OpenAI合作，Siri将采用GPT-4o

...新方法，Ilya 也参与：研究提出了改进大规模训练稀疏自编码器的方法，并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此，复杂语言模型的内部工作变得更加可理解。免费匿名使用 GPT 等热门大模型，DuckDuckGo AI Chat ...……更多

2024-06-11 09:00:00情报局,独角兽,情报,芯片,进展,苹果

中国石油申请基于堆栈自编码器去除沉积背景专利，提高有效储层地

...石油天然气股份有限公司申请一项名为“一种基于堆栈自编码器的去除沉积背景方法及装置”的专利，公开号CN119861400A，申请日期为2023年10月。专利摘要显示，本发明公开了一种基于堆栈自编码器的去除沉积背景方法及装置。该...……更多

2025-04-26 16:37:00精确性,堆栈,编码器,中国,地震,编码

多模态竞技场对标90B Llama 3.2！Pixtral

...型不同的是，Pixtral选择从头开始训练了一个全新的视觉编码器。基于此，Pixtral 12B输入图片的分辨率和长宽比不受任何限制，并且在128K的上下文窗口范围内，想放多少张图片都行！从论文的测试结果来看，Pixtral 12B明显优于其他...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

page 1/1667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

官方：鼓励小、散、低效的存量算力设施向集约化、高效率转变

中新经纬10月31日电国家发展改革委政策研究室副主任、新闻发言人李超表示，鼓励小、散、低效的存量算力设施向集约化、高效率转变

2025-10-31 13:34:00

企业选型终极指南：基于预算与行业，中国GEO服务商推荐（附T

在AI重构流量分配规则的2025年，生成式AI搜索优化（GEO）已成为企业不可或缺的战略投入。然而，面对市场上众多的GEO服务商

2025-10-31 11:00:00

增压好的热水器推荐：万和多款热水器待你选择

在城镇化加速与高层住宅普及的当下，老旧小区管道老化、高层建筑水压衰减等问题愈发突出，不少家庭正遭受 “细流澡”“忽冷忽热” 的沐浴困扰

2025-10-30 08:16:00

创新，是让世界重新认识中国制造

“创新”，这个词我们每天都在说。要让世界记住中国制造的创新，一定是要让人们能看得见、记得住、感受到。我给大家分享几个小故事

2025-10-30 08:35:00

团石家庄市委启动青年创业训练营百名青年开启小店创业之旅

河北日报讯（记者孙青）为激发青年创业活力，点燃青年创业梦想，日前，团石家庄市委正式启动“青年创业训练营——青年小店孵化计划”

2025-10-30 08:36:00

文化快评丨莫让文创“李鬼”伤了原创的心

当故宫的红墙金瓦凝缩成书签的精致纹路，当敦煌的飞天壁画跃然咖啡杯的杯身，博物馆中的千年文明正通过文创产品打开新的传承通道

2025-10-30 08:44:00

校宝智慧校园发布招生智能化解决方案，为民办教育注入增长新动能

2025年10月29日，校宝智慧校园正式推出面向民办、国际化学校的招生智能化解决方案，包含流量获取、线索转化、组织建设与数据决策四大核心板块

2025-10-30 09:10:00

Soul App开源播客语音合成模型SoulX-Podcas

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人

2025-10-30 09:10:00

中宏保险发布2025年第三季度个险理赔服务报告

服务效能持续提升中老年多元化保障需求凸显近日，中宏保险正式发布了《2025年第三季度中宏保险个险理赔服务报告》（以下简称"报告"）

2025-10-30 09:10:00

AI+人工双核验：深瞳查重如何以精准核查守护科研诚信

在科研诚信日益重要的今天，图片查重已成为维护科研诚信的关键环节手段。作为国内首家推出图片查重服务的深瞳查重，深瞳查重始终将结果的准确性和可靠性放在首位

2025-10-30 09:10:00

德明利亮相安博会，推出面向智能安防的多维度存储解决方案

10月28日，深圳CPSE安博会在福田会展中心顺利开幕，展会聚焦AI与大数据的智能安防创新。德明利携工业级存储产品及多维矩阵方案亮相

2025-10-30 09:10:00

碧欧宝亮相2025德国品牌周，于外滩百年地标演绎德式健康美学

2025年10月23日，由德国工商总会主办的“Discover Germany 德国品牌周”在外滩百年地标老市府隆重启幕

2025-10-30 10:10:00

留学常用APP与交友软件推荐：学习、生活、社交一站式搞定

即将远赴海外求学，除了收拾行囊，在手机里提前装好实用的留学APP，也成了许多准留学生的必备功课。面对应用商店里海量的留学常用APP选择

2025-10-30 10:56:00

工商银行联合腾讯云发布《中国金融生成式AI多模态内容鉴伪与安

随着生成式人工智能浪潮全面兴起，金融行业在加速迈向“AI原生”时代的同时，也面临多模态深度伪造内容带来的新型安全挑战。利用生成式AI合成的语音

2025-10-30 12:08:00

片仔癀黄芩多肽洗护新品亮相漳州，以东方智慧开启舒缓新“净”界

10月23日，东方新国妆代表品牌——片仔癀化妆品，在品牌发源地漳州隆重举办黄芩多肽系列新品发布会。活动以“亮剑·向新而生”为主题

2025-10-30 12:11:00

头条订阅服务