阿里,商用,模型,视频,编码,编码器头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...。那么，Wan 2.1是如何实现又好又省的呢？创新3D变分自动编码器和主流的视频生成技术路线一样，Wan 2.1的主体采用了DiT（Diffusion Transformer）架构。Wan利用T5编码器对输入的多语言文本进行编码，并在每个Transformer块内加入交叉注...……更多

2025-02-26 20:05:00阿里,商用,模型,视频,编码,编码器

智谱AI版Sora开源！首个可商用，在线可玩，5小时GitH

...得说道说道。首先便是团队自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，大大减少了视频扩散生成模型的训练成本及训练难度。模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶...……更多

2024-08-07 09:31:00商用,小时,在线,视频,模型,生成

赛道正在变得拥挤腾讯混元大模型杀入文生视频让用户 “用起

...上进行了多处升级。混元视频生成模型适配了新一代文本编码器提升语义遵循，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；采用统一的全注意力机制，使得每帧视频的衔接更为流畅...……更多

2024-12-04 09:56:00文生,腾讯,赛道,模型,正在,关键

【玖越机器人】视频网站为了降本纷纷砍画质，为何只有谷歌仍在坚

...歌VCU芯片的布图规划也可以看出，大部分区域都分配给了编码器核心，其次是四通道的LPDDR4内存，不仅提供边带错误纠正，也提供芯片所需的带宽。编辑VCU芯片布图规划/ 谷歌每个VCU服务器系统由10块板卡组成，每块板卡上配有2...……更多

2023-01-14 03:00:00画质,机器人,机器,只有,视频,网站

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...过程。语义遵从：业界首个以多模态大语言模型为文本编码器的视频生成模型，天然具备超高语义理解能力，在处理多主体及属性绑定等生成领域的难点挑战时表现出色。原生镜头转换：多视角镜头切换主体保持能力，艺术...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...，大型视觉语言模型在其更大的模型中使用预训练的图像编码器，其中一些使用监督分类进行预训练（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用预训练的CLIP编码器（如BLIPv2，CrossTVR，ChatBridge，还有一些使用自定义多模态预训练...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

火爆全球的AI音频大模型，最新技术细节揭秘

...练数据的采用和部分架构上采取了调整，关键架构由自动编码器、基于T5的文本嵌入以及扩散模型（DiT）构成。论文地址：https://arxiv.org/html/2407.14358v1一、3个关键架构提供支持，免费生成44.1kHz高质量立体声短音频Stable Audio Open引...……更多

2024-07-25 09:22:00最新技术,火爆,模型,细节,音频,全球

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微

...低的离线应用提供更高性能。Gemma Scope：通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点，就是开源稀疏自编码器——Gemma Scope了。语言模型的内部，究竟发生了什么？长久以来，这个问题一直困扰着研究人员和...……更多

2024-08-02 09:55:00小钢炮,显微镜,大脑,模型,编码器,特征

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全

...资料看，腾讯混元视频生成模型还有三个亮点。1、文本编码器部分，已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器，适配的主要是上一代语言模型，如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多

2024-12-04 09:50:00腾讯,权重,推理,模型,参数,代码

主流手机首次深度支持H.266 vivo X200搭载Ali

快科技10月25日消息，近日，vivo联合阿里相关研发团队推出业内首个H.266手机软解异构优化方案，基于阿里自研解码器Ali266，在高清视频播放场景下实现功耗下降13%，解码速度提升12%。该方案已率先落地vivo X200系列旗舰手机，这...……更多

2024-10-25 11:27:00解码器,功耗,高清,深度,主流,支持

阿里发“神笔马良版Sora”，轻轻一抹让猫咪转向，20个演示

...。▲Tora整体架构其中，轨迹提取器采用3D运动VAE（变分自编码器），将轨迹向量嵌入到与视频补丁（video patches）相同的潜在空间中，可以有效地保留连续帧之间的运动信息，随后使用堆叠的卷积层来提取分层运动特征。运动引...……更多

2024-08-05 09:34:00马良,神笔,阿里,猫咪,演示,报告

谷歌开源libdav1d编解码器，改善对av1编码视频的支持

4月20日消息，安卓系统开发经理阿里夫・迪基奇（ArifDikici）昨日证实，已经通过2024年3月发布的PlaySystem更新，改用VideoLAN的开源libdav1d编解码器，从而改善对AV1编码视频的支持。谷歌自发布安卓10系统以来，安卓开源项目（AOSP）...……更多

2024-04-20 14:39:00解码器,编码,支持,视频,安卓,解码器

AI音乐创作、水墨画、3D空间重建、6DoF，腾讯多媒体实验

...联合主编、参考软件联席主席等重要席位。在MSU世界视频编码器大赛FullHD比赛中，腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一，第一总数全场最多；并在全部VVC编码器中包揽15项指标全部第一。此外Tencent2...……更多

2023-11-29 19:02:00腾讯,水墨画,水墨,实验室,创作,领先

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源

...远超图像数据。为应对此挑战，团队提出了基于3D变分自编码器（3D VAE）的视频压缩方法。其中，3D VAE通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多

2024-08-07 09:43:00画质,电影,视频,模型,生成,团队

高通ali266实现4k120fpsvvc视频流畅播放

...息，在刚结束的国际广播电视展（IBC）上，高通展出基于阿里自研解码器Ali266的视频解码方案，在搭载了骁龙XElite的Windows11AIPC上首次实现4K120fpsVVC视频流畅播放。得益于采用Ali266的解码方案，骁龙XElite支持超低功耗、超高清、高...……更多

2024-09-21 20:59:00高通,视频,视频,高清,多核,高通

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

... Space）中进行生成。为此，他们训练了一个单一的时间自编码器（TAE），用于将RGB图像和视频映射到潜在空间。然后，再使用预训练文本编码器，来编码用户提供的文本提示，并获得文本提示嵌入，这些嵌入用作模型的条件。流...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训

...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时，我们知道一个事实，使用具有重建损失（reconstruction loss）的解码器的效果远远不如具有特征预测损失（feature prediction loss）和崩溃预防机制的联合嵌入架构。这...……更多

2024-10-23 09:55:00新作,速度,训练,学习,模型,训练

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...一部分：音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器，分别得到语音和音频的编码向量序列（每1秒音频对应50个向量），同时使用InstructBLIP视觉编码器，以2 FPS的视频采样率得到视觉编码向量序列（...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

英国ai初创公司wayve公布gaia-1最新进展

...汽车上路时的安全性和效率。据悉，GAIA-1会先运用专门的编码器，将影片或文字等各种形式的输入，编码成一个共享的表示形式，进而在模型中实现统一的时序对齐和上下文理解，这种编码方法，让模型能够更好地整合和理解不...……更多

2023-10-10 11:51:00英国,进展,公司,模型,驾驶,生成

字节版Sora火爆24小时，同名论文再次被热议

...为训练中的图像指令。据了解，文本指令由预训练的文本编码器编码，并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码，并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中，团队使用...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

...GPT是一种创新的时空大型语言模型，它通过结合时空依赖编码器和指令微调技术，展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖，即使在数据稀缺的情况下也能提供准确的...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...值的媒介，确定检索库是否包含相关知识。检索器和提示编码器经过联合训练，以实现知识编辑属性，即可靠性、通用性和局部性。在多个权威基座模型和编辑数据集上进行终身编辑对比实验，结果证明了RECIPE性能的优越性。 ...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...决内容连贯性的问题，智谱自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面，智谱采用因果三维卷积（Causal 3D convolution）为主要...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

稀疏自编码器是如何工作的，这里有一份直观说明

...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面，稀疏自编码器（SAE）是一种越来越常用的工具（虽然 SAE 在 1997 年左右就已经问世了）。机器学习模型和 LLM 正变得越来越强大、越来越有用，但它们仍旧是黑箱，我们并不理解...……更多

2024-08-06 09:27:00编码器,直观,编码,工作,向量,编码器

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...预训练的视觉表征重要吗？该团队使用不同的预训练通用编码器作为世界模型的观察模型，并评估了它们的下游规划性能。在涉及简单动态和控制的 PointMaze 任务中，该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

笔者参加了几届阿里云栖大会，每一届都有不同的主题。但近两届，有一个越来越明晰的主线，那就是云与AI的融合。这一届的阿里云栖大会，无论是从主题演讲还是展览设置，这种云+AI的感觉都很强。在阿里巴巴的高层中，吴...……更多

2024-09-20 09:51:00阿里,生成,统一,语言,世界,模态

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表

...多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等，提升了AI在图像处理和语音识别领域的能力，进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的助推剂，而其中的一股重要力量就是来自MetaMeta在人...……更多

2024-11-28 12:02:00一文,大礼包,大礼,安全性,语音,图像

苹果AI登场，与OpenAI合作，Siri将采用GPT-4o

...新方法，Ilya 也参与：研究提出了改进大规模训练稀疏自编码器的方法，并成功将 GPT-4 的内部表征解构为 1600 万个可理解的特征。由此，复杂语言模型的内部工作变得更加可理解。免费匿名使用 GPT 等热门大模型，DuckDuckGo AI Chat ...……更多

2024-06-11 09:00:00情报局,独角兽,情报,芯片,进展,苹果

中国石油申请基于堆栈自编码器去除沉积背景专利，提高有效储层地

...石油天然气股份有限公司申请一项名为“一种基于堆栈自编码器的去除沉积背景方法及装置”的专利，公开号CN119861400A，申请日期为2023年10月。专利摘要显示，本发明公开了一种基于堆栈自编码器的去除沉积背景方法及装置。该...……更多

2025-04-26 16:37:00精确性,堆栈,编码器,中国,地震,编码

多模态竞技场对标90B Llama 3.2！Pixtral

...型不同的是，Pixtral选择从头开始训练了一个全新的视觉编码器。基于此，Pixtral 12B输入图片的分辨率和长宽比不受任何限制，并且在128K的上下文窗口范围内，想放多少张图片都行！从论文的测试结果来看，Pixtral 12B明显优于其他...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

page 1/1667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

2025青岛虚拟现实创新大会要来：北航青岛研究院以科创助推产

鲁网11月18日讯一副简约的框架眼镜，镜片后可能隐藏着快速滚动的信息流；一间平平无奇的房间，戴上头显后，就能摇身变为绚丽仙境……当科幻电影中的沉浸式场景逐渐成为现实

2025-11-18 15:45:00

合肥“真金白银”投科创带动社会资本投入超千亿元

大皖新闻讯 11月18日，记者从合肥市政府新闻办召开的新闻发布会获悉，近年来，合肥市围绕科技创新与产业升级需求，大胆改革科技金融政策机制

2025-11-18 15:44:00

AI赋能千行百业一线故事（十六）：数智驱动，唤醒高校“沉睡”

数智驱动，唤醒高校“沉睡”的专利——AI赋能千行百业一线故事（十六）10月24日，邯郸职业技术学院知识产权学院工作人员演示AI+专利转化运用生态服务平台

2025-11-18 08:42:00

集思录｜以规则之光照亮平台经济前行之路

市场监管总局11月15日发布《互联网平台反垄断合规指引（征求意见稿）》，向社会公开征求意见。征求意见稿坚持问题导向，针对平台经济领域竞争行为的特点和趋势

2025-11-18 08:44:00

安费诺加码投资厦门位于厦门创新创业园新工厂正式投产

厦门网讯（厦门日报记者林露虹通讯员郭文晨）美资企业安费诺加码投资厦门。近日，位于厦门创新创业园的安费诺（厦门）高速线缆有限公司新工厂正式投产

2025-11-18 09:03:00

“‘一带一路’——我们共同的路”全球故事征集活动启动扫码阅

11月18日，由天津市政府新闻办指导，津云新媒体主办的“‘一带一路’——我们共同的路”全球故事征集活动启动。活动以高质量共建“一带一路”八项行动为指引

2025-11-18 09:06:00

陈兵：“它走得太像人了”——为什么必须由车企来完成这一步？

中新经纬11月18日电题：“它走得太像人了”——为什么必须由车企来完成这一步？作者陈兵南开大学法学院副院长、教授

2025-11-18 13:00:00

OceanBase发布首款AI数据库seekdb，探索数据库

11月18日，在2025 OceanBase年度发布会上，OceanBase发布并开源了其首款AI数据库OceanBase seekdb（简称seekdb）

2025-11-18 13:21:00

全面满足用户本地生活服务需求，京东外卖App、点评、真榜、七

11月17日晚，第三场京东品酒会在三亚保利瑰丽酒店举办。活动现场，京东宣布在本地生活领域密集落地一系列举措：推出京东外卖App

2025-11-18 13:21:00

安杰莱科技闪耀高交会：以科技赋能康复公益，斩获科技创新大奖

11月14日至16日，以“科技赋能产业，融合共创未来”为主旨的第二十七届中国国际高新技术成果交易会在深圳隆重举行。作为展现我国对外开放深度与广度的重要平台

2025-11-18 11:48:00

7×24小时自主巡检，杭州萧山机场添智能驱鸟装备

在航空运输业快速发展的今天，机场安全运行始终是行业关注的重点。鸟类撞击飞机的事件虽不常见，但一旦发生，可能对飞机引擎、机身结构造成损害

2025-11-18 10:47:00

“产业炬光灯”聚焦元之道生物科技

“产业炬光灯”聚焦厦门元之道生物科技有限公司。扫码看视频厦门网讯（厦门日报记者李晓平）小小微生物，蕴藏着改变健康的大能量

2025-11-18 09:03:00

“安徽省电竞产业研究合作基地”聘任10名顾问

大皖新闻讯 2025年11月16日，安徽电竞创新发展大会在合肥举行。汇聚来自政府部门、行业协会、知名企业及高校的众多嘉宾

2025-11-17 09:24:00

邮储银行唐山市分行开展“星暖燕赵星星闪耀”星级柜员竞赛活动

为进一步提升网点服务能力与柜员专业素养，夯实业务基础，打造有温度的金融服务，近日，邮储银行唐山市分行组织开展了“星暖燕赵星星闪耀”星级柜员竞赛活动

2025-11-17 10:07:00

张家口农商银行宣泰支行以数字互动升级客户体验

张家口农商银行宣泰支行打破传统服务边界，以“线上服务提质、直播互动破圈、短视频赋能”为抓手，将便捷与温度融入数字金融场景

2025-11-17 10:11:00

头条订阅服务