视频,杜甫,生成,模型,模型,模态头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...次利用大语言模型进行文本推理，最后利用语音合成系统生成并输出语音。然而，类似的多阶段串联系统存在一些缺陷，比如模型无法理解语音中包含的情绪及其它非文本内容信息；同时由于额外的语音识别及合成带来的时间开...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

...型。Gemini在MMLU的得分率首次超过人类专家。来源：官方视频 Gemini包括一套三种不同规模的模型：Gemini Ultra是最大、功能最强大的类别，被定位为GPT-4的竞争对手；Gemini Pro是一款中端型号，性能优于GPT-3.5，可扩展多种任务；Gemin...……更多

2023-12-07 18:27:00王者,模型,模型,视频,微软,测试

如何跑赢生成式AI竞赛？云计算大厂揭秘组合拳：自研大模型只是

...属于多模态到多模态，用户可以输入文本、语音、图像或视频等多种形式的内容，并相应地输出文本、语音、图像或视频。Vasi Philomin向我们解释说，任意到任意模型适用于变化很多的情况，比如不能确定是图像还是视频类型。...……更多

2024-12-16 09:15:00大厂,组合拳,竞赛,生成,模型,只是

北京人工智能数据运营平台发布

...台，汇聚了大量通用数据、行业数据，支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练，同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。当...……更多

2024-06-16 04:14:00人工智能,北京,人工,运营,智能,数据

WOT全球技术创新大会2024北京站：探索AI 的无限可能

...痛点问题；大模型对创新是否带来真正的改变。想建一个视频创作平台，如何应对AI算力托管、AI模型治理、推理加速等方面的挑战？如果算力被“卡脖子”了，如何能让大模型平稳部署在信创设备上？对于小型团队来说，如果...……更多

2024-05-31 18:24:00北京站,技术创新,北京,大会,全球,技术

大模型“遍地”都是，谁能真正解放生产力？

...越多的客户表示，其苦于人工标注久矣，不想再人工打标视频、图片等多模态信息。但市场现实情况是，供不应求：除了大厂以外，少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然，听到了太多客户关于...……更多

2023-11-30 14:50:00生产力,模型,解放,生产,模型,考拉

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...媒体所的二年级博士生，主要研究方向是多模态大模型与视频理解，在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文，曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术，特别是细粒度视频片段...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...绕「天工」系列大模型建起AI大模型、AI搜索、AI音乐、AI视频、AI社交、AI游戏等AI业务矩阵，是国内模型技术与工程能力最强、布局最全面的人工智能科技企业之一。这一年里，除了对「天工」系列基座大模型进行不断升级迭代...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...人员提出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

云知声推出山海多模态大模型：实时生成文本、音频和图像

...能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉，山海多模态大模型有如下特点：实时秒回，自由插话：与现实对话中人类的响应时间相...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...产业落地元年。时至今日，OpenAI在2024年初推出了文本到视频生成模型Sora，被认为是目前最好的视频生成模型，让大家看到了构建物理世界通用模型的可能路径。唐杰分析，“OpenAI极有可能在2024年推出下一代模型GPT-5，也许会有...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

实体“贾维斯” vivo发布PhoneGPT：可自动打电话定

...觉的感知和理解能力，能够对手机屏幕更深度的理解，在视频流的实时对话上也更加流畅自然。蓝心语音大模型、图像大模型和多模态大模型，综合能力都获得行业机构的高度认可，在多家专业榜单上位列第一。【本文结束】如...……更多

2024-10-10 11:42:00贾维斯,贾维,实体,餐厅,模型,模态

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

...ro、Premier四个版本的语言模型，还有图像生成模型Canvas、视频生成模型Reel。其中Reel现支持生成6秒视频，很快将会延长到2分钟。亚马逊总裁兼CEO安迪·贾西现场剧透：明年，AWS不仅将发布语音转语音模型，还有更高能的任意转任...……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

趣丸科技副总裁兼CTO谢睿：多模态智能激发应用新场景 | 新

...人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息，并与人类进行更加自然高效的交互，展现出了强大的功能和广泛的商业应用前景。多模态能力是实现通用人工智能的重要路径之一，也是趣丸科技...……更多

2024-05-24 22:22:00模态,生产力,副总,场景,大会,智能

AI拜年火了，通义千问上线一张照片生成拜年视频

...全民舞王应用也迎来上新，用户可通过一张照片生成拜年视频，用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费“拍”全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破...……更多

2024-02-05 13:37:00通义,生成,照片,视频,生成,通义

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...也不容易，因为我们需要的是多模态数据，但LLM无法直接生成图像，DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起，直接生成但文生图模型实际上很难对图像细节做到细微精...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

...源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...的场景运动建模方法，可用于通过静态图像生成无缝循环视频，还能实现与图像中对象的交互。这项研究来自谷歌，一作谷歌DeepMind研究员Zhengqi Li（李正奇）。最佳学生论文奖也一同公布。一篇BioCLIP: A Vision Foundation Model for the Tr...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

AIGC工具测评：生成式AI的产品表现如何

...工具，它们按功能可以划分为：文本生成、图像创作、音视频处理等多个类别。在这篇文章中，我们将探讨这些工具的表现，通过实际体验和评估，为读者提供一个关于当前AI工具的全面视角。一、ChatGPT-4所属公司：OpenAI 发布时...……更多

2024-03-25 13:00:00生成,工具,产品,用户,界面,通义

又一生成式AI助手将“登机”！谷歌发布多模态Bard助理，交

...lassification）——深度学习表明，人类可训练AI，对图像、视频、音频、语言等输入数据分类。目前人类正处于第二波浪潮“生成式AI”中，即“输入数据并生成新数据”。而未来的第三波浪潮将属于“交互式AI”，“对话才是未...……更多

2023-10-07 16:38:00模态,交互式,助理,助手,一生,时代

阿里发“神笔马良版Sora”，轻轻一抹让猫咪转向，20个演示

AI视频生成赛道风起云涌，国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下，当下的视频生成模型各方面已经接近“以假乱真”的效果。但与此同时，大部分视频生成模型的准确程度、遵循指令的能力还...……更多

2024-08-05 09:34:00马良,神笔,阿里,猫咪,演示,报告

以假乱真，天工音乐大模型带来颠覆式AI体验

...0秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。「天工SkyMusic」具有以下五大特点：1. ...……更多

2024-04-03 11:35:00天工,颠覆,模型,体验,音乐,天工

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...件的交互方式。未来，AI PC可以直接基于电脑上的照片和视频，直接剪辑生成内容。它也可以作为工作助手，写文档或者提炼总结要点。Meta公布2023年第三季度财报10月25日，Meta公布截至9月30日的2023财年第三财季业绩，第三财季...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

喜马拉雅音频大模型亮相，AI赋能内容创作者

...雅在云栖大会展示了“珠峰AI创作服务平台”：珠峰AI音视频创作平台，依托通义文本大模型对文本内容语义的深度理解，打造珠峰AI音频大模型，结合喜马拉雅独有的全品类音色库和数字人大模型，为创作者提供高品质的AIGC音...……更多

2024-09-21 09:50:00喜马拉雅,创作者,模型,创作,音频,内容

AI角色创作平台「捏Ta」完成超千万元融资

...以来，捏Ta的社交媒体曝光量已达到约2.5亿次，多次位列视频号动漫游戏日榜前十。捏Ta在社交媒体上的曝光。图源：看见概念捏Ta团队认为，AIGC技术的发展对图像生产带来的最大改变是，生产资料从原有的像素或图层，变成了...……更多

2024-04-08 17:50:00融资,角色,创作,平台,角色,创作

努力开辟数字经济发展新赛道

...提升数据精细化标注水平，积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设，不断提升智能算力综合供给水平；稳步推进公共算力服务平...……更多

2024-03-20 05:57:00赛道,经济发展,数字,发展,经济,数据

我国自研视频大模型面向全球上线

输入文字描述或上传图片，就能生成一段逼真视频。近日，我国自主研发的通用视频大模型Vidu（www.vidu.studio）面向全球正式上线。据悉，这款视频大模型开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分...……更多

2024-08-02 03:11:00模型,我国,全球,视频,生成,视频

依图科技“天问”大模型赋能安防，智慧应急跨越式发展

...始研究以Transformer为基础的大模型，并成功将图像感知、视频感知与大模型结合，推动了AI安防技术的跨越式发展。安防行业，作为社会稳定和公共安全的重要保障，一直是科技创新的先行者。随着AI技术的不断进步，安防行...……更多

2024-05-22 15:00:00天问,安防,应急,模型,智慧,发展

下载次数破39万！CMU、Meta联合发布VQAScore文

...等模型能够根据自然语言提示词生成美观且逼真的图像和视频，广受用户喜爱。然而，这些模型在处理复杂的提示词时仍存在不足。例如，当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时，模型可能会错误...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术

...mi-ai.github.io/技术报告：https://arxiv.org/abs/2412.00174完整介绍视频：https://www.bilibili.com/video/BV1D6zpYHEyc/ 从技术报告中我们可以看到，SOLAMI支持多种角色，有超级英雄蝙蝠侠，小可爱机器人……更多

2024-12-10 09:53:00南洋,角色扮演,理工,模型,角色,驱动