音频,模态,重磅,文本,任务,情感头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

...加上相应的模态标记。文本数据：[TEXT]这是一个文本句子音频数据：[SPEECH][Hu262][Hu208][Hu499][Hu105]交错语音和文本（Interleaving Speech and Text）对于对齐的语音+文本数据集，通过在单词级别交错语音和文本来混合：[TEXT]th……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...来的人与 AI 交互方式。具体来说，AI 能做到接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。如今，智谱清言的「情感语音通话」又一次推动了国产 AI 对标国际先进水平。情感语音模...……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

财经观察：提升人机交互效率多模态大模型易用性进一步推进

...官米拉·穆拉蒂（Mira Murati）介绍，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合进行输出，其中“o”代表“omni全能”。一直以来，多模态人机交互便是AI领域重点研究发力方向...……更多

2024-05-14 13:59:00进一,模态,易用,易用性,人机,模型

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...6725 代码仓库：https://github.com/gpt-omni/mini-omni针对多层级的音频编码方案，本文采用不同层级延迟并行输出的方案减小音频推理长度，有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

GPT-4劲敌，谷歌进入高能+高产模式

...高达10,000,000 token的文本时，检索准确性仍然高达99.2%。在音频处理方面，Gemini 1.5 Pro能够在大约11小时的音频资料中，100%成功检索到各种隐藏的音频片段。在视频处理方面，Gemini 1.5 Pro能够在大约3小时的视频内容中，100%成功检索...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

出门问问重磅发布全新2.5D数字人系统 WetaAvatar

...同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频，数值越高越好。TTS引擎MeetVoice Pro赋能数字人在第四代数字人系统WetaAvatar 4.0中，用户提交文本后，系统将调用出门问问的TTS引擎MeetVoice Pro，该引擎基于...……更多

2024-04-09 14:00:00重磅,全新,数字,系统,数字,系统

全模态对齐框架align-anything来啦：实现跨模态指

...的独特之处在于：1）Align-Anything 框架支持文本、图像、音频、视频等多种模态的输入和输出对齐，这在目前开源社区中是独一无二的。它填补了现有框架仅支持单一模态或少数模态对齐的空白，为全模态大模型的对齐提供了统...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

...特性，可以从三个方面理解：1.多模态。GPT-4o接受文本、音频和图像的任意组合作为输入，实时对音频、视觉和文本进行推理，生成相应的输出。相比ChatGPT的文生文、文生图，Sora的文生视频等，GPT-4o是一个原生多模态的融合体...……更多

2024-05-19 16:32:00全能,模型,只有,世界,模态,模型

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

...、语音和视觉多模态，在与社交紧密关联的文字、图片、音频和视频场景齐发力，让用户在立体、多感官的人机互动中体验有温度的 AI。结语2024 年被很多圈内人士称为 AIGC 应用元年，大家关注的焦点不再只是拼参数和基础能力...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效、语音内容等，也对短视频的理解起到关键作用。音视频大语言模型（av-LLMs）在近几年取得了显著进展，但语音作为视频中人类语言...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

趣丸科技副总裁兼CTO谢睿：多模态智能激发应用新场景 | 新

...趣丸科技在人工智能方面的最新探索成果，以及赋能智能音频和数字安全方面的一些思考。首先，请允许我简单介绍一下趣丸科技。我们是一家成立于2014年的国家高新技术企业，可能有些朋友对我们的兴趣社交产品TT语音和TT电...……更多

2024-05-24 22:22:00模态,生产力,副总,场景,大会,智能

云知声推出山海多模态大模型：实时生成文本、音频和图像

...通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉，山海多模态大模型有如下特点：实时秒回，自...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

Gemini引领多模态AI热潮，产业发展有望加速

...来里程碑Gemini1.0具有原生多模态的能力，能够处理视频、音频、图像、文本、代码等多种形式的内容，且性能优于现有的“拼接型”多模态大模型。据谷歌介绍，Gemini不仅可以进行双模态之间的转换，也能处理需要进行多模态转...……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态

喜马拉雅音频大模型亮相，AI赋能内容创作者

...术企业展示AI时代云上创新的潮流科技。喜马拉雅珠峰AI音频多模态大模型亮相云栖大会，在“人工智能+”主题馆吸引众多市民驻足围观体验。AI（人工智能）已经在深刻影响着我们的生活，也影响和改变着内容创作行业。作为...……更多

2024-09-21 09:50:00喜马拉雅,创作者,模型,创作,音频,内容

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...Qwen-72B的开源，通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。开源模型Qwen-1.8B，推理2K长度文本内容仅需3G显存，可在消费级终端部署。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

Google推出全新人工智能模型Gemini 2.0 用途更

...emini 2.0 Flash，该公司称其除文本外，还能原生生成图像和音频。 2.0 Flash 还可以调用第三方应用程序和服务，使其能够接入 Google 搜索、执行代码等。2.0 Flash 的实验版本将从今天开始通过 Gemini API 和 Google 的人工智能开发者平台AI...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...，随着多模态学习的兴起，研究者们对结合文本、图像和音频等多种数据类型的模型产生了浓厚的兴趣。其中，多模态对比学习成为了这一领域的重要方法，如CLIP和ALIGN等模型利用对比损失训练，以增强图像和文本的相关性，进...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...模型在混合训练后，各个功能会相互掣肘甚至降智，比如音频理解能力提升，文字理解能力反而降低了。但Qwen3-Omni在实现强劲音频与音视频能力的同时，单模态文本与图像性能均保持稳定，这是业内首次实现这一训练效果。通...……更多

2025-09-24 13:30:00一文,阿里,重磅,体系,大会,升级

华中科技大学白翔教授发布多模态大模型

...类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构。据介绍，Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、...……更多

2023-12-15 01:14:00华中科技大学,华中,模态,模型,教授,大学

以假乱真，天工音乐大模型带来颠覆式AI体验

...探索方向中，“情感AGI”的重要意义。相比文本和图片，音频内容是理解人类情感最好的方式，而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体，不论时代变幻，不论是战争还是灾祸，人们总是能通过音乐传...……更多

2024-04-03 11:35:00天工,颠覆,模型,体验,音乐,天工

记者实测|速度更快成本更低，人机交互更自然，OpenAI新模

...型GPT-4 Turbo的两倍，但成本仅为GPT-4 Turbo的一半，视频、音频功能得到改善。OpenAI CEO奥尔特曼（Sam Altman）在博客中表示，ChatGPT免费用户也能用上新发布的GPT-4o。此外，OpenAI还与苹果走到一起，推出了适用于macOS的桌面级应用。Ope.……更多

2024-05-14 14:39:00实测,人机,更快,模型,成本,速度