团队,训练,这是,研究,语音,文本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，响应延迟低至 226ms，低于 GPT-4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型（LLM）已成为强大的通用任务解决器，但大多数 LLM 仅支持基于文本的交互，这限...……更多

2024-09-24 13:42:00团队,训练,这是,研究,语音,文本

亚马逊开发史上最大文本转语音模型

2月18日消息，亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训...……更多

2024-02-18 12:49:00开发史,亚马,亚马逊,语音,模型,文本

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

...研究领域，但现有的模型要么在仅包含语音的数据上进行训练，要么是关注特定任务，如文本转语音（TTS）、自动语音识别（ASR）或翻译，在其他模态数据和任务上的泛化能力十分有限。在大型语言模型（LLM）性能不断提升的情...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术

...VR中有更进一步的交流。近日，来自南洋理工大学的研究团队在VR中实现了第一个3D版角色扮演AI系统SOLAMI，并公开其详细的技术报告。没错，这意味着和各种角色在VR中沉浸式聊天已经是可实现的！项目主页：https://solami-ai.github.i...……更多

2024-12-10 09:53:00南洋,角色扮演,理工,模型,角色,驱动

$多个中国团队斩获EMNLP\\\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者

...起来了~接下来，具体康康获奖论文有哪些～上交大CMU等团队获最佳论文此次共有5项研究成果获得EMNLP’24最佳论文奖。1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance（图像能表达千言万语……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...进一步加强模型的语音推理能力。另一方面，本文所采用训练方案可有效迁移至任意语言大模型，通过增加少量参数及分阶段训练，在尽可能保留模型原始推理能力的同时，为模型加上「听、说」的语音交互能力。为了验证方...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

...其中Semi 赛道第一名由社交平台 Soul App 摘得，其语音技术团队凭借可行性创新技术方案拔得头筹。不过，在揭秘 Soul 团队技术方案之前，我们有必要先来了解 AI 在多种模态中的情感识别能力。人机交互下一步要让 AI 懂情感如...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表

...模拟视觉相似物体和小物体，并且通过在较长的帧序列上训练模型并对「空间」和「物体指向记忆」（object pointer memory）的位置编码进行一些调整，提高了SAM 2的遮挡处理能力（occlusion handling capability）。研究人员还开源了SAM 2开...……更多

2024-11-28 12:02:00一文,大礼包,大礼,安全性,语音,图像

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...的大模型前沿论文SwiftEdit：50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis：首个完全自主的纯视觉 GUI agentGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基准：成功率最...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...来深度学习的快速进步，用录音室环境下的干净单人语音训练模型，已经可以达到人类同等水平的质量，但零样本TTS依旧是一个有挑战性的问题。「零样本」意味着推理过程中，模型只能参照一段简短的陌生语音样本，用相同的...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

特斯拉据称已掌握视频生成能力；欧盟将就音乐流媒体对苹果罚款

...太空中收集能量。据外媒，来自美国加州理工学院的科研团队近期在这个方向上迈出了关键一步，他们成功利用轨道卫星收集到太阳能，并成功将其传输到地球。点评：这项实验为未来的太空太阳能站的建设和运营提供了重要的...……更多

2024-02-21 14:34:00特斯,流媒,特斯拉,流媒体,生成,苹果

国际最新研发一种人工智能模型能即时翻译101种语言

...了语言覆盖方面的空白，并且性能优于现有的系统。研究团队说，本项研究工作或可为快速通用翻译铺平道路，其资源公开可用(用于非商业用途)，以协助进一步研究包容性语音翻译技术。该论文介绍，科幻小说的读者可能很熟...……更多

2025-01-16 22:36:00人工智能,人工,模型,语言,智能,国际

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

...索。具体到 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，所有输入和输出都由同一神经网络处理。行业内认为，这是一种可以将音频直接映射到音频作为一级模态的技术方法，涉及 Token 化和架构等方面的研...……更多

2024-10-26 09:49:00一波,模型,国产,还是,语音,模型

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

... Faster, Stronger”为题，已发表到预印本网站 arXiv 上。研究团队认为，仅有 50 亿参数的 PaLI-3 重新点燃了关于复杂 VLM 核心组成部分的研究，可能推动新一代规模更大的模型的发展。更高分辨率的多模态学习最近，大型视觉语言...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

首个支持普通话和方言混说的TTS大模型：河南话、上海话说得溜

...Lab 的技术创新与突破为了解决上述难题，巨人网络 AI Lab 团队中的算法专家和语言学家共同努力，基于中国方言体系，构建了涵盖 20 种方言、超过 20 万小时的普通话和方言数据集。通过这一庞大的数据集，我们训练出了第一个...……更多

2024-08-14 09:38:00河南,上海,方言,普通话,模型,话说

国家科学技术进步一等奖，为何给了这家AI国家队

...分钟；“三声有幸”项目，累计服务1368万人，助力公益团队创建无障碍应用超3万个。未来：智能语音+认知大模型，用人工智能建设美好世界记者了解到，因2021年、2022年国家科学技术奖暂停的缘故，2023年度国家科学技术奖积累...……更多

2024-06-25 09:30:00国家,一等奖,国家队,科学技术,进步,科学

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...上做出大突破。与DALL・E一样，两点依旧是CLIP模型，除了训练数据庞大，CLIP基于Transformer对图像块建模，并采用对比学习训练，最终帮助DALL・E2取得了不错的生成效果。下图是DALL・E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

只用 13 天，OpenAI 做出了能听、能说、能自主决策的

...的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破，由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解，而 Figure 的神……更多

2024-03-14 19:00:00模型,决策,机器,机器人,机器,模型

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal：通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D：无需训练的「...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

Sam Altman或筹数十亿美元自造AI芯片，DeepMi

...ma2自己给自己微调，性能超越了GPT-4Meta和纽约大学的研究团队最近提出了一种创新的“自我奖励语言模型”方法，使得微调后的Llama 2-70B模型在AlpacaEval 2.0排行榜中超越了GPT-4、Claude 2和Gemini Pro等领先的大语言模型。这项研究的突...……更多

2024-01-29 09:20:00首席,科学家,芯片,创业,科学,模型

中国电信人工智能研究院发布首个支持30种方言混说的语音大模型

...是国内支持最多方言、覆盖人口最多的语音大模型；研发团队首创“蒸馏+膨胀”联合训练算法，解决超大规模多场景数据集和大规模参数条件下，预训练坍缩的问题，实现1B参数80层模型稳定训练；星辰语音大模型也是业内首个...……更多

2024-05-27 14:51:00音大,中国电信,人工智能,方言,中国,研究院