音频,模态,重磅,文本,任务,情感头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...然声音克隆稍有缺陷，毕竟HeyGen只通过40秒的视频来克隆音频，如果刻意对比原视频，情感还原度稍有欠缺。HeyGen虽然可以免费试用，但只能生成1分钟时长视频，且生成需要等待很长时间，而付费版最便宜的也要24美元/月。因此...……更多

2023-10-23 19:41:00中文,中国,地道,背后,收入,玩家

反击OpenAI，谷歌放出最强悍大模型Gemini

...同凡响的识别能力。在视频中，Gemini极为自如地在图像、音频、视频各模态之间的转换，展现了惊人的解锁应用场景与产品形态的潜力。图源：谷歌演示视频仅从谷歌释出的演示视频结果看，市面上现有的全部多模态大模型与Gem...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

谷歌大模型Gemini视频被质疑造假、夸大宣传，官方回应：演

...“拼凑多模态”模型，即从一开始就使用多种模态（例如音频、视频和图像）训练而成。因此，Gemini开辟了一条 AI 领域前所未见的道路，可能会带来重大的新突破。作为其最强的技术竞品，12月8日下午，OpenAI研发的聊天机器人Ch...……更多

2023-12-08 22:02:00剪辑,演示,模型,宣传,焦点,媒体

谷歌VideoPoet大模型上线，生成长达10秒视频，还可自

...一款搞视频生成的模型VideoPoet，不仅能支持根据视频加入音频效果，允许交互编辑，更重要的是，VideoPoet现在可以生成更长的视频了。简而言之，这次的模型看起来更加全能了。看过Demo后的网友们直接表示：好牛，所以什么时...……更多

2023-12-22 14:45:00配音,模型,视频,视频,模型,生成

Sora爆火96小时国内大模型进场

...车面临不小的难度。碾压同行2月16日，谷歌发布新一代多模态大模型Gemini 1.5 Pro，在性能上超越OpenAI的GPT-4 Turbo，堪称业界最强大模型。然而，OpenAI在同一日发布Sora大模型，风头直接盖过谷歌，仅需通过文本即可自动生成视频，...……更多

2024-02-20 05:20:00模型,小时,视频,模型,生成,文本

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

国内首个极速超拟人交互向全民开放可在星火大模型中体验

...星火极速超拟人语音的情绪感知能力，能够感知到数十种音频事件与情绪，比如喜怒哀乐、害怕、困惑等，AI会以“感同身受”的方式进行语言组织和情绪表达。而情感共鸣会结合声音和内容等不同维度，在合适的情境采用合适...……更多

2024-09-03 11:00:00中体,星火,拟人,全民,可在,模型

全面叫板OpenAI！谷歌发布多模态大模型全家桶：从AI助手

...先一天后，科技巨头谷歌不甘示弱，推出了自己的最新多模态AI（人工智能）产品。当地时间5月14日，在谷歌I/O开发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，...……更多

2024-05-15 09:54:00文生,模型,模态,全家,助手,视频

本周硅谷发生了什么？｜OpenAI推出5项更新；微软组建新的

...GenAI团队研发小模型，减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy，官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时，国内大模型也有不少进展，通义千问团队升级了视觉语言模型Qwen-VL，图片内文字处理能力得到提升。此外...……更多

2024-01-29 09:34:00文生,硅谷,微软,模型,团队,更新

大模型重塑智能硬件！人手一个智能助手的时代来了？

...验，并且在80%丢包情况，即网络较差的环境下，仍能做到音频通话流畅。为了让整个集成更加简单，声网还提供了模块化的组件。企业无需额外集成STT、TTS这些模块化的组件，就可以达到音频的端到端对话目的。除此之外要让AI...……更多

2024-11-04 09:52:00智能,人手,助手,模型,硬件,时代

矩阵起源入选IDC《RAG与向量数据库市场前景预测》报告

...平台的全面教育应用。平台可以处理学生的文本、视频和音频数据，识别学习行为与偏好，并动态生成个性化的学习路径和资源推荐，助力全面、智能化的教育服务。智能座舱一体化平台：基于MatrixOne的多模态数据处理能力，为...……更多

2024-11-29 19:41:00向量,矩阵,起源,前景,数据库,报告

arxiv研究人员：多模态ai模型存在安全隐患

...论文指出，包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-ModalitySafetyAlignment），提出了...……更多

2024-06-26 03:07:00模态,研究人员,隐患,模型,人员,安全

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...成模型 Movie Gen Video ， 300 亿参数。最大的基础视频生成音频模型 Movie Gen Audio ，130 亿参数。进一步对 Movie Gen Video 模型进行后训练获得的 Personalized Movie Gen Video，用来根据个人的面部生成个性化视频。……更多

2024-10-08 09:51:00模型,不用,奇迹,视频,视频,模型

如何提高小学生的群文阅读能力

...例如，教师可以围绕阅读主题收集一些相关的视频素材或音频资料，让学生通过视频和音频来了解阅读内容，也可以借助视频和音频创设阅读的情境。例如，在《草原》《美丽的小兴安岭》等自然景观题材的文本阅读教学时，可...……更多

2024-03-12 16:06:00群文,小学生,能力,小学,教学,群文

$GPT-4o颠覆传统教育，鸡娃的路已经被AI堵\\\$

GPT-4o颠覆传统教育，鸡娃的路已经被AI堵\"死\"了

...智能助手，可以实现多模态交互。它不仅可以处理文本、音频和图像的组合输入，而且产生这些媒介的任意组合输出。ChatGPT-4o对音频输入的响应时间更短，可以达到伪实时对话效果。比如在语言不通的两人之间充当翻译，当测...……更多

2024-06-06 13:48:00颠覆,传统,教育,孩子,知识,人工智能

openharmony4.1beta1代码发布

...布式软总线连接能力和规格进一步增强、媒体进一步增强音频/相机框架的能力、测试框架多个工具能力增强。应用框架提供Autofill自动填充框架，系统应用可以通过该框架来实现密码保险箱等功能为用户提供免密登录功能。支持...……更多

2024-01-01 09:33:00代码,支持,能力,应用,状态,接口

朱虹傅晓晖：元宇宙生态下红色文化传播的创新

...显红色文化的意象构境，从而调动多维感官体验，打造多模态话语模式下的红色文化感知场域，唤醒文化自觉；而多种穿戴式设备也可拓展红色文化传播的元信息收集渠道，扩大红色文化传播范围，优化传播效果。一、多方主体...……更多

2024-04-08 00:54:00朱虹,文化传播,宇宙,生态,红色,传播

必然的命运：AI大模型冲向“免费轮盘赌”

...情感表达让网友直呼，“她来了！”。不仅支持文、图、音频三种信息形态的输入，并且可以做超过50种语言的同声传译。甚而有网友给GPT-4o发了一张菜市场的西瓜图片，让GPT-4o帮着挑西瓜，据反馈，效果还不错。据悉，或将于...……更多

2024-05-24 13:40:00轮盘,模型,必然,命运,模型,价格

循环神经网络（RNN）：如何处理自然语言？

...处理。以下是一些常见的应用场景：语音识别：用于建模音频信号的时间序列，从而实现语音识别。语言模型：用于预测下一个词，从而实现语言模型。这在机器翻译，文本生成等任务中非常有用。机器翻译：用于编码源语言序...……更多

2024-02-17 14:00:00自然语言,神经网络,循环,神经,自然,语言

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点：统一性：OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen 可以处理经典的计...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...T-4的基准测试中，Gemini最明显的优势来自于它理解视频和音频并与之交互的能力。这很大程度上是设计使然：多模态在最开始就是Gemini计划的一部分。谷歌没有像OpenAI构建DALL·E（文生图模型）和Whisper（语音识别模型）那样单独...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

AI大模型加速迭代产业链公司获机构重点布局

...为，从Pika、Gemini1.0到Sora和Gemini1.5，支持AI视频生成的AI多模态模型不断突破，特别是Sora能够理解和模拟现实世界的模型基础，有望成为实现AGI（通用人工智能）的重要突破节点。AI视频生成等多模态模型有望在影视、动画、游戏...……更多

2024-02-19 07:17:00迭代,产业链,布局,模型,重点,机构

OpenAI跌倒，谷歌吃饱？ChatGPT宕机5小时，谷歌聊

...月，OpenAI刚发布了最新多模态大模型 GPT-4o，支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出。目前，GPT-4o已经正式上线，每位用户每天都会获得一定的使用额度。ChatGPT上次遭遇这样大规模的宕...……更多

2024-06-05 13:52:00机器人,机器,小时,搜索,搜索,用户

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...大学计算机系媒体所的二年级博士生，主要研究方向是多模态大模型与视频理解，在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文，曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术，特别是细...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

智谱AI杀入视频生成：「清影」上线，时长6秒，免费不限量

...。全自研技术All in 大模型的智谱 AI，很早就开始部署多模态生成式 AI 模型。从 2021 年开始，智谱 AI 先后发布了 CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’……更多

2024-07-27 09:27:00清影,时长,生成,视频,清影,视频

北京人工智能数据运营平台发布

...大量通用数据、行业数据，支持文本、图像、视频等多种模态，并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练，同时，4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多

2024-06-16 04:14:00人工智能,北京,人工,运营,智能,数据

解锁多模态语篇中“看”的微技能

...新增了“看”的技能。语言技能中的“看”通常指利用多模态语篇中的图形、表格、动画、符号以及视频等理解意义的技能。理解多模态语篇，除了需要使用传统的阅读技能之外，还需要观察图表中的信息，理解符号和动画的意...……更多

2023-12-27 00:39:00模态,技能,学生,技能,英语,活动