• 我的订阅
  • 头条热搜
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...加上相应的模态标记。文本数据:[TEXT]这是一个文本句子音频数据:[SPEECH][Hu262][Hu208][Hu499][Hu105]交错语音和文本(Interleaving Speech and Text)对于对齐的语音+文本数据集,通过在单词级别交错语音和文本来混合:[TEXT]th……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...来的人与 AI 交互方式。具体来说,AI 能做到接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。如今,智谱清言的「情感语音通话」又一次推动了国产 AI 对标国际先进水平。情感语音模...……更多
...官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行输出,其中“o”代表“omni全能”。一直以来,多模态人机交互便是AI领域重点研究发力方向...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...6725 代码仓库:https://github.com/gpt-omni/mini-omni针对多层级的音频编码方案,本文采用不同层级延迟并行输出的方案减小音频推理长度,有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...高达10,000,000 token的文本时,检索准确性仍然高达99.2%。在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。在视频处理方面,Gemini 1.5 Pro能够在大约3小时的视频内容中,100%成功检索...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
...同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。TTS引擎MeetVoice Pro赋能数字人在第四代数字人系统WetaAvatar 4.0中,用户提交文本后,系统将调用出门问问的TTS引擎MeetVoice Pro,该引擎基于...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...的独特之处在于:1)Align-Anything 框架支持文本、图像、音频、视频等多种模态的输入和输出对齐,这在目前开源社区中是独一无二的。它填补了现有框架仅支持单一模态或少数模态对齐的空白,为全模态大模型的对齐提供了统...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...特性,可以从三个方面理解:1.多模态。GPT-4o接受文本、音频和图像的任意组合作为输入,实时对音频、视觉和文本进行推理,生成相应的输出。相比ChatGPT的文生文、文生图,Sora的文生视频等,GPT-4o是一个原生多模态的融合体...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
...、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。结语2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效、语音内容等,也对短视频的理解起到关键作用。音视频大语言模型(av-LLMs)在近几年取得了显著进展,但语音作为视频中人类语言...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简单介绍一下趣丸科技。我们是一家成立于2014年的国家高新技术企业,可能有些朋友对我们的兴趣社交产品TT语音和TT电...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
...通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉,山海多模态大模型有如下特点:实时秒回,自...……更多
Gemini引领多模态AI热潮,产业发展有望加速
...来里程碑Gemini1.0具有原生多模态的能力,能够处理视频、音频、图像、文本、代码等多种形式的内容,且性能优于现有的“拼接型”多模态大模型。据谷歌介绍,Gemini不仅可以进行双模态之间的转换,也能处理需要进行多模态转...……更多
喜马拉雅音频大模型亮相,AI赋能内容创作者
...术企业展示AI时代云上创新的潮流科技。喜马拉雅珠峰AI音频多模态大模型亮相云栖大会,在“人工智能+”主题馆吸引众多市民驻足围观体验。AI(人工智能)已经在深刻影响着我们的生活,也影响和改变着内容创作行业。作为...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...,随着多模态学习的兴起,研究者们对结合文本、图像和音频等多种数据类型的模型产生了浓厚的兴趣。其中,多模态对比学习成为了这一领域的重要方法,如CLIP和ALIGN等模型利用对比损失训练,以增强图像和文本的相关性,进...……更多
...Qwen-72B的开源,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。开源模型Qwen-1.8B,推理2K长度文本内容仅需3G显存,可在消费级终端部署。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用...……更多
华中科技大学白翔教授发布多模态大模型
...类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构。据介绍,Monkey模型在18个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、...……更多
以假乱真,天工音乐大模型带来颠覆式AI体验
...探索方向中,“情感AGI”的重要意义。相比文本和图片,音频内容是理解人类情感最好的方式,而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体,不论时代变幻,不论是战争还是灾祸,人们总是能通过音乐传...……更多
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。OpenAI CEO奥尔特曼(Sam Altman)在博客中表示,ChatGPT免费用户也能用上新发布的GPT-4o。此外,OpenAI还与苹果走到一起,推出了适用于macOS的桌面级应用。Ope.……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...,Gemini终于揭开了面纱——展现了其文本、图像、视频、音频和代码的五大能力,一口气推出了大中小三个版本,从云上到手机、平板都可以跑。并且,Gemini还有大量的酷炫用例:AI对一段视频可以做出准确反应,AI能和你玩你...……更多
OpenAI发布GPT-4o,人工智能AIETF涨0.85%
...惊掉在场所有观众的下巴。在短短232毫秒内,GPT-4o就能对音频输入做出反应,平均为320毫秒。这个反应时间,已经达到了人类的级别!受消息面的催化,今日人工智能AIETF(515070)开盘冲高,截至发稿,人工智能AIETF(515070)涨0....……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。2月2日,万兴科技在互动平台表示,天幕大模型主要基于公司在数字创意领域二十年的产品开发...……更多
OpenAI推迟上线语音功能,GPT-5或要等到明年,大模型技术速度正在放缓
...发布会上对外展示,当时发布的新一代大模型GPT-4o集文本音频视觉于一身,支持文本、音频和图像的任意组合作为输入和输出,被OpenAI称为“迈向更自然的人机交互的一步”。根据当时公布的基准测试,GPT-4o在多语言、音频和视...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...味着它接受包括多种媒体类型的输入,组合文本、图像、音频、视频和编程代码。未来,谷歌还计划将 Gemini添加到谷歌搜索引擎和 Chrome 网络浏览器等产品中,而全球有数十亿人在使用这些产品。谷歌首席执行官皮查伊 让GPT-4...……更多
创新工场李开复:大模型领域只投资“AI-First应用”
...实现认知和决策智能的转折点。现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种模态能力打通,例如文本-图像、文本-视频等跨模态甚至全模态的综合能力...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色,但面对多模态信息时,却往往显得力不从心。...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...V不仅可以对屏幕界面进行识别和操作,也可以通过接管音频进行自主对话,以完成用户交代的任务,例如帮助我们去订餐厅、订咖啡等等。第三个方面是重构人与物理世界的连接体验,vivo利用多模态大模型,让手机成为视障人...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。这不,立刻有学者写了篇论文,...……更多
谷歌chrome地址栏整合gemini聊天机器人
...多模态,具备跨模态推理能力,包括文本,图像,视频,音频和代码。Gemini分为三个版本Ultra-三个模型版本中功能最强大,适用于高度复杂的任务Pro-适用于广泛任务的最佳模型Nano-性能最佳的模型,适用于终端设备和内存有限的...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI...……更多
更多关于科技的资讯:
副中心60年老厂区迎蝶变 打造花园式产业园
本文转自:人民网-北京频道北京绿色技术创新服务产业园效果图人民网北京12月20日电 (记者李博)北京城市副中心通惠河畔
2024-12-20 13:22:00
雷克沙ARES 6000 C26战神之翼内存上手:AMD用户建议闭眼入
雷克沙最近推出了ARES 6000 C26战神之翼内存,支持EXPO标准,专门为锐龙7000-9000系列处理器打造,并且首次将DDR5内存的EXPO时序压制在C26
2024-12-20 13:31:00
小米否认特斯拉厂长加盟 自家负责人意外走红:曾主导华为百度自动驾驶车型量产
特斯拉中国厂长加盟小米?小米回应了。最近,特斯拉一则重磅变动引发外界持续关注,特斯拉制造副总裁、中国工厂负责人宋钢离职
2024-12-20 13:31:00
黑神话开挂玩家或超千万,网友:我只是找回了本属于大圣的力量而已
8月20日,《黑神话:悟空》上线,首发3天内全球销量超过1000万份,发售后一个月内全球销量超过2000万份,屡屡打破纪录
2024-12-20 13:33:00
2024年12月20日环洋市场咨询机构出版了一份详细的、综合性的调研分析报告【全球逃生门控制模块行业总体规模、主要厂商及IPO上市调研报告
2024-12-20 13:33:00
余承东与“四界”一把手同框直播:很多车企想和华为合作,但手里没那么多资源了
出品 | 搜狐科技作者 | 张雅婷12月19日消息,在鸿蒙智行“在一起”直播中,鸿蒙智行“四界”首度同框,华为终端BG董事长余承东和赛力斯集团董事长张兴海
2024-12-20 13:54:00
小米SU7滚坠山崖 一家四口安然无恙!车主首发声:感谢雷军、小米
快科技12月20日消息,近日,来自河南的王雨(化名)和丈夫、婆婆、2岁半的女儿驾驶小米SU7 Pro去巩义市浮戏山景区游玩
2024-12-20 14:01:00
袁记云饺已被立案调查:此前有消费者吃出蚯蚓
12月20日消息,微博话题“袁记云饺已被立案调查”冲上热搜榜第一名。据媒体报道,近日北京市海淀区市场监督管理局通报,因存在食物中混有异物的问题
2024-12-20 14:01:00
提前1个月收到Intel锐炫B570:强行装上B580驱动竟然能正常用!
快科技12月20日消息,Intel已正式发布二代锐炫B580/B570显卡,其中锐炫B580已经开售,而B570则将于2025年1月16日正式开售
2024-12-20 14:01:00
外卖平台强制骑手休息引热议 专家:保证骑手的健康和生活质量
12月20日消息,近日美团平台发布通知,为保障安全,外卖平台对于跑单时长累计过长的骑手将采取强制下线。规定中要求,如果骑手跑单累计时长过长
2024-12-20 14:01:00
【大国重器 硬核沈阳】拓荆科技:稳健前行 深耕半导体设备
本文转自:人民网-辽宁频道在芯片制造行业,有一种设备和光刻机同样重要,那就是薄膜沉积设备。近年来,沈阳拓荆科技有限公司(以下简称拓荆科技)凭借PECVD
2024-12-20 14:28:00
OPPO A5 Pro抗冻实测:-24℃极限环境下运行毫无压力
随着北方冬季旅游越来越火爆,不少南方游客慕名前往,但却忽略了像手机这种智能设备是否能扛得住极端环境的问题。很多游客的日常用机一到极端环境下就会出现电池性能下降
2024-12-20 14:31:00
中环新能源董事长余竹云出席央视总台“报时中国经济2025”活动
本文转自:人民网-安徽频道2024年12月19日,由中央广播电视总台财经节目中心主办的“‘向新而行’报时中国经济2025”主题活动在北京成功举办
2024-12-20 16:57:00
小米集团天玑8000系累计出货破3000万部!将首发天玑8400
快科技12月20日消息,王腾今天晒出了联发科送出的奖牌,小米集团的天玑8000系列累计出货量已经突破3000万部。尤其当年Redmi K50系列首发了天玑8100
2024-12-20 14:31:00
极越徐继业再回应被开除:基本搞清楚这是个假诏
快科技12月20日消息,没想到极越汽车开出相关人员也能一波三折。今日一大早,极越公司通过内部邮件宣布,因公关负责人徐继业在朋友圈发表分裂员工的不当言论
2024-12-20 14:31:00