• 我的订阅
  • 头条热搜
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。2024 年 5 月,OpenAI 推出了全新的多模...……更多
字节跳动推出对话式ai实时交互解决方案
...日宣布推出对话式AI实时交互解决方案,搭载火山方舟大模型服务平台。该方案通过火山引擎RTC实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过...……更多
标贝科技GPT语音助手测评:看语音大模型如何重塑语音交互体验
...步,语音助手已经融入了我们生活的方方面面。同时在大模型落地千行百业的大潮之下,语音助手也快速卷入AI革命的浪潮中。GPT大模型作为一种强大的语言生成模型,通过语言理解、生成能力和上下文记忆能力,不断地自我完...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...EglhJA与此同时,智谱还重磅宣布,该功能背后的情感语音模型 GLM-4-Voice 同步正式开源。不久后,相关能力还将上线视频通话,为所有用户提供一个既能「看」又能「说」的 AI 语音助理。开源地址:https://github.com/THUDM/GLM-4-Voice自...……更多
OpenAI推迟上线语音功能,GPT-5或要等到明年,大模型技术速度正在放缓
出品 | 搜狐科技作者 | 梁昌均大模型技术进展肉眼可见地放缓了,OpenAI此前说好的语音功能也鸽了。OpenAI针对此前展示的高级语音功能发布最新进展称,原计划在六月底开始向少部分ChatGPT Plus用户推出alpha版本,但需要再花一个...……更多
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
...布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。GPT-4o的“o”代表“omni”,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和...……更多
语音能力再突破!讯飞星火语音大模型即将发布
...人机交互将迎来新的发展阶段。1月30日,讯飞星火认知大模型V3.5升级发布会即将举行,会上将同步发布讯飞星火语音大模型, 此外还将发布开源大模型等。2023年5月6日,科大讯飞正式发布了讯飞星火认知大模型,可以基于自然...……更多
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
4月26日,讯飞星火大模型V3.5(以下简称“讯飞星火”)春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,不仅能够把各种信息来源的海量文本、图文资料、会议录音等进行...……更多
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩
...进行沉浸式互动。该系统利用先进的社交视觉-语言-行为模型,结合合成的数据集,提供更自然的交流体验,超越了传统的文本和语音交互。世界上第一个VR端 3D版的角色扮演AI就在刚刚诞生了!AI角色扮演类游戏(如C.AI、Talkie)...……更多
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...4o 的平均音频响应延迟 320ms。以 ChatGPT 为代表的大型语言模型(LLM)已成为强大的通用任务解决器,但大多数 LLM 仅支持基于文本的交互,这限制了它们在不适合文本输入输出的场景中的应用。GPT-4o 的出现使得通过语音与 LLM 进...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
...利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。自...……更多
全面透视豆包:功能、版本、价格、优势、应用
...率与竞争力。一、豆包介绍豆包是字节跳动公司基于云雀模型开发的 AI 工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页、客户端、APP、插件等形式。...……更多
《崩坏:星穹铁道》1.4版本内容介绍
...器及特效、角色「开拓者(存护•火)」的武器、NPC信使模型中,钻石材质有误的问题。 ● 修复了角色「素裳(巡猎•物理)」在转身时胸前流苏显示异常的问题。● 修复了特定战斗场景中,角色「三月七(存护•冰)」施...……更多
讯飞版「Her」横空出世全民开放!百变人设逼真丝滑,情绪价值逆天
...么接不上来,要么就开始「已读乱回」。但这次的小星,模型响应的快速和流畅度让人眼前一亮。即使随时打断、插话,小星依旧能做到秒回,这个快速反应能力,让我们的观感仿佛真人一般。比如,我们拿前段时间的全球大热...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta...……更多
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断
...无限游戏。有意思的是,就算你大开脑洞,胡乱游戏,大模型 AI 也能帮你把故事圆起来,让这个游戏无限地继续下去。你甚至可以召唤郭德纲来战斗视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&i……更多
谷歌AI播客刚火,Meta就开源了平替,效果一言难尽
随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。上个月,谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新,允许用户生成 YouTube 视频和音频文件的摘要,甚至可以...……更多
汉王语音王 App 发布:支持 AI 语音记录、对话翻译、同声传译
...息如下:据介绍,汉王语音王基于汉王自研多模态天地大模型研发,集成 AI 语音记录、智能翻译与同声传译等技术,支持 AI 精准转写、拍录同步(自动裁边)、话稿整理、智能总结及不间断实时翻译等功能。 AI 语音记录AI 语...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
...家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小...……更多
抢先OpenAI!Hume AI发布第二代情感智能AI,支持自定义语音,在线可玩
...提升,还支持自定义语音EVI 2集成了一个先进的语音生成模型和情感大型语言模型(eLLM),能够处理和生成文本及音频。这种多模态方法使得EVI 2生成的语音听起来更自然,语调更恰当,表现力更高,输出更连续。此外,在同一...……更多
CybotStar——大模型一站式应用开发平台
大模型在垂直产业正朝着不同的方向奋力进发。据研究机构调研指出:有四分之三的受访CEO认为,部署先进的生成式人工智能将为企业带来竞争优势。但一直以来,大模型落地产业似乎总是有些“水土不服”。直面大模型产业...……更多
喜马拉雅珠峰语音生成技术实现5秒极速克隆,亮相云栖大会
...新的自研语音技术成果,包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互系统,为参会者展示AIGC与文娱音频产业深度融合的最新成果。据了解,喜马拉雅珠峰语音生成式大模型是喜马拉雅的一项创新性技术,具备快...……更多
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
...识别他的法语口音。他说:“考虑到目前大多数语音识别模型主要在英语音频数据上训练,存在固有的偏见,Gladia优先构建了第一个真正多语言的实时产品。”此外,Gladia引擎的特别之处在于能够即时从对话中提取信息,如来电...……更多
科大讯飞多语种技术,提供超1亿分钟公益服务
...冠军及7个语种非受限赛道冠军;2024年,讯飞星火语音大模型的首批37个主流语种的语音识别效果超过OpenAI最新语音大模型Whisper V3。 星火语音大模型首批覆盖语种中,24个主要语种识别率达到了90%(已超过实用门槛);13个重点...……更多
“寡姐”斯嘉丽·约翰逊怒怼OpenAI山寨其声音:连我的朋友都分辨不出来
...,强调所有配音均来自专业演员。此前,OpenAI推出新旗舰模型GPT-4o,该模型在保留了之前的五种语音模式的基础上,大大提升了图像和音频理解方面的能力,能够进行实时语音通信,可以识别音调、说话的人和背景噪音,甚至可...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...发者大会于10月10日在广东深圳正式召开,vivo发布自研大模型——全新蓝心大模型矩阵,为用户和开发者带来诸多惊喜。在同日举办的人工智能会场上,vivoAI团队分享了在AI领域取得的最新成果,以前沿解决方案引领大模型创新...……更多
能“听懂”用户情绪的对话机器人,已成为营销获客新的“技术红利”
...活实验室在春节前做的一次暖心实验,依托京东云言犀大模型和言犀智能外呼产品,帮助那些害怕回家的人拨开云雾,看到那些心结背后的真实答案。教机器说话像真人,言犀用了什么“魔法”智能外呼拨出的电话,不仅能听懂...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本...……更多
讯飞星火v4.0将于6月27日发布
6月11日消息,科大讯飞今年3月推出了讯飞星火大模型V3.5,而讯飞星火V4.0将于今年6月27日正式发布。科大讯飞董事长刘庆峰在公司成立25周年司庆活动上透露,讯飞星火V4.0发布时将展示最新的端到端智能语音落地成果,同时公...……更多
ChatGPT该给语音助手们补补“智商”了
...,同时在此基础上还将打造针对智能设备场景的人工智能模型「小度灵机」并应用到小度全系产品。而据小度官方数据,搭载小度的智能设备已经进入了4000万户家庭。当然,按照百度此前的规划,文心一言要在本月才上线测试...……更多
更多关于科技的资讯:
特斯拉焕新版Model Y细节曝光:新增前保险杠摄像头 支持自清洁
快科技1月12日消息,日前,特斯拉在中国及澳大利亚市场推出了焕新版Model Y。新车型不仅在外观设计上进行了更新,还升级了内饰配置
2025-01-12 16:22:00
何小鹏亲自官宣:小鹏X键自定义“Say Hi”功能下季度回归
快科技1月12日消息,1月12日,小鹏汽车董事长何小鹏在易车平台转发了用户因天玑新版本取消了X键自定义“Say Hi”功能而选择不升级车机系统的情况
2025-01-12 16:52:00
快科技1月12日消息,据媒体报道,近日,云南红河一位脑瘫小伙的励志故事登上了热搜。这位小伙因出生时缺氧导致脑瘫,但他通过戴脑起搏器坚持健身六年
2025-01-12 16:52:00
雷蛇推出掌机扩展坞:带可调节支架、支持RGB灯效
快科技1月12日消息,雷蛇针对掌机用户推出了一款新的产品:Razer 雷蛇掌机拓展坞幻彩版。据悉,这款扩展坞也支持平板电脑
2025-01-12 16:52:00
小鹏汽车回应G9被盗事件:已排除数字钥匙被破解可能
快科技1月12日消息,小鹏汽车品牌公关负责人@XP-阿莱克氏Alex今日在微博回应湖北一位G9车主车辆被拉门盗窃事件。据悉
2025-01-12 17:52:00
市场大逆转!Puget:AMD CPU份额突破55% 三年来首超Intel
快科技1月12日消息,根据Puget Systems的最统计数据,AMD处理器在2024年第四季度的总订单销量占比达到了55%
2025-01-12 17:52:00
曝小米汽车向中国移动采购25万张M2M USIM卡
快科技1月12日消息,据媒体报道,中国移动采购与招标网显示小米汽车向中国移动采购了25万张M2M USIM卡,供应商为捷德(江西)技术有限公司
2025-01-12 17:52:00
锐龙9 9000X3D性能提升!华硕首家发布X870/670新版BIOS
快科技1月12日消息,华硕发布了AGESA 1.2.0.3主板更新,适用于其X870和X670系列主板,主要提升AMD锐龙CPU的性能
2025-01-12 18:52:00
国内首条!穿越钱塘江高铁隧道盾构机顺利启动
快科技1月12日消息,据报道,新建铁路杭州萧山机场站枢纽及接线工程(以下简称“杭州机场高铁”)钱塘江隧道“钱塘号”盾构机顺利启动
2025-01-12 18:52:00
AMD高管:RX 9070系列显卡性能比泄露的更强!
快科技1月12日消息,在CES 2025展会期间,AMD的首席游戏解决方案和游戏市场架构师Frank Azor接受了PCWorld的采访
2025-01-12 19:22:00
迷你机用上AMD最强APU!极摩客全球首发锐龙AI Max+ 395迷你PC
快科技1月12日消息,极摩客官方表示,将联合AMD全球首发搭载锐龙AI Max+ 395这一最强APU的迷你PC,预计在今年一二季度上市
2025-01-12 20:52:00
扎克伯格火力全开!炮轰苹果缺乏创新、苹果税成遮羞布
快科技1月12日消息,Meta CEO扎克伯格近日参加了Joe Rogan Experience播客节目,在节目中扎克伯格指出
2025-01-12 21:22:00
20MW量级!中国中车“启航号”漂浮式风电机组成功吊装
快科技1月12日消息,据报道,全球最大功率等级漂浮式风电机组 —— 中国中车“启航号”在山东东营风电装备测试认证创新基地成功吊装
2025-01-12 21:22:00
数智技术赋能产业发展 湘江实验室再发布10项科技创新产品
本文转自:人民网-湖南频道论坛现场。受访单位供图人民网长沙1月12日电 1月11日,湘江实验室产品发布暨“四算一体”高端论坛在湖南工商大学湘江楼举行
2025-01-12 21:22:00
本文转自:人民网-湖南频道人民网长沙1月12日电 1月12日,大语言模型技术在健康体检智能主检中的应用学术论坛暨中南大学湘雅三医院健康管理医学中心智能主检全面应用启动会在长沙召开
2025-01-12 21:23:00