• 我的订阅
  • 科技

OpenAI推迟上线语音功能,GPT-5或要等到明年,大模型技术速度正在放缓

类别:科技 发布时间:2024-06-26 11:35:00 来源:搜狐科技

OpenAI推迟上线语音功能,GPT-5或要等到明年,大模型技术速度正在放缓

出品 | 搜狐科技

作者 | 梁昌均

大模型技术进展肉眼可见地放缓了,OpenAI此前说好的语音功能也鸽了。

OpenAI针对此前展示的高级语音功能发布最新进展称,原计划在六月底开始向少部分ChatGPT Plus用户推出alpha版本,但需要再花一个月时间才能达到发布标准。

该公司称,目前正在提升模型检测和拒绝不当内容的能力,也在改进用户体验,并在准备基础设施,以确保在扩展到数百万用户时仍能保持实时响应。

“作为迭代部署策略的一部分,我们将从少部分用户开始alpha测试,以收集反馈,并根据反馈进行改进和扩展。”OpenAI表示,计划将在秋季让所有Plus用户都能使用语音功能,具体时间表取决于是否能达到高标准的安全性和可靠性。

OpenAI提到的高级语音功能是在5月的春节发布会上对外展示,当时发布的新一代大模型GPT-4o集文本音频视觉于一身,支持文本、音频和图像的任意组合作为输入和输出,被OpenAI称为“迈向更自然的人机交互的一步”。

根据当时公布的基准测试,GPT-4o在多语言、音频和视觉功能上达到新的水平。在语音识别和翻译方面,GPT-4o相比OpenAI自己开发的语音模式Whisper-v3显著提高,在语音翻译树立了新的最先进水平。

OpenAI首席技术官穆里·穆拉提(Muri Murati)当时表示,OpenAI一直致力于让用户通过语音与ChatGPT 进行真人般地交流,但之前版本由于延迟问题,严重影响了对话的沉浸感。

“GPT-4o最大亮点在于其语音交互模式采用了新技术,从而使得人们可以用麦克风与 ChatGPT交谈,让聊天机器人对话的响应速度大幅提升。”穆拉提表示。

据介绍,GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。它不仅可以将语音转换为文本,还具备先进的音频理解能力。

根据发布会上的演示,在提问结束后,GPT-4o几乎可以即时回应,并通过文本转语音功能进行朗读,且对话比较自然逼真。它还能感受到呼吸和情感,并可以调整控制声音或说话语义,比如发出夸张、兴奋、舒缓或机器人的声音。

OpenAI CEO奥特曼表示,GPT-4o提供新的语音和视频模式,是其用过的最好的计算机界面。“事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化,能够使用计算机做比以往更多的事情。”

不过,当时OpenAI并未立马上线GPT-4o的语音功能,并表示它会带来新的安全风险,且仍存在局限性。但经过一个多月的优化后,这项语音功能依然并未达到预期。

“ChatGPT的高级语音模式能够理解并带有情感和非语言提示的回应,从而实现更接近与AI进行实时、自然对话,我们的使命是深思熟虑地将这些新体验带给您。”OpenAI称。

OpenAI在最近进展中还透露,目前也在推进之前单独展示的视频和屏幕共享功能,并会及时通知更新。

此外,OpenAI还宣布ChatGPT Mac端正式推出,实现ChatGPT与用户工作流、写作和创作方式集成。此前,苹果已与OpenAI达成合作,ChatGPT将在云端响应苹果用户需求。

目前,OpenAI正面临谷歌、Anthropic等对手的贴身追赶,后者最新发布的Claude 3.5 Sonnet在逻辑推理、数学编程等方面的性能均超越GPT-4o,但这款模型并未加入语音功能。

因此,某种程度来看,GPT-4o在语音方面仍保持领先。但OpenAI推迟上线语音功能,则显示出,尽管是目前依然最为领先的大模型企业,但技术进步也在放缓,这背后可能涉及到数据版权、算力等问题,以及监管之下AI内容安全变得越发重要。

前不久,美国知名女演员斯嘉丽·约翰逊就针对ChatGPT使用酷似她的语音一事提出质疑,并向OpenAI发出律师函。OpenAI虽然并未承认违规使用,但还是下架了该语音。

实际上,OpenAI在研发新一代的模型的步伐也已经放缓,业界预期GPT-5原本应该在今年夏季发布,但目前OpenAI还未给出时间表,此前展示的Sora也依然未对外开放。

穆拉提在最近的一次采访表示,AI系统在特定任务中已经达到人类水平,GPT-3类似婴儿水平的智能,GPT-4则进化到更像一个高中生,OpenAI接下来将致力于研究达到博士级别的智能,也许就在一年或一年半之后实现。

外界认为,这款模型可能就是OpenAI目前正在研发的GPT-5,按照前述预期,其有望在2025年底或2026年初推出。

此前有爆料称,GPT-5将是具有52万亿参数的多模态模型,意味着其复杂性和性能将有显著提升。但这可能也会面临更大的技术和工程难度,时间成本也会更高。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

手机厂商集体奔向大模型,但应用场景仍局限于语音助手?
...的大模型在手机上跑通了。与此同时,升级大模型的小米语音助手小爱同学也开启内测,提供超级问答、个性化创作、上下文理解与复杂任务处理等一系列的能力。在前不久的华为开发者大会上,华
2023-08-18 22:01:00
Meta发布生成式AI语音模型Voicebox,精通六种语言,支持多种语音功能 | 最前线
作者 | 周愚 编辑 | 邓咏仪美国时间6月16日,Meta正式发布语音生成模型Voicebox。据官网介绍,通过非自回归“流匹配”(Flow Matching)技术
2023-06-19 17:10:00
苹果的 AI 宏图,用 iPad 当前菜
...人不知道,Siri是“SpeechInterpretation&RecognitionInterface(语音解释和识别接口)”
2024-05-12 16:16:00
十多年来最重要的一次!库克会暗掷“王炸”吗?
...门用于处理人工智能任务,并能提高速度,或者让公司的语音助手Siri更深入地嵌入应用程序以帮助用户执行任务。更大的期待来自于苹果是否会在WWDC上与OpenAI联手“出大招”。
2024-06-11 09:00:00
AI视野:iPhone16将引入生成式AI;百度AI编程工具限时免费;
...男友、科研利器等多领域,刷新增长速度。AI大模型通过语音检测2型糖尿病,准确率惊人!这项加拿大Klick科研成果发布了一款AI大模型
2023-11-13 16:52:00
openai语音翻译又出新功能了!
听说了吗?OpenAI又出新了!他们正在推出ChatGPT的全新语音和图像功能,提供了一种全新、更直观的交互方式,通过语音对话或以图片形式向ChatGPT展示讨论的内容
2023-09-26 14:59:00
基本盘越来越扎实,科大讯飞借助AI大模型跑出“加速度”
...飞,也如同一位意气风发的“青年人”,依靠早年在智能语音技术的积累,以及在AI大模型赛道的前瞻性布局,站在了时代的潮头。据媒体报道,在科大讯飞成立25周年之际,科大讯飞董事长刘
2024-06-17 09:35:00
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...圆表示,随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术
2024-10-14 01:53:00
OpenAI突然更新!GPT-4o推高级语音版,问题秒回答,网友玩疯了
GPT-4o的高级语音功能,终于不再是“期货”了!智东西7月31日消息,今天凌晨,OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式
2024-08-01 09:32:00
更多关于科技的资讯:
清华大学安徽校友会AI大数据专委会揭牌
大皖新闻讯 11月20日,清华大学安徽校友会AI大数据专委会揭牌仪式暨人工智能前沿洞察与产业创新论坛在中国视界举行。人工智能是安徽省十大战略性新兴产业之一
2025-11-21 12:23:00
中新经纬11月21日电 据中消协网站21日消息,近日,有媒体曝光了一批盗版剧APP,这些APP不仅盗用大量剧集资源,更会窃取用户个人隐私信息
2025-11-21 12:37:00
“消失的法老”回来了!“BesTV上海博物馆”今天上线 计划实现上海电视用户全覆盖
11月18日,“廿念不忘,帧帧日上——百视通成立20周年分享会”在国际会议中心举行。作为20周年重磅发布之一,由百视通与上海博物馆联合打造的“BesTV上海博物馆”产品正式亮相并登陆上海移动高清电视
2025-11-20 08:06:00
入住4年仍甲醛超标!福建卫视《现场》探访实录,解码智能门的健康升级路径
近日,福州居然之家王力安防门店迎来了一位特别的客人——消费者丁先生专程送来一面写有“贴心服务暖人心,智能监测护健康”的锦旗
2025-11-20 08:06:00
厦门网讯(厦门日报记者 林露虹) 近日,专注于毫米波雷达芯片研发的厦企——矽杰微电子(厦门)有限公司(简称“矽杰微电子”)完成C1轮增资
2025-11-20 08:29:00
厦门围绕“金鸡”品牌 在影视产业链上持续发力
陈铎(中)指导员工进行《活宝档案》动画制作。海丝(厦门)电影工业产业基地施工现场。 厦门网讯(文/图 厦门日报记者 邬秀君)走进位于软件园一期的继来之(厦门)人工智能研究院有限公司
2025-11-20 08:30:00
记者走基层|集装箱“搬上”无人车 解锁配送新技能
11月1日,在廊坊座头鲸科技有限公司智能制造基地,工作人员对蓝丁智能无人配送车底盘进行性能测试。 河北日报记者 刘 杰摄11月1日清晨
2025-11-20 08:49:00
破局之法,精耕之道 《精耕者访谈》第三季·区域之王重磅开启!
11月18日,由蓝河乳业独家冠名的《精耕者访谈》第三季·区域之王正式启动。作为母婴行业首个高端访谈栏目,其始终着眼于市场一线
2025-11-20 09:06:00
北京博大健康体检管理中心盛大启幕 以“科技+精准”重新定义健康管理新标杆
11月18日上午,北京博大健康体检管理中心(简称“博大体检”或“中心”)在京举行开业典礼,正式落地北京经济技术开发区南海绿茵国际园区
2025-11-20 09:06:00
以儿童为本——赖园青的幼儿教育科学实践之路
在人工智能与教育深度融合的浪潮中,如何让技术真正服务于幼儿认知发展?上海浦东新区民办普瑞姆幼儿园园长赖园青用贯穿理论与实践的智慧教育探索
2025-11-20 10:06:00
山东移动招远分公司秋冬宽带服务义诊暖心启动 专业服务守护数字生活
胶东在线11月19日讯(通讯员王少娜徐冰鑫)秋冬时节,居民居家上网需求激增,网络卡顿、信号盲区、设备老化等问题更易影响用户使用体验
2025-11-20 10:17:00
四梯科技重磅发布智能产业工程师证书项目 推动教育科技人才一体化发展
2025年11月14日,在深圳第二十七届中国国际高新技术成果交易会第二届产教融合与科教融汇论坛上,北京四梯科技有限公司(以下简称“四梯科技”)首次面向社会正式发布“四梯智能产业工程师证书项目”(4T SIEC)
2025-11-20 11:37:00
一屏承古韵,元景越千年!联通数智重构文博文创新范式的野望
11月17日,“中华文明起源系列——‘看·见殷商’”展览总结暨博物馆高质量发展研讨会在北京大运河博物馆举行。会上回顾了“看·见殷商”展览的创新实践
2025-11-20 12:07:00
名创优品斩获国际零售地产大奖MAPIC 2025\
在法国戛纳举办的 2025 年全球零售商业地产峰会大奖(MAPIC Awards)中,名创优品凭借其MINISO LAND战略级店态
2025-11-20 14:38:00