• 我的订阅
  • 科技

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

类别:科技 发布时间:2024-05-14 16:45:00 来源:澎湃新闻

GPT-4o的文本和图像功能开始在ChatGPT中免费推出,音频模式存在各种新风险而未公开,未来音频输出将仅限于选定的预设声音,并要遵守安全政策。

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

GPT-4o生成图像:机器人正在输入日志条目,正文很大,清晰易读,机器人的手在打字机上打字。

5月14日,OpenAI发布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。

在GPT-4o之前,用户可以使用Voice Mode(由三个独立模型组成)与ChatGPT通话,但平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息,例如GPT-4不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或情感表达。利用GPT-4o,OpenAI训练了一个跨文本、视觉和音频的端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,这是OpenAI第一个结合所有这些模式的模型,OpenAI仍在探索模型的功能及其局限性。

新语音模式是一种语音聊天助手。据Business Insider(商业内幕)报道,它能够与用户进行自然的来回对话,能够带着情感说话,它可以假装兴奋、友好,甚至讽刺。这可以秒杀Siri,用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如“嘿Siri!”来使用语音功能。

从性能来看,OpenAI表示,在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

OpenAI表示,将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险,目前公开的是文本和图像输入以及文本输出,在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作,例如音频输出将仅限于选定的预设声音,并将遵守现有安全政策。

目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

OpenAI首席执行官山姆·奥特曼(Sam Altman)表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说,与电脑交谈从来都不是一件很自然的事,现在它做到了。随着我们增加(可选的)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-14 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...要额外的 ASR 或 TTS 系统。 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度
2024-09-07 09:44:00
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...代表Omni,也就是“全能”的意思。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍
2024-05-14 14:39:00
江苏移动举办新品发布会 推出多款“AI+”终端产品
...搭载MoMA智能调度引擎,实现对话识别准确率达94%,整体推理速度提升42%。二是场景升级,广泛覆盖教育、娱乐、出行、家庭、办公等场景,支持智能对话、PPT生成、个人智能体定
2025-08-27 17:24:00
倍思Inspire系列旗舰音频新品发布会定档9月5日,让专业音频走进大众生活
...活移动数码品牌 Baseus倍思正式宣布:Inspire系列旗舰音频新品将于9月5日14:00 线上发布,届时B站
2025-09-03 15:13:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...er模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍
2023-01-30 16:34:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(
2024-11-23 09:43:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码=[0
2024-07-25 09:34:00
这周,5家公司发了AI新品 | 最前线
...语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,能够同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务。即便慢了百度、阿里等互联网
2023-04-22 15:32:00
高通推出骁龙xelitepc平台新品
...门面向高算力需求的NPU,以及高通传感器中枢,它们在AI推理过程中扮演不同角色。如今异构计算也随着骁龙XElite/XPlusPC平台被引入到AIPC领域
2024-05-01 10:37:00
更多关于科技的资讯:
三联家电“2026年货节”盛大开启!国补叠加多重优惠!
鲁网1月16日讯岁末将至,年味渐浓,家电换新成为不少家庭筹备新年的重要环节。1月16日至2月16日,三联家电正式启动“2026年货节”大型促销活动
2026-01-16 11:24:00
安徽发布“人工智能+万物”方案 2030年应用普及率将超九成
大皖新闻讯 1月16日上午,记者从安徽省政府新闻发布会获悉,《安徽省“人工智能+万物”应用行动方案》日前发布实施,到2027年
2026-01-16 12:35:00
合肥工业大学设立聚变科学与工程学院
大皖新闻讯 1月16日,2026核聚变能科技与产业大会在合肥聚变堆园区拉开帷幕。会上,合肥工业大学聚变科学与工程学院正式揭牌
2026-01-16 13:07:00
成都数字文创产业有了“定制化”保护服务
中国消费者报成都讯(记者刘铭)核心创意遭窃取、版权边界难界定、AIGC(人工智能生成内容)内容确权难……这些痛点困扰着数字文创企业的创新与发展
2026-01-16 11:01:00
全国首发垂直领域钢铁大模型有了升级版河钢发布钢铁行业全域大模型威赛博2.0河北日报讯(记者贡宪云)1月15日,河钢集团在唐山发布了钢铁行业全域大模型威赛博2
2026-01-16 08:15:00
高灯科技再登毕马威金融科技双50榜单!
近日,由雄安新区商务和投资促进局、雄安新区改革发展局等单位支持,毕马威主办的“毕马威金融科技企业双50榜单发布会”在雄安新区举行
2026-01-16 08:37:00
厦企布局AI玩具赛道 以人工智能技术赋能传统产业升级
麦明智能员工介绍AI数字梦工厂玩偶的功能。厦门网讯(文/厦门日报记者 林露虹 图/厦门日报记者 卢剑豪)毛茸茸的外表,圆滚滚的身子——刚走进软件园一期的厦门麦明智能科技有限公司
2026-01-16 08:51:00
临漳县“一品一播”云销“邺城优品”
图为临漳县“一品一播”企业样板直播间正在直播。河北新闻网讯(白增安、宋龙雨)后台订单实时跳动,打包区工作人员忙碌分拣……近日
2026-01-16 09:42:00
即时零售竞争升维,AI让“一句话点外卖”成为现实
于琛1月15日,阿里巴巴集团宣布将旗下人工智能(AI)应用程序“千问”接入其网络购物、旅游服务等业务生态,朝着打造“一站式AI平台”目标迈出了迄今为止的最大步伐
2026-01-16 10:38:00
郭海英中国出版协会、中国书刊发行业协会日前召开2026阅读X大会,会议发布的《2025年开卷图书零售市场趋势洞察报告》(简称《报告》)显示
2026-01-16 10:38:00
甘肃宏大在工业电子雷管核心工艺与智能化装配技术创新上迈出关键步伐
日前,工业和信息化部安全生产司对甘肃宏大下属平凉兴安“无药头快接式工业电子雷管工艺技术及智能兼容装配生产线研发项目”予以立项备案
2026-01-16 09:24:00
“帮我点23杯霸王茶姬的伯牙绝弦,其中12杯正常冰,8杯去冰,3杯热饮。”下午1点,杭州一互联网公司项目经理李薇打开千问App
2026-01-16 07:45:00
18年以后,齐金良仍会想起自己第一次看见那根采用日本技术和标准的预制管桩的情景。那时的他刚进入兆弟集团,也第一次接触到长十几米
2026-01-16 07:45:00
张锦涛 柳州工学院在现代建筑行业中,数字化技术的广泛应用正逐步改变传统的质量控制方式。通过将建筑工程的各个环节与数字化技术相结合
2026-01-16 07:06:00
中新经纬1月15日电 据“深圳市消费者委员会”微信号消息,近期,深圳市消委会开展儿童洞洞鞋比较试验,从线上、线下随机购买15款样品
2026-01-15 21:00:00