• 我的订阅
  • 科技

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

类别:科技 发布时间:2024-05-14 16:45:00 来源:澎湃新闻

GPT-4o的文本和图像功能开始在ChatGPT中免费推出,音频模式存在各种新风险而未公开,未来音频输出将仅限于选定的预设声音,并要遵守安全政策。

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

GPT-4o生成图像:机器人正在输入日志条目,正文很大,清晰易读,机器人的手在打字机上打字。

5月14日,OpenAI发布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。

在GPT-4o之前,用户可以使用Voice Mode(由三个独立模型组成)与ChatGPT通话,但平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息,例如GPT-4不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或情感表达。利用GPT-4o,OpenAI训练了一个跨文本、视觉和音频的端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,这是OpenAI第一个结合所有这些模式的模型,OpenAI仍在探索模型的功能及其局限性。

新语音模式是一种语音聊天助手。据Business Insider(商业内幕)报道,它能够与用户进行自然的来回对话,能够带着情感说话,它可以假装兴奋、友好,甚至讽刺。这可以秒杀Siri,用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如“嘿Siri!”来使用语音功能。

从性能来看,OpenAI表示,在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

OpenAI表示,将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险,目前公开的是文本和图像输入以及文本输出,在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作,例如音频输出将仅限于选定的预设声音,并将遵守现有安全政策。

目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

OpenAI首席执行官山姆·奥特曼(Sam Altman)表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说,与电脑交谈从来都不是一件很自然的事,现在它做到了。随着我们增加(可选的)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-14 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...要额外的 ASR 或 TTS 系统。 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度
2024-09-07 09:44:00
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...代表Omni,也就是“全能”的意思。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍
2024-05-14 14:39:00
江苏移动举办新品发布会 推出多款“AI+”终端产品
...搭载MoMA智能调度引擎,实现对话识别准确率达94%,整体推理速度提升42%。二是场景升级,广泛覆盖教育、娱乐、出行、家庭、办公等场景,支持智能对话、PPT生成、个人智能体定
2025-08-27 17:24:00
倍思Inspire系列旗舰音频新品发布会定档9月5日,让专业音频走进大众生活
...活移动数码品牌 Baseus倍思正式宣布:Inspire系列旗舰音频新品将于9月5日14:00 线上发布,届时B站
2025-09-03 15:13:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...er模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍
2023-01-30 16:34:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(
2024-11-23 09:43:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码=[0
2024-07-25 09:34:00
这周,5家公司发了AI新品 | 最前线
...语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,能够同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务。即便慢了百度、阿里等互联网
2023-04-22 15:32:00
高通推出骁龙xelitepc平台新品
...门面向高算力需求的NPU,以及高通传感器中枢,它们在AI推理过程中扮演不同角色。如今异构计算也随着骁龙XElite/XPlusPC平台被引入到AIPC领域
2024-05-01 10:37:00
更多关于科技的资讯:
近日,市场监管总局和国家网信办联合发布《网络交易平台规则监督管理办法》(以下简称《办法》),明确禁止平台利用大数据“杀熟”
2026-02-08 00:15:00
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00
厦门网讯(厦门日报记者 应洁)马年新春将至,集美区年味渐浓。2月6日,由集美区商务局主办的“2026集美欢乐购”新春消费券正式“开抢”
2026-02-07 08:49:00
老人也能轻松操作!海尔智家APP“AI语音”让服务零门槛
智能家电功能日益丰富,售后环节的复杂化却成了很多用户的“数字门槛”。在智慧家庭战略指导下,海尔智家APP推出“AI语音”功能
2026-02-07 10:07:00
海尔智家APP“3D家庭视图”将操作效率提升60%
当智能家电数量不断增加,如何高效、直观地管理成了很多用户的“甜蜜负担”。海尔智家APP在智慧家庭战略指引下,通过数字孪生技术打造“3D家庭视图”功能
2026-02-07 10:09:00
从套购到套系,海尔智家靠近用户实现双第一
1月29日,中国家用电器服务维修协会发布《2026年家电服务业及新兴市场发展趋势预测》。报告指出,全屋智能和AI技术正成为推动市场增长的重要力量
2026-02-07 10:10:00
近日,中国科学技术大学的潘建伟院士团队在量子网络领域取得重要突破,首次构建出可扩展量子中继的基本模块,并在此基础上首次将设备无关量子密钥分发的传输距离突破百公里
2026-02-07 10:52:00
大皖新闻讯 近年来,安徽首创金融支持科创企业“共同成长计划”和“贷投批量联动”模式,科技型企业贷款4年连跨7个千亿台阶
2026-02-07 08:44:00
今天,“浙江第一摩天轮”——“天目之心”将在临安天目未来谷正式开转。“天目之心”摩天轮高131.4米,寓意“一生一世”的浪漫
2026-02-07 07:28:00
纵览原创|河北首家SUPER MINISO来了!石家庄 “首店经济”再添消费新场景
记者宋瑶 见习记者杨思涵2月6日,名创优品旗下SUPER MINISO超级名创河北首店在石家庄核心商圈中山路北国商城负一层正式开业
2026-02-07 07:33:00
河北日报讯(见习记者康晓博)2月4日,“AI+机器人”领域领军企业北京极智嘉科技股份有限公司(以下简称“极智嘉”)在雄安新区举行总部揭牌仪式
2026-02-07 07:39:00
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00