• 我的订阅
  • 科技

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

类别:科技 发布时间:2024-05-14 16:45:00 来源:澎湃新闻

GPT-4o的文本和图像功能开始在ChatGPT中免费推出,音频模式存在各种新风险而未公开,未来音频输出将仅限于选定的预设声音,并要遵守安全政策。

OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri

GPT-4o生成图像:机器人正在输入日志条目,正文很大,清晰易读,机器人的手在打字机上打字。

5月14日,OpenAI发布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。

在GPT-4o之前,用户可以使用Voice Mode(由三个独立模型组成)与ChatGPT通话,但平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息,例如GPT-4不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或情感表达。利用GPT-4o,OpenAI训练了一个跨文本、视觉和音频的端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,这是OpenAI第一个结合所有这些模式的模型,OpenAI仍在探索模型的功能及其局限性。

新语音模式是一种语音聊天助手。据Business Insider(商业内幕)报道,它能够与用户进行自然的来回对话,能够带着情感说话,它可以假装兴奋、友好,甚至讽刺。这可以秒杀Siri,用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如“嘿Siri!”来使用语音功能。

从性能来看,OpenAI表示,在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当,在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术,GPT-4o在设计中内置了跨模式的安全性,并创建了新的安全系统,为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作,以识别新增加的模式引入或放大的风险,提高与GPT-4o互动的安全性。

OpenAI表示,将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险,目前公开的是文本和图像输入以及文本输出,在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作,例如音频输出将仅限于选定的预设声音,并将遵守现有安全政策。

目前,GPT-4o的文本和图像功能开始在ChatGPT中免费推出,Plus用户可以享受到5倍的调用额度。在接下来的几周内,OpenAI将在ChatGPT Plus中推出Voice Mode新版本,该版本带有GPT-4o。

OpenAI首席执行官山姆·奥特曼(Sam Altman)表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说,与电脑交谈从来都不是一件很自然的事,现在它做到了。随着我们增加(可选的)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-14 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...要额外的 ASR 或 TTS 系统。 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度
2024-09-07 09:44:00
记者实测|速度更快成本更低,人机交互更自然,OpenAI新模型免费开放
...代表Omni,也就是“全能”的意思。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍
2024-05-14 14:39:00
江苏移动举办新品发布会 推出多款“AI+”终端产品
...搭载MoMA智能调度引擎,实现对话识别准确率达94%,整体推理速度提升42%。二是场景升级,广泛覆盖教育、娱乐、出行、家庭、办公等场景,支持智能对话、PPT生成、个人智能体定
2025-08-27 17:24:00
倍思Inspire系列旗舰音频新品发布会定档9月5日,让专业音频走进大众生活
...活移动数码品牌 Baseus倍思正式宣布:Inspire系列旗舰音频新品将于9月5日14:00 线上发布,届时B站
2025-09-03 15:13:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...er模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍
2023-01-30 16:34:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(
2024-11-23 09:43:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码=[0
2024-07-25 09:34:00
这周,5家公司发了AI新品 | 最前线
...语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,能够同时支持文字生成、图片生成、3D内容生成、语音生成和语音识别等不同任务。即便慢了百度、阿里等互联网
2023-04-22 15:32:00
高通推出骁龙xelitepc平台新品
...门面向高算力需求的NPU,以及高通传感器中枢,它们在AI推理过程中扮演不同角色。如今异构计算也随着骁龙XElite/XPlusPC平台被引入到AIPC领域
2024-05-01 10:37:00
更多关于科技的资讯:
廊坊推出算力券撬动人工智能产业每年投放总额不超过1000万元,已吸引23家初创企业落地河北日报讯(记者刘英、刘杰)“基于流程
2025-11-08 07:54:00
摘要:随着数字经济的深入发展,传统供应链金融暴露出信息不透明、业务流程复杂、风险管控难度大等突出问题,其数字化转型已成为当前行业发展的重要课题
2025-11-08 05:24:00
摘要:本文探讨数字化时代企业管理模式的创新路径,首先分析数字化对企业管理模式的核心影响,指出其推动管理对象向“人-财-物-数据”融合转变
2025-11-08 05:24:00
智推时代:用GEO打造品牌增长新引擎
在生成式AI重塑流量格局的当下,如何将前沿技术转化为可持续的商业增长,已成为品牌面临的核心挑战。智推时代精准切入这一赛道
2025-11-07 08:03:00
(一)开篇引言行业背景与痛点:中国信息通信研究院《2025年数字营销发展趋势报告》指出,截至2025年6月,国内生成式引擎月活用户已突破8
2025-11-07 08:05:00
一、旅游出行安全保险尚无权威排名,选择需聚焦三大核心指标目前旅游出行安全保险市场不存在公认的统一排名标准,产品选择应重点考察保险公司服务能力(偿付能力充足率
2025-11-07 08:06:00
当生成式AI技术以迅猛势头重构搜索生态时,如何为企业精准挑选高度契合需求的GEO(生成式引擎优化)服务供应商,已成为抢占下一代流量入口的核心战略动作
2025-11-07 08:06:00
科学实力获市场验证:任我行液体钙获全球销量第一认证
2025年11月初,德国Moms Garden任我行旗下成人液体钙产品确认获得尚普咨询集团授予的“成人液体钙全球销量第一”与“骨骼健康领导品牌”双重市场地位认证证书
2025-11-07 08:07:00
磷虾油产品对比 磷虾油品牌深度测评与科学选购指南
近年来随着健康意识的不断提升,富含Omega-3、磷脂和虾青素的磷虾油逐渐成为大众关注的营养补充剂。然而在市场快速扩张的背后
2025-11-07 08:07:00
道路“会思考” 出行更美好!数字道路建设赋能未来之城
数字道路建设赋能未来之城道路“会思考” 出行更美好雄安新区的街道上,看似普通的路灯杆集合了多种智能设备,成为智慧交通的“眼睛”
2025-11-07 08:20:00
今年9月27日,雄安图书馆正式向公众开放。一个多月来,已迎来访客20余万人次。这座形如书卷徐徐展开的建筑,不仅是新区一座崭新的文化地标
2025-11-07 08:20:00
关注进博会丨河北再赴进博之约(二):把全球好物装进“购物车”
把全球好物装进“购物车”——河北再赴进博之约(二)11月6日,在第八届中国国际进口博览会河北省主题展区,河北参展商正在进行路演活动
2025-11-07 08:21:00
南报网讯(通讯员王亚洲朱丽纯记者王婷婷)日前,“智云经开”品牌发布暨创新中心签约仪式在兴智科技园举行。南京经开区与省数据局
2025-11-07 08:23:00
今年以来,肥乡联社在省联社及邯郸审计中心的精准指导下,锚定代理保险业务作为中间业务增长的核心抓手,深挖县域保险市场潜力
2025-11-07 10:22:00
为全面提升金融服务安全性,切实保障广大客户的资金与信息安全,近期,行唐联社市仝信用社积极行动,开展了一系列网络安全宣传与防护活动
2025-11-07 10:24:00