• 我的订阅
  • 科技

​OpenAI推出“全能模型”GPT-4o,支持语音、视频、文字实时交互

类别:科技 发布时间:2024-05-15 13:45:00 来源:DeepTech深科技

OpenAI 表示,该模型将在未来几周内上线,并将通过 ChatGPT 应用程序和网页版免费开放给所有用户。ChatGPT 的付费订阅用户(每月 20 美元起)将能够提出更多请求。

OpenAI 的 CTO 米拉·穆拉蒂(Mira Murati)主持了 GPT-4o 的发布和现场演示。

值得一提的是,发布会的时间刚好选在谷歌召开 I/O 大会的前一天,谷歌预计将在大会上公布其最新的人工智能进展。

现有的 GPT-4 虽然提供了类似的功能,为用户提供了多种与 OpenAI 人工智能产品交互的方式,但这些功能被放在不同的模型中,导致响应时间更长,计算成本可能也更高。

GPT-4o 现在已经将这些功能合并到一个单一的模型中,穆拉蒂称之为“全能模型(omnimodel)”。她说,这意味着更快的响应和更平稳的任务转换。

该公司的演示表明,其结果是一个与 Siri 或 Alexa 非常相似的对话助手,但能够处理更复杂的提示。

穆拉蒂在谈到演示时说:“我们正在展望我们自己和机器之间互动的未来。我们认为,GPT-4o 正在将目前的合作范式转变为更具未来色彩的合作模式。未来,这种互动将变得更加自然。”

巴雷特·佐夫(Barret Zoph)和马克·陈(Mark Chen)都是 OpenAI 的研究人员,他们介绍了新模型的一些应用场景。

最令人印象深刻的是它应对实时对话的能力。你可以在模型的回应过程中打断它,它会停下来,听你讲完并调整回应,就像真人一样。

OpenAI 也展示了改变模型语调的能力。马克让模型在睡前读一个“关于机器人和爱情”的故事,然后他迅速补充称,要用更戏剧化的声音朗读。

随即,该模型变得越来越戏剧化,直到穆拉蒂要求它迅速转向令人信服的机器人声音(它很擅长这一点)。

在对话过程中,模型会出现一些短暂的停顿,这是它在推理下一步该说什么,但这并不令人意外。OpenAI 展示了一场节奏非常自然的人类与人工智能的对话。

​OpenAI推出“全能模型”GPT-4o,支持语音、视频、文字实时交互

(来源:OPENAI)

该模型还可以实时推理视觉问题。佐夫用手机拍摄了自己在一张纸上写代数方程 3x+1=4 的过程,并让 GPT-4o 提供解题思路。他指示它不要直接给出答案,而是像老师一样指导他。

该模型友好地说:“第一步是把所有带未知数 x 的项移到一边。那么,你认为我们应该如何处理这个加号?”

穆拉蒂表示,GPT-4o 将存储用户与它的交互记录,这意味着该模型“现在在你的所有对话中都具备一种连续性”。演示的其他亮点包括实时翻译,检索模型对话内容的能力,以及实时查询信息的能力。

正因为是现场演示,我们得以看到了一些小问题和小故障。在谈话中,GPT-4o 的声音可能会不合时宜地响起。在无人要求的情况下,它似乎对其中一位主持人的衣着发表了评论。

但当演示者告诉模型它做错了时,它处理得很好。它似乎能够在其他模型尚未有效合并的几种媒介上快速、有效地做出反应。

此前,OpenAI 的许多最强大的功能,如通过图像和视频进行推理,都只限于付费用户。

GPT-4o 标志着它们将首次向更广泛的公众开放,尽管目前还不清楚免费用户能与该模型进行多少次互动。

OpenAI 表示,付费用户的消息限制“仍然是免费用户限制的五倍”。

支持:Ren

运营/排版:何晨龙

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-15 14:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...”是很难进步的。不妨和我们一起,认真给GPT-4o算笔账。全能模型,究竟“惊艳”在哪里?谷歌反击OpenAI的发布会,被称为“腹泻式更新”,一口气推出了十来款新品及升级。之所
2024-05-19 16:32:00
本文转自:株洲日报OpenAI震撼发布GPT-4o——打造全能AI助理 将向用户免费提供北京时间5月14日凌晨,OpenAI发布会公布了新的模型迭代版本GPT-4o
2024-05-18 08:29:00
汉王科技新款电纸本搭载天地大模型 办公进入AI时代
...得系统生成的高质量文档。除此之外,汉王电纸本提供了全能AI助手功能。用户可与助手进行自然语言对话,对方会根据语境准确回答提问,并可完成文档撰写等复杂工作任务,覆盖知识面广泛。
2023-10-12 15:02:00
汉王语音王 App 发布:支持 AI 语音记录、对话翻译、同声传译
...、拍录同步(自动裁边)、话稿整理、智能总结及不间断实时翻译等功能。 AI 语音记录AI 语音记录支持实时语音转录和语音文件转录两种方式,具备录音速记、拍录同步(自动裁边)、
2024-08-09 09:23:00
手机学堂:AIGC加入到手机后,能帮我们做什么?
...目前AI在手机里其基本的应用是让原来的语音助手变得更全能更聪明,如vivo全新的蓝心小V、OPPO升级版的小布助手,能将问答、语义搜索、写作、文生图等AI功能整合起来给用户使
2024-02-21 00:27:00
阿里云推新 “杠”上讯飞
...会上,听悟就有内测版本,已经有离线语音/视频转写、实时转写、角色分离、分屏记录等功能。但当时,阿里云的低调内测算是点到为止,好奇者先行。 时至今日,接入大模型能力的“通义听
2023-06-02 17:45:00
融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言
...智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发
2024-10-17 09:45:00
国内首个端到端语音大模型将上线,人工智能也要有“情商”
...了国内首个端到端语音大模型“心辰Lingo”,该模型具备实时打断、实时控制能力,以超拟人的互动方式,让对话更加生动、直观。所谓端到端语音大模型,与传统的语音交互系统最大的区别
2024-09-05 10:07:00
三星S24系列正式发布,AI功能很强?国产旗舰丝毫不惧!
...一下。三星Galaxy S24系列的原生通话应用程序内置了通话实时翻译,可以提供实时双向语音和文字翻译,而且于设备端的AI可以确保用户的对话隐私。三星键盘模块也内置了AI翻译
2024-01-19 11:12:00
更多关于科技的资讯: