• 我的订阅
  • 科技

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

类别:科技 发布时间:2023-03-15 21:00:00 来源:搜狐科技

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

基于GPT-3.5的ChatGPT带来的讨论余温未散,更强大的GPT-4又来了。这一次,人们关注的焦点也从“我会失业吗?”转为“我要失业了!”

3月15日凌晨,OpenAI正式发布多模态大模型GPT-4,它可以接受图像和文本输入。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平,比如在法律考试中可以打败90%的人类。

不过,GPT-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。

GPT-4实现多项突破,晋升“考霸”

相较GPT-3.5,GPT-4在多个方面实现飞跃式提升:增加了强大的识图能力,长度限制提升到32Ktokens,即能处理超过25000个单词的文本,并且可以使用长格式内容创建、扩展对话、文档搜索和分析等,同时回答准确性显著提高,同时能够生成歌词、创意文本等。

OpenAI表示,当任务的复杂性达到足够的阈值时,GPT-4就展现得比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

为了解这两种模型之间的差异,OpenAI在各种基准测试上进行了测试,包括最初为人类设计的模拟考试。它以高分通过各种标准化考试,如SAT拿下700分,GRE几乎满分。在律师模拟考试中,ChatGPT背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右,即打败了90%的人类考生。

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

OpenAI还在为机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型,以及大多数SOTA模型。

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

在其他语言能力方面,OpenAI研究团队使用AzureTranslate将MMLU基准——一套涵盖57个主题的14000个多项选择题翻译成多种语言。在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语、斯瓦希里语等少数语言。

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

此外,GPT-4还可以接受文本和图像形式的prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。

在一系列领域,包括带有文本和照片的文档、图表或屏幕截图上,GPT-4展示了与纯文本输入类似的功能。它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链prompt。

根据OpenAI的展示,GPT-4看起来不会再胡言乱语,且在简单的数学和物理题上能作出正确解答,同时可以“看图说话”。不过,目前图像输入是研究预览,仍不公开。

真实性提升40%,但并不完全可靠

OpenAI称其团队花了6个月的时间,使用对抗性测试程序和从ChatGPT得到的经验教训,对GPT-4进行迭代调整,在真实性、可控制性等方面取得了有史以来最好的结果,但仍远非完美。

过去两年里,OpenAI重建了整个深度学习堆栈,并与微软Azure云平台一起为其工作负载从头开始共同设计了一台超级计算机。一年前,OpenAI训练GPT-3.5作为系统的第一次“试运行”,发现并修复了一些错误并改进了其理论基础。结果GPT-4训练运行前所未有地稳定,成为OpenAI能够提前准确预测其训练性能的第一个大型模型。

随着继续专注于可靠的扩展,OpenAI的目标是完善其方法,以帮助自身越来越多地提前预测和准备未来的能力,OpenAI认为这对安全至关重要。

与以前的GPT模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及OpenAI已获得许可的数据进行训练。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样和想法。

尽管功能更加强大,但GPT-4与早期的GPT模型具有相似的局限性。最重要的是,它仍然不完全可靠,存在事实性“幻觉”并出现推理错误。OpenAI建议,在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(如人工审查、附加上下文的基础或完全避免高风险使用)。

不过,GPT-4相对于以前的模型显著减少了幻觉。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%。

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

同时,GPT-4普遍缺乏对绝大部分数据中断后,即2021年9月以后发生的事件的了解,也没有从经验中吸取教训。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信。有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。GPT-4也可能自信地在其预测中犯错,在可能出错时没有仔细检查工作。

因此GPT-4也会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息,其附加功能会带来新的风险面。为此OpenAI聘请了50多位来自AI对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试,使OpenAI能够在需要专业知识进行评估的高风险领域测试模型行为,这些反馈和数据将用于模型改进。

OpenAI称,与GPT-3.5相比,其缓解措施显著改善了GPT-4的许多安全特性,已将模型响应禁止内容请求的可能性降低了82%,并且GPT-4根据OpenAI的政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。

GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍

OpenAI表示,GPT-4和后续模型有可能以有益和有害的方式对社会产生重大影响。OpenAI正在与外部研究人员合作,以改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估,并将很快分享更多关于GPT-4和其他AI系统的潜在社会和经济影响的想法。

开放GPT-4API,ChatGPT升级价格是此前的15倍-30倍

OpenAI还表示正在开源OpenAIEvals软件框架,它被用于创建和运行基准测试以评估GPT-4等模型,同时可以逐样本地检查模型性能。

在GPT-4发布后,OpenAI直接升级了ChatGPT,并对外开放API。要访问GPT-4API(它使用与gpt-3.5-turbo相同的ChatCompletionsAPI),用户可以注册等待。获得访问权限后,用户目前可以向GPT-4模型发出纯文本请求(图像输入仍处于有限的alpha阶段)。

至于价格方面,定价为每1k个prompt token0.03美元,每1k个completion token0.06美元。按100个token对应约75个英文单词计算,即每次输入7.5万个单词需要3美元,输出7.5万个单词需要6美元。此前ChatGPT基于gpt-3.5-turbo的API使用成本是75万个单词2美元,也就是说此次ChatGPT升级后的使用成本是此前的15倍-30倍。

GPT-4默认速率限制为每分钟40k个token和每分钟200个请求,上下文长度为8192个token。OpenAI还提供了32768个token上下文(约50页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本gpt-4-32k-0314,也支持到6月14日),定价为每1Kprompt token0.06美元和每1kcompletion token0.12美元。

在应用方面,GPT-4已与多邻国、By My Eyes、Stripe等应用开发者进行合作。此外,微软新款的必应(Bing)搜索引擎也已经运行于GPT-4系统之上,后续其他业务后也不排除使用GPT-4技术。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-03-15 21:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...ansformer模型中的每层捕捉到的表示不同,包含不同级别的单词级和句子级信息,标准做法是使用T5编码器或CLIP文本编码器的最后一层输出,或是结合倒数第二层的输出,不过,
2024-10-08 09:48:00
深挖 ChatGPT 原理,保姆级解说!
...符号集合作为输出。下面是结构化符号集合的一些示例:单词中的字母句子中的单词图像中的像素视频中的帧将一个符号集合转换为另一个相关符号集合的方法有很多种,这些方法并不限于计算机程
2023-03-15 05:00:00
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
...过损坏再重建恢复。例如,你可以取一段文本,通过删除单词或更改其他单词来损坏它,这可以是文本、DNA序列、蛋白质或其他任何东西,甚至在一定程度上可以是图像。然后,你训练一个大型
2024-10-18 09:42:00
聊天机器人目前还不理解的一件事:“否定”
...型构建为神经网络:一种评估对象(在语言模型中指的是单词)如何相互关联的统计模型。每一种语言关系都有一定的权重,而这种权重在训练过程中会经过微调。例如,“老鼠”与“啮齿动物”的
2023-06-08 14:56:00
刚炮轰完GPT模式 杨立昆推出首个“世界模型”
...来学习,例如删除照片的一部分或隐藏文本段落中的一些单词。然后,他们尝试预测损坏或丢失的像素或单词。然而,生成式AI方法的一个显著缺点是,模型试图填补每一点缺失的信息,即使世界
2023-06-14 18:02:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...队认为,语言空间并不总是最佳推理空间。例如,大多数单词 token 主要是为了保持文本的连贯性,对推理并不重要,而一些关键 token 则需要复杂的规划
2024-12-13 09:19:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...leaving Speech and Text)对于对齐的语音+文本数据集,通过在单词级别交错语音和文本来混合:[TEXT]the cat [SPEECH][Hu3][Hu7]
2024-11-23 09:43:00
Sora“超级涌现力”将把AI引向何方
...关联组合。比如,在保持连贯的上下文语境中,对若干个单词进行有意义组合,从而连缀成一个会意句子;在保持合理的空间布局下,对众多图像小块进行有意义组合,拼合为一幅精彩图像;在保持
2024-02-24 05:43:00
对话伯克利顶级学者Stuart Russell:AI或在各方面超人类,对人类生存构成威胁
...Hidden Markov Model,简称HMM)”。他在一部戏剧中通过计算单词对建立了一个语言模型。他观察了戏剧中的每一对单词
2023-06-14 13:00:00
更多关于科技的资讯:
中新经纬10月24日电 题:“十五五”时期AI+机器人融合将成产业创新主线作者 张凌燕 赛迪顾问业务总监、先进制造业研究中心总经理中国共产党第二十届中央委员会第四次全体会议公报指出
2025-10-24 18:04:00
豫见开放强音丨洛轴集团:持续拓展国际化进程 建设世界强企
大河网讯 “期待与更多客商积极合作,拓展国际化进程,共同建设世界强企。”10月23日,在国际产业投资合作对接活动·河南站举办期间
2025-10-24 18:57:00
“你好,顺丰快递,来送‘国补’数码产品。”10月21日,市民陈洁收到了网购的手机。这款手机享受“国补”和以旧换新后,比市场价便宜了不少
2025-10-24 08:05:00
集美加快布局新能源商用车赛道
“集链聚能 智驭未来”——2025厦门新能源商用车产业“四链融合”对接会吸引资源对接。(本组图/集美区 提供)企业展示的各类新能源商用车
2025-10-24 08:58:00
第三届“苏颂杯”未来产业技术创新赛圆满收官
大赛组委会为一等奖项目颁奖。台下,选手们仔细聆听台上评委点评。 海外嘉宾发来视频点评本届“苏颂杯”大赛。(本组图/市科技局 提供)厦门网讯(厦门日报记者 李晓平 通讯员 庄佩贞)经过激烈角逐
2025-10-24 08:58:00
珍爱网受邀参与“清朗网络守护者”启动大会 筑牢网络安全坚实屏障
在数字化快速发展的今天,网络安全已成为国家安全的重要组成部分。近日,由政府相关部门指导,深圳广播电影电视集团主办的以“聚焦网络空间治理 护航社会高质量发展”为主题的“清朗网络守护者”启动大会在深圳正式举行
2025-10-24 08:59:00
90 载科学传承:GNC 以城市环游诠释运动营养真谛
以骑行运动为突破口,GNC加速深耕中国运动健康市场2025年10月23日,首届环贵州公园省国际公路自行车赛圆满落幕。GNC健安喜作为铂金赞助商及官方唯一指定营养补充剂品牌
2025-10-24 08:59:00
“微米”社交APP以线下实名社交破局
近日,一款名为“微米(WEMET)”的创新型社交应用正式面世,其以“地图社交+线下实体联动”为核心模式,围绕“真实、附近
2025-10-24 08:59:00
全国首例!吉大中日联谊医院成功植入超百通道侵入式柔性脑机接口
10月22日,记者从吉林大学中日联谊医院获悉,神经外科高宇飞、张金男团队与北京智冉医疗科技有限公司联手,在全国率先成功完成首例超百通道侵入式柔性脑机接口的临床植入手术
2025-10-24 11:08:00
客如云AI碰碰贴“商业增长引擎”,让营销触手可及
在数字经济深度融入实体经济的当下,实体门店正面临“营销落地难、用户互动低效、场景覆盖有限”的共性挑战——传统推广依赖人工操作与分散物料
2025-10-24 11:20:00
继感知位置后!海尔空调将发布可感知呼吸的新品,可自适应送风
曾经,手动调节、躲避直吹是使用空调时的日常烦恼;如今,随着“主动感知”成为可能,空调正变得真正“懂你”。继10月21日首发可感知人体位置的海尔麦浪舒适风空调后
2025-10-24 11:22:00
“今天查,明天做”ICL晶体云柜正式落户福州普瑞眼科 高清视界无需等待
廿载耕耘,瞩目焕新!在普瑞眼科成立20周年之际,福州普瑞眼科迎来又一重大技术升级——正式启用EVOICL官方授权“云柜系统”
2025-10-24 11:29:00
厦门新能源商用车应用场景清单发布东南网10月24日讯(海峡导报记者 康泽辉)厦门市新能源商用车应用场景清单发布,聚焦5类道路场景43个应用场景项目
2025-10-24 11:30:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战
2025-10-24 13:21:00
鲁网10月24日讯作为支撑信息通信网络稳定运行的“核心枢纽”,通信机房承载着海量高功耗数据设备,其温度精准控制直接关系到网络畅通与服务质量
2025-10-24 13:47:00