• 我的订阅
  • 科技

ChatGPT笨了,还是老了?

类别:科技 发布时间:2023-09-17 16:13:00 来源:科技新知
ChatGPT笨了,还是老了?

“过去的表现并不能保证将来的结果。”这是大多数金融理财模型的小字。

在产品业务内部,这被称之为模型漂移、衰退或过时。事情会发生变化,模型性能会随着时间的推移而下降。最终的衡量标准是模型质量指标,可以是准确率、平均错误率,也可以是一些下游业务的KPI,比如点击率。

没有任何模型可以永远有效,但衰退的速度各不相同。‍有些产品可以使用多年而无需更新,例如某些计算机视觉或语言模型,或者是在隔离、稳定环境中的任何决策系统,比如常见的实验条件下。

想要保证模型精度,就需要每天对新数据进行训练,这是机器学习模型的范式缺陷,也使得人工智能部署,不能像软件部署一样可以一劳永逸。后者被创造了几十年,目前最先进的AI产品,依然使用着早年的软件技术。只要仍然有用,即时技术已经过时,它们依然可以长存于每一个字节中。

不过被称为人工智能最前沿的产品,以ChatGPT为代表的大模型,在遭遇人气衰减后,迎来是否正在过时和衰老的质疑。

无风不起浪。用户在ChatGPT上花费的时间越来越少,从3月份的8.7分钟降至8月份的7分钟。侧面反映出,当大模型工具的供给侧迅猛增长,仅仅只是生产力工具的ChatGPT似乎并不足以成为主流使用人群Z世代的心头好。

一时的人气不足以动摇致力于成为AI时代应用商店的OpenAI霸主地位。更核心的问题是,ChatGPT生产力的老化,才是不少老用户信任度下降的主因。自5月份开始,OpenAI论坛里讨论GPT-4性能不如以前的帖子,就一直在发酵。

那么ChatGPT过时了吗?以ChatGPT为代表的大模型会像过去的机器学习模型一样衰老吗?不理解这些问题,就不能在层出不穷的大模型热潮之下,找到人与机器的可持续发展之道。

ChatGPT过时了吗?

来自Salesforce AI软件服务商最新的一份数据显示,有67%的大模型使用者是Z世代或者千禧一代;很少使用生成AI或在这方面落伍的人群中,68%以上的人是X一代或婴儿潮一代。

代际差异说明Z世代正在成为拥抱大模型的主流人群。Salesforce产品营销人员Kelly Eliyahu表示:“Z世代实际上是AI一代,他们构成了超级用户群体。70%的Z世代正在使用生成式AI,至少有一半的人每周或更长时间使用它。”

不过作为大模型产品的领军者,ChatGPT在Z世代人群中的表现并不出色。

ChatGPT笨了,还是老了?

根据市场调研机构Similarweb7月份的数据显示,ChatGPT在Z世代人群中的使用占比为27%,低于4月份的30%。作为对比,另外一款可以让用户自己设计人工智能角色的大模型产品,Character.ai在18-24岁年龄段的人群中渗透率为60%。

得益于Z世代的追捧,Character.ai的iOS和Android应用程序目前在美国的月活跃用户数为420万,距离移动端ChatGPT的600万月活,日益接近。

和ChatGPT的对话式AI不一样,Character.AI在此基础上加入个性化、UGC两大核心功能,使其有了比前者更丰富的使用场景。

一方面,用户可以根据个人需求自定义AI角色,满足Z世代个性化定制的需求。同时这些用户自主创建的AI角色,也可以被平台所有用户使用,构建AI社区氛围。比如此前在社交媒体平台传播出圈的苏格拉底、God等虚拟人物,以及官方自主创建的马斯克等商业名人的AI形象。

另一方面,个性化的深度定制+群聊功能,也使得用户对于平台产生情感智能依赖。很多社交媒体平台的用户公开评价显示,因为聊天体验过于逼真,就像“自己创作的角色拥有生命,就像在与真人交谈”,“是迄今为止最接近假想朋友、守护天使的东西”。

可能是来自Character.AI的压力,2023年8月16日OpenAI在官网发布了一则简短声明,宣布收购美国初创企业Global Illumination,并将整个团队纳入麾下。这家仅有两年历史八位员工的小公司,主营业务是利用人工智能创建巧妙工具、数字基建和数字体验。

收购行为的背后,很可能意味着OpenAI将致力以丰富的方式,改善目前的大模型数字体验。

人工智能的衰老化

ChatGPT在大模型数字体验层面的老化,影响了其杀时间的效果。作为生产力工具,其生成结果准确性的飘忽不定,也正在影响其用户黏性。

此前根据Salesforce的调查显示,有近六成的大模型使用者认为,他们正在通过累计时间的训练掌握这项技术。不过目前这种技术的掌握,正在随着时间的迁移发生变化。

ChatGPT笨了,还是老了?

早在5月份,就有大模型老用户在OpenAI论坛上开始抱怨GPT-4,“在以前表现良好的事物上表现出困难”。据《Business Insider》7月份报道称,很多老用户将GPT-4与其以前的推理能力和其他输出相比,形容为“懒惰”和“愚笨”。

由于官方并未对此作出回应,人们开始对GPT-4性能下降的原因进行推测,会不会是因为此前OpenAI的现金流问题?主流猜测集中在成本优化导致的性能下降方面。一些研究者称,OpenAI可能在API后面使用了规模较小的模型,以降低运行ChatGPT的成本。

不过这个可能性随后被OpenAI的产品副总裁Peter Welinder否认。他在社交媒体上表示:“我们没有让GPT-4变得更笨,目前的一个假设是,当你更加频繁地使用它时,会开始注意到之前没有注意到的问题。”

更多的人、更长时间的使用,暴露了ChatGPT的局限性。对于这种假设,研究者试图通过更严谨的实验呈现“ChatGPT性能和时间关系的变化”。

ChatGPT笨了,还是老了?

来自斯坦福大学和加州大学伯克利分校在7月份提交的一篇题为《How is ChatGPT's behavior changing over time?》的研究论文显示:同一个版本的大模型,确实可以在相对较短的时间内发生巨大变化。

从3月份到6月份,研究者测试了GPT-3.5和GPT-4两个版本,采集了四个常见的基准任务数学问题、回答敏感问题、代码生成和视觉推理的生成结果,并进行评估。结果显示,无论是GPT-3.5还是GPT-4,二者的性能和生成结果,都有可能随时间而变化。

数学能力方面,GPT-4(2023年3月)在识别质数与合数方面表现得相当不错(84%准确率),但是GPT-4(2023年6月)在相同问题上的表现不佳(51%准确率)。有趣的是,CPT-3.5在这个任务上6月份的表现要比3月份好得多。

不过在敏感问题方面,GPT-4在6月份回答敏感性问题的意愿较3月份下降;代码能力方面,GPT-4和GPT-3.5,都在6月份表现出比3月份更多的错误。研究者认为,虽然ChatGPT的性能和时间没有明显的线性关系,但是准确性确实会飘忽不定。

ChatGPT笨了,还是老了?

这不仅是ChatGPT自己的问题,也是此前所有AI模型的通病。根据麻省理工学院、哈佛大学、蒙特雷大学和剑桥大学2022年的一项研究表明,91%的机器学习模型都会随着时间的推移而退化,研究者将这种现象称为“人工智能老化”。

例如,Google Health曾经开发了一种深度学习模型,可以通过患者的眼睛扫描来检测视网膜疾病。该模型在训练阶段的准确率达到90%,但在现实生活中却无法提供准确的结果。主要是因为在实验室,采用高质量的训练数据,但是现实世界的眼睛扫描质量较低。

受制于机器学习模型老化的情况,过去走出实验室的AI技术,以单一的语音识别技术为主,智能音箱等产品因此最先普及。根据美国人口普查局2018年对58.3万家美国公司的调查,只有2.8%使用机器学习模型来为其运营带来优势。

不过伴随着大模型智能涌现能力的突破,机器学习模型的老化速度明显减弱,逐渐走出实验室面向更广泛的受众。不过,涌现能力的黑盒下仍有不可预测性,让不少人对于ChatGPT能否长期保持AI性能的不断提升提出质疑。

黑盒下的抗衰老性

人工智能老化的本质,其实是机器学习模型的范式缺陷。

ChatGPT笨了,还是老了?

过往,机器学习模型是按照具体任务和具体数据的对应关系进行训练。通过大量的例子,先教给模型,那个领域中什么是好,什么是坏,再调节一下模型的权重,从而输出恰当的结果。这种思路下,每做一些新的事情,或者数据分布有明显变化,都要重新训练一遍模型。

新事情和新数据无穷无尽,模型就只能刷新。但是模型的刷新也会导致过去做得好的事情突然做不好了,进一步限制应用。总结来看,传统的机器学习模型中,数据飞轮本质是为了迭代模型,用新模型解决新问题的范式。

不过以ChatGPT为代表的大模型,涌现出自主学习能力,突破了这种范式。过往的机器学习,是先“吃”数据,之后“模仿”,基于的是对应关系;ChatGPT类的大模型,是“教”数据,之后“理解”,基于的是“内在逻辑”。

这种情况下,大模型本身不发生变化,理论上可以永葆青春。不过也有从业人士表示,正如大模型的智能涌现一样,是非线性发展、不可预测的,是突然就有的。对于大模型是否会随着时间发生衰老,涌现出难以预测的不可确定性也是未知的。

换句话说,ChatGPT在涌现出难以理论化推导的智能性能后,也开始涌现出难以预测的不可确定性。

对于“涌现”的黑盒性,9月6日在百川智能Baichuan2开源大模型发布会上,中国科学院院士、清华大学人工智能研究院名誉院长张钹表示:“到现在为止,全世界对大模型的理论工作原理、所产生的现象都是一头雾水,所有的结论都推导产生了涌现现象。所谓涌现就是给自己一个退路,解释不清楚的情况下就说它是涌现。实际上反映了我们对它一点不清楚。”

在其看来,大模型为什么会产生幻觉这个问题,涉及到ChatGPT跟人类自然语言生成原理的不一样。最根本的区别在于,ChatGPT生成的语言是外部驱动的,而人类的语言是在自己意图的情况下驱动的,所以ChatGPT内容的正确性和合理性不能保证。

在经历过一系列概念炒作跟风上车之后,对于致力于开发生产力基础模型的人来说,面临的挑战将是如何确保其产品持续输出结果的可靠性和准确性。

不过对于大模型相关的娱乐产品而言,正如Character.AI 联合创始人Noam Shazeer在《纽约时报》上所说:“这些系统并不是为真相而设计的。它们是为合理的对话而设计的。”换句话说,它们是自信的废话艺术家。大模型的巨浪已然开始分流。

参考资料:

Gizmodo-IsChatGPTGettingWorse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

MachineLearningMonitoring-WhyYouShouldCareAboutDataandConceptDrift

M小姐沿习录-关于ChatGPT的五个最重要问题

清华大学人工智能国际治理研究院-对大模型的研究很迫切,不能解释不清楚就说“涌现”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-17 21:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

中国车企的大模型战争,才刚刚开始
...影响,他认为「只有大模型才能实现我真正想要的 2.0 的人工智能」。接着,在 2023 年 3 月中旬的小鹏汽车 2022 年 Q4 及全年财报电话会议上
2023-11-14 14:33:00
困在网页里的ChatGPT 想在移动生态里突围
...,开始复制ChatGPT最初的增长速度进行追赶。比如第二大人工智能聊天网站Character.Ai ,5月份的访问量为2
2023-06-29 16:14:00
HarmonyOS 4之后,留给小米OV的时间不多了
...。苹果公司“专属爆料师”郭明錤就表示,苹果在生成式人工智能(AIGC)方面的进展远远落后于竞争对手。或许是意识到这个问题,今年以来,苹果也在积极补课。最近有报道,苹果从Met
2023-08-11 10:00:00
李彦宏发出一张驶向应用新大陆的船票
今年以来,生成式人工智能(AI)的热度很高,但也颇有 \" 一边海水、一边火焰 \" 的状态:海外投资者已经到处兴奋地寻找应用机会,国内仍有不少观点认为这依然只是一次 AI 几次
2023-06-01 01:00:00
行业首个!海尔智家牵头成立智慧家庭大模型专委会
...质量检验检测中心、中国家用电器研究院以及家电企业、人工智能企业、高校、科研院等30多家单位共同发起成立。作为行业首个大模型的技术、标准、测评、应用、产业推广的专委会,该专委会
2023-08-23 16:00:00
AIGC带来新一轮工具革新,在协同办公领域是受阻还是爆发?
...提高用户忠诚度。03 ‍AIGC+协同办公打通了哪些场景?在人工智能时代,生成式 AI 的迭代为协同办公领域带来了新一轮的应用爆发和工具革新
2023-08-07 21:01:00
扎克伯格这一举动,将让中国90%大模型公司快速死亡
...的王慧文,大模型创业弄了一半,抑郁了,早早就退出了人工智能内卷,他或许提前看到了什么终局?王慧文的退出,并没有像他高调宣布进军大模型一样,引起什么产业波澜和反思。大家只是感叹
2023-07-21 15:26:00
全球都在搞AI,为什么是百度挣到钱?
...技术上长期投入的战略。得益于超过10年的积累,百度在人工智能领域已然形成了覆盖芯片层、框架层、模型层、应用层的全栈布局。在芯片层面,百度前瞻布局的高端芯片“昆仑芯”,已在多场
2024-02-29 13:45:00
...费复苏”“文旅井喷”“娱乐火爆”等三大特点。其中,人工智能受到各家重点关注,吸引大量用户,截至9月份,文心一言、讯飞星火、智谱清言、妙鸭相机等多款应用流量超百万。从用户画像上
2023-11-02 05:05:00
更多关于科技的资讯: