• 我的订阅
  • 教育

研究发现ChatGPT并非可靠信源

类别:教育 发布时间:2023-05-29 05:46:00 来源:每日看点快看

本文转自:解放日报

多伦多

研究发现ChatGPT并非可靠信源

加拿大科学家在日前出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。

为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的普通版ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。

研究人员发现,基于GPT-3.5的普通版ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高阶思维问题时表现不佳,正确率仅为60%。与此同时,基于GPT-4的加强版ChatGPT完成这些题目的正确率为81%,且在高阶思维问题上的正确率为81%,远好于普通版,但它在低阶思维问题上的正确率仅为80%,答错了12道题,而普通版ChatGPT全部答对了这些题目,这引发了研究团队对加强版ChatGPT收集信息的可靠性的担忧。

这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,那将非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-29 07:45:14

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

逢考必过?新版ChatGPT通过美放射学委员会考试
...和难度相当。对此,研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好
2023-05-18 11:00:00
南京九中“动生课堂” 吸引全市专家教师观摩
...情况明显提升,三个年级每天离校前作业基本全部完成,正确率也显著提高;九中高考成绩不断突破,各项数据都达到历史新高,2024届高三在最近一次模考中,49位同学进入全市前1800
2024-04-10 00:57:00
大模型权威报告:讯飞星火得分第一
...,其中Python主要以简答形式评估大模型的代码生成能力和正确率,其他则以客观题的形式考察。结果显示,讯飞星火80%的得分率明显高于71%的平均值,其他平台得分率基本相当。值
2023-08-18 09:35:00
...对大约一半的答案,经过数百次试验,这组鸽子最终将其正确率提高到平均68%。该实验的目的在于发现简单的联想机制能在多大程度上解决一项可能给人造成困难的任务,因为人类严重依赖规则
2023-02-11 17:57:00
研究显示chatgpt在会计考试中的表现远不及人类
...学运算能力。在问题类型上,ChatGPT比较擅长判断题(68.7%正确率)和选择题(59.5%正确率),但是在简答题上就很吃力(正确率在28
2023-04-25 19:40:00
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,
2024-03-13 10:26:00
历史:题型归类训练 提升核心素养
...高考真题的命题方向、高频考点及答案、语言风格的深入研究,是复习备考的基本方向。因此,苏玉滨老师建议考生,一定要重视回归基础、回归教材,多琢磨历年高考真题中的参考答案,有针对性
2024-04-12 17:57:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...时间、地名、人名的错误,人类在简单难度下的中文平均正确率约为 98.58%,在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误,人类在简单难
2024-06-29 09:37:00
...语言学习阶段。刚刚提到的Birdbrain就是用来控制闯关题目正确率的,如果犯错太多,说明内容推送太难,用户很容易没有学习动力,每次打开APP都很有心理压力,这肯定不是我们想
2023-07-25 10:06:00
更多关于教育的资讯: