• 我的订阅
  • 科技

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

类别:科技 发布时间:2023-11-21 13:59:00 来源:机器之心Pro

机器之心专栏

机器之心编辑部

人工智能(AI)在医学影像诊断方面的应用已经有了长足的进步。然而,在未经严格测试的情况下,医生往往难以采信人工智能的诊断结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。

为了增强医生对辅助医疗的人工智能之间的信任,让 AI 通过一个医生必须通过的资格考试或许是一个有效的方法。医学执照考试是用来评估医生专业知识和技能的标准化考试,是衡量一个医生是否有能力安全有效地护理患者的基础。

在最新的研究中,来自马萨诸塞大学、复旦大学的跨学科研究人员团队利用生成式多模态预训练模型 GPT-4V (ision) 突破了人工智能在医学问答中的最佳水平。研究测试了 GPT-4V 回答美国医学执照考试题的能力,特别是题目包含图像的考题 —— 这对医疗人工智能系统来说一直以来都是一项挑战。

该研究表明,GPT-4V 不仅超越了 GPT-4 和 ChatGPT 等前辈,还超越了大部分医学生,为人工智能能够作为辅助诊断和临床决策的工具提供了理论上的可能。该研究分析了 GPT-4V 在不同医学子领域的性能。

同时,该研究还指出了医疗人工智能在一致解释方面的局限性,强调了人机协作在未来医疗诊断中的重要性。

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

测试问题收集

该研究中,用来测试人工智能医学执照考试的题型为涉及不同医学领域、难度各异的带有图像的选择题。论文作者们选择了来自美国医学执照考试(USMLE)、医学生考试题库(AMBOSS)和诊断放射学资格核心考试(DRQCE)的三套选择题,共计 226 道题(28 个医学领域),来测试 GPT-4V 的准确性。

其中 AMBOSS 和 DRQCE 的数据未公开,需要用户注册后才能获取。AMBOSS 数据集中的每个问题都设定有对应的难度。问题按难易程度分五级,1、2、3、4 和 5 级分别代表学生第一次作答时最容易答对的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的问题。

此外,作者们还收集了医疗专业人士的偏好,用以评估 GPT-4V 的解释是否违背医学常识。当 GPT-4V 做错的时候,作者们还收集了来自医疗专业人士的反馈,用来改善 GPT-4V。

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

用美国医学执照考试(USMLE)中包含图像的考题测试 GPT-4V。

准确性

结果显示,GPT-4V 在带有图像的医学执照考试题上表现出了很高的准确率,分别在 USMLE、AMBOSS 和 DRQCE 上达到了 86.2%、62.0% 和 73.1%,远远超过了 ChatGPT 和 GPT-4。与准备考试的学生相比,GPT-4V 的大致排名能达到前 20-30% 的水平。

而在 2022 年,美国医学执照考试大约有前 90% 的考生通过了考试,这意味着 GPT-4V 想要获得通过,也相对较为轻松。GPT-4V 的准确率反映了它掌握大量生物医学和临床科学知识,也能够解决医患相处中遇到的问题。这些都是进入医学临床实践的必备技能。

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

GPT-4V在美国医学执照考试(USMLE)的测试表现远远超过了 ChatGPT 和 GPT-4。

在使用提示和不使用提示的情况下,GPT-4V 在 AMBOSS 的准确率分别为 86% 和 63%。随着问题难度的增加,不使用提示时 GPT-4V 的表现呈现下降趋势(卡方检验,显著性水平 0.05)。然而,当使用提示提问时,这种下降趋势并未明显观察到。这表明,来自医疗专业人士的提示可以很好的帮助 GPT-4 做出正确的决策。

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

GPT-4V 和学生在不同难度 AMBOSS 考试上的准确率

解释性

在解释质量方面,作者们发现,当 GPT-4V 回答正确时,医疗专业人士对 GPT-4V 给出的解释与专家给出的解释的偏好相差不大。这说明 GPT-4V 的解释具有可信度和专业性。作者们还发现,在 GPT-4V 的解释中,有超过 80% 的回答包含了对题目中图像和文本的解读,这说明 GPT-4V 能够利用多模态的数据来生成回答。

然而,当 GPT-4V 回答错误时,它的解释中也存在一些严重的问题,例如图像误解(Image misunderstanding)、文本幻觉(Text hallucination)、推理错误(Reasoning error)等,这些问题可能会影响 GPT-4V 的可靠性和可解释性。

GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?

针对每道考试题,医疗专业人员从专家生成的解释和 GPT-4V 生成的解释中选择偏好。考试分为 Step1, Step2CK, Step3 共 3 个阶段。每个阶段抽取 50 道题目进行测试。

作者发现许多 GPT-4V 回答错误的解释是图像误解。在 55 个错误回答中,有 42 个回答(76.3%)是由图像理解错误所导致的。相比之下,只有 10 个回答(18.2%)错误归因于文本幻觉。

针对图像误解,作者建议使用以图像或者文字为形式的提示。例如,医生可以用箭头指示图中重要的位置,或者用一两句话来解释图像的意义来提示模型。当医生使用文字提示的时候,就有 40.5% (17/42 个) 之前错误的回答被 GPT-4V 改正了。

辅助诊断的潜力

作者还展示了使用 GPT-4V 作为影像诊断辅助工具的可能性。基于一个高血压病人的病例报告,医生对 GPT-4V 进行提问。定性分析表明,GPT-4V 能够根据 CT 扫描图像、化验单和病人症状等其他信息,提供鉴别诊断和后续检查的建议。详细分析请参考原论文。

结论与展望

作者们认为,GPT-4V 在带有图像的医学执照考试题上展现了非凡的准确率,在临床决策支持方面,GPT-4V 具备无穷的潜力。然而,GPT-4V 还需要改进它的解释质量和可靠性,才能真正适用于临床场景。

论文中尝试使用提示来改进 GPT-4V 的判断,取得了不错的效果,这为未来的研究提出了一个有希望的方向:开发更精细的人类人工智能协作系统,使得其成为临床环境中更可靠的工具。随着技术的不断进步和研究不断深入,我们有理由相信,AI 将在提高医疗质量、减轻医生工作负担和促进医疗服务普及化方面继续发挥重要作用。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-11-21 14:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

脑机接口,离临床应用还有多远
...于脑机接口技术,用于治疗难治性癫痫患者,目前已完成大部分临床研究,有望明年投入应用。医保政策对脑机接口的支持,不仅加速了技术的临床应用,也减轻了患者的经济负担。张建民认为,医
2025-03-20 09:03:00
中国学医的人那么多,为何还缺好医生?
...?葛均波:进行过专培的医生,并不意味着水平就更高,大部分医院也没有硬性规定,一定要进行专培。现在全国范围内,专培还没有正规化,只是试点。五六年前,我联合其他几名政协委员一起呼
2023-03-13 08:44:00
...历背景而引发争议。近年来,国内部分高校推行的“4+4”医学生培养模式,是效仿美国医学教育推出的模式,指的是4年非医学专业教育加4年医学教育。这种模式允许已经有4年非医学专业的
2025-04-29 22:49:00
阿尔茨海默病离“治愈”还有多远
...常的小胶质细胞,且TREM2基因缺陷小鼠原有的小胶质细胞大部分被健康细胞取代,恢复了正常的TREM2活性。最重要的是,那些过去有TREM2基因缺陷的小鼠在接受移植后,淀粉样蛋
2024-02-21 05:22:00
...仍面临困难和风险。可供移植的器官短缺是全世界面临的医学难题。美国非营利机构“器官共享联合网络组织”的数据显示,仅美国就有超过10万人等待器官移植,平均每天有17人在等待的过程
2024-03-29 18:18:00
史上ai最高分,谷歌大模型创美国医师执照试题新纪录
...队以医疗问答为研究对象,做出了以下贡献:提出了一个医学问答基准 MultiMedQA,包括医学考试、医学研究和消费者医学问题
2022-12-28 16:09:00
跨国药企创新抗癌药集体亮相进博会,肿瘤距离治愈还有多远?
...泰)等,进行合作开发,开展本地注册、生产及商业化。大部分肿瘤的发病机制往往比较复杂,但HPV疫苗的上市却使得宫颈癌成为目前唯一可以早期预防并有望彻底根除的癌症。进博会期间,北
2024-11-07 22:14:00
...风选择所谓的热门专业。除去有明确兴趣爱好的学生外,大部分高考生对于大学专业了解较少,可通过网络课程对某一专业进行系统性学习,了解该专业的知识结构,进而确定该专业是否是自己真正
2023-06-27 02:56:00
想报山大?621分以上有希望!还有这些高校给出建议
...必选。2.9万名以内可报考医学技术类、药学类相关专业,大部分专业要求“物理+化学+生物”三选一。13万名以内可报考生物制药类、护理学类、医学工程类、医疗文管类等相关专业。大部
2023-06-26 16:17:00
更多关于科技的资讯:
正雅发布2025年度发展报告:全球布局持续深化
2025年,正雅在正畸技术研发、国际学术交流与海外市场布局等方面持续推进,多项阶段性成果逐步落地,GS颌位重建技术的临床应用规模与国际影响力进一步扩大
2026-01-06 11:14:00
元旦假期厦门消费市场“火力全开”“以旧换新”带动消费超5000万元东南网1月6日讯(海峡导报记者 孙春燕)新年伊始,厦门消费市场就展现出十足的活力
2026-01-06 12:42:00
这家人工智能科普馆带你开启奇幻旅程
2025年12月21日,在廊坊市人工智能科普馆,讲解员为小朋友讲解AI知识。河北日报记者刘杰摄当好奇心满满的孩子邂逅AI前沿技术
2026-01-06 12:43:00
夸克等AI眼镜首次被纳入以旧换新“国补”范围 商务部开启调研
2025年12月30日,国家发改委、财政部发布《关于2026年实施大规模设备更新和消费品以旧换新政策的通知》(简称“通知”)
2026-01-06 13:31:00
传统城市形象传播中,政府是主导者。而具创新性的广州“城市合伙人”计划则打破传统赞助模式的边界,向全球征集“奋斗共同体”
2026-01-06 11:04:00
河北日报讯(记者刘英)近日,《廊坊市人工智能产业聚集区建设方案》(以下简称《方案》)正式发布,系统谋划布局人工智能产业发展新蓝图
2026-01-06 08:14:00
京津研发河北转化进行时(五):创新种子何以在这里开花结果
近三年间,12项京津研发成果在晨光生物完成转化创新种子何以在这里开花结果近日,位于曲周县的晨光生物科技集团股份有限公司中试中心内
2026-01-06 08:18:00
四中全会精神在基层|“产业大脑”高效协同 线缆企业多重受益
2025年12月6日,宁晋县河北易缆网络科技有限公司展厅,易缆网平台负责人王洪喜介绍平台功能。 河北日报记者 闫德见摄2025年12月6日10点30分
2026-01-06 08:25:00
福建省“最美科技工作者”、厦门金鹭研发工程师高兰兰:微米之间磨刃 宝刀谁与争锋
高兰兰介绍立铣刀切削的弧度和精度。用UP300系列通用高性能立铣刀切削而成的“青鸾”金属雕塑。厦门网讯 (文/厦门日报记者 李晓平 图/厦门日报记者 黄晓珍)在金属切削的微观世界里
2026-01-06 08:38:00
厦门网讯 (厦门日报记者 林露虹)2025年12月以来,厦门企业融资捷报频传,主要涉及人工智能、新材料领域,彰显厦门在培育新质生产力方面的蓬勃活力
2026-01-06 08:38:00
临沂圣陶高级中学举行高三英语教学传承分享会
鲁网1月5日讯近日,临沂圣陶高级中学“杏坛薪火·师道赓续”专家教师教学传承分享会如期举行,为高三英语一轮复习注入新动能
2026-01-06 09:37:00
20个福建品牌入选中国消费名品其中5个来自厦门,分别为银鹭、暴龙、鹭岛卫浴、瑞尔特和燕之屋东南网1月6日讯(海峡导报记者 黄奕琳)昨日
2026-01-06 10:33:00
厦门网讯(厦门日报记者 沈彦彦)新年伊始,政策红利与节庆消费碰撞出红火“好市”。据厦门市商务局发布的数据显示,2026年元旦假期
2026-01-06 08:38:00
国补山东落地 山东消费者来京东换新单人至高可省11000元
1月4日,2026年国家以旧换新补贴落地山东,京东线上线下全面承接国家补贴落地。山东消费者到京东APP搜索“山东以旧换新”即可进入国补页面
2026-01-06 10:12:00
内存硬盘身价翻倍 存储产品成“年度理财产品” 业内预测:今年手机、电脑将迎来涨价
移动固态硬盘价格比一年前明显上涨“年初买的内存条年底价格已经翻倍!”“不看购买记录不知道,一看吓一跳,连固态硬盘的‘身价’都在一直上涨
2026-01-06 08:09:00