• 我的订阅
  • 科技

ChatGPT击败50名人类医生!疾病诊断准确率达90%

类别:科技 发布时间:2024-11-19 09:43:00 来源:量子位

用ChatGPT诊断疾病,准确率已经超过了人类医生?!

斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下,这一数字提升到了76%。

有意思的是,如果完全让ChatGPT“自由发挥”,准确率直接飙到了90%。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

据纽约时报说,面对这一结果,参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价,在这样的案例中,人类的干预,反而是给大模型的表现“拖了后腿”。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

OpenAI总裁Brockman也转发了这则消息,表示看来AI还有巨大的潜力,但在和人类合作这件事上,还需要再加强。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生,其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分,这50名医生包括26名主治医生和24名住院医生,工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组,区别是在诊断中是否允许使用ChatGPT。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

另外,研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT,6人只用过一次,15人使用频率少于每月一次,13人每月多于一次但少于每周一次,8人每周至少使用一次。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

病例方面,研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均来源于真实病人,包含病史、体检和实验室检查结果等初步诊断评估信息,但最终诊断结果从未公开。

这意味着,人类医生无法预先知晓答案,ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例,确定至少10个满足纳入标准的候选病例,需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致,确定6个最终入选病例,预计受试者完成时间为1个小时。

入选的病例还要经过编辑,改写成现代化实验室数据报告的格式,并用将专业术语替换为通俗描述(如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”)。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

在评估方法上,研究团队设计了一个基于“结构化反思”的评估工具。

具体来说,参与者需要填写一个结构化的表格,其中包含以下关键要素:

最可能的三个鉴别诊断(3分):参与者需要根据病例信息,列出他们认为最有可能的三个诊断,每个正确的诊断可以获得1分,最多3分; 支持和反对每个诊断的因素(12分):对于每个鉴别诊断,参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级,0分表示错误或缺失,1分表示部分正确,2分表示完全正确; 最终诊断(2分):在综合考虑各鉴别诊断的支持和反对证据后,参与者需要给出最终诊断。最佳诊断得2分,次佳但合理的诊断得1分,错误诊断不得分; 后续步骤(2分):参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级,0分表示错误,1分表示部分正确,2分表示完全正确。

在正式实验之前,研究团队招募了13名医生,收集了共65个试点病例的结构化反思表格,并邀请3名临床评估专家进行盲评,从而对评分量表进行了优化。

最终,50名参与者需要在1个小时时间内,完成6个病例的结构化反思表格。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

每个病例会被2名评分员独立盲评,如果两名评审员评分相差不超过10%,则直接取平均值;

如果差异超过10%,则认为两名评审员存在分歧,需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容,研究人员公布了六个病例中的一个,以及对应得分高和得分低的医生的答案。

一名76岁的男性患者,走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天,疼痛开始出现。手术后,他接受了48小时的血液稀释剂肝素治疗。该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明,他的贫血症再次发作,并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果,正确的诊断是“胆固醇栓塞”,两名医生以及GPT-4给出的回答如下(中间理由和后续操作略)。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

最终,实验组(使用ChatGPT)的诊断得分中位数为76%,对照组为74%。

由于每个参与者完成了多个病例,因此病例之间可能存在相关性,所以为了妥善处理这种嵌套结构,作者使用了混合效应模型。

这类模型不仅考虑了干预的固定效应(即是否使用大模型的影响),还考虑了参与者和病例的随机效应。

根据混合效应模型估计,两组的差异为2个百分点,95%置信区间为-4到8个百分点,p值为0.60。

这意味着,尽管实验组的得分略高于对照组,但这种差异可能仅仅是由于随机误差所致,不具有统计学意义。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

如果单纯看最终诊断结果,以及完成测试所花费的时间,两组之间同样没有体现出明显的差别。

除此之外,作者还补充了单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架,迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素,且每个病例使用相同的提示。

一名研究者会将优化后的提示,连同病例内容输入ChatGPT,每个病例独立运行三次。

ChatGPT击败50名人类医生!疾病诊断准确率达90%

研究者会不对ChatGPT的输出做任何人工修改,直接交给评分者一同盲评,而且评分员也不知道哪些结果由ChatGPT生成。

结果,单独使用ChatGPT得到的诊断得分,中位数高达92%,明显高于对照组,且p值为0.03,具有统计学意义。

需要注意的是,这些病例是经过人类临床医生精心筛选和总结的,人类已经对其中的关键信息进行过提取。

实际临床工作中,从病人那里获取信息、收集数据的过程更加复杂,因此实验结果并不代表大模型能在临床场景中取代人类。

但同时,“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异,也说明了人类的使用方式,还远远不能发挥出大模型的最大效能。

所以,就像开头Brockman说的一样,这个实验预示着,人类和AI之间,还需要进一步加强合作。

论文地址:https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395参考链接:[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html[2]https://x.com/gdb/status/1858337346514485362

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-19 11:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

搜狐医药 | 深圳“AI病理医生”上岗,能“一眼”识别癌细胞,未来有望诊断肺癌、乳腺癌
...”就能分辨患者罹患的是肺腺癌还是肺鳞癌的水平,而且准确率高达97%。医生读片要10分钟以上,AI一秒“划出重点”病理医生被称为“医生中的医生”“医学的福尔摩斯”。他们所出具的
2025-03-10 12:44:00
英国医院将用AI“死亡计算器”预测人的寿命:明年开始试用,将招募数百名患者
...数字。据悉,“死亡计算器”预测患者10年内死亡风险的准确率可达78%。这项技术将在明年年中于伦敦的两家英国国家医疗服务体系(NHS)信托医院试用,专家希望未来五年内推广至整个
2024-11-05 13:35:00
AI “早筛” 癌症,准确区分13种癌症,准确率98.2%,人类尽早治疗癌症还远吗?
...类型的癌症(包括乳腺癌、肝癌、肺癌和前列腺癌等),准确率高达 98.2%。相关论文以“Early detection and diagnosis of cancer with
2024-06-27 08:48:00
AI医生来了,你敢信它的诊断吗
...取得了患者同意。除了数据,模型设计也能提升医疗AI的准确率。田丰说,商汤成立了一支近百人的医学专家团队,参与数据标注、模型训练及测试,保证AI能够完成多轮问诊、不回答患者非医
2023-08-21 17:10:00
...跳声,与数据库中的海量数据进行比对,“它让基层筛查准确率提升60%、复杂先心病诊断准确率提升至95.3%。”舒强说
2025-03-11 08:46:00
...一定程度上避免了对周围正常组织的损伤,提高了穿刺的准确率及安全性。”目前,浙江省人民医院已成功开展数百EBUS-TBNA活检病例。在和患者及家属充分商议后,邬盛昌在麻醉医生的
2025-01-25 07:01:00
阑尾炎症状多样,如何准确判断?普外科医生教你识别
...过这些策略的实施,医疗团队不仅能提高对阑尾炎的诊断准确率,也能在治疗上作出更及时的决定,从而减少患者的不必要痛苦和医疗风险。对患者来说,增加对这一疾病的了解和对症状的认识,是
2024-05-27 13:08:00
AI儿科医生正式“上岗” 助力儿科医疗提质增效
...诊。倪鑫说:“通过我们这么大团队进行验证,有这么大准确率,相信它的误诊率会极低。当然,真正出现误诊的话,责任肯定是我们现实的医生,因为他是真正存在的具有医师资格的大夫。AI医
2025-02-21 10:15:00
“超声+ AI算法”新技术 提高肝包虫病早筛率
...吉说。包虫病又称为棘球蚴病,是一种严重的人畜共患的疾病,多发于高山草甸地区和牧区及半农半牧区,家犬和狐狸等动物是主要传染源。其潜伏期长,特别是泡型包虫病,因其致死率高,又被称
2024-04-02 18:06:00
更多关于科技的资讯:
三福×海鼎:印尼雅加达首店背后的全球化战略起航
在存量竞争与增长挑战并存的时代,出海已从“可选项”变为品牌寻求突破的“必答题”。成立于1992年的中国知名零售品牌三福
2026-03-06 14:10:00
2026年青岛市“产创融合”赋能服务季暨市南区AIGC·OPC创业能力提升营招募令
鲁网3月6日讯一人成军·创享未来!AI时代,“一人成军”的机会来了!为全方面赋能AIGC·OPC创业者,市南区将举办以“一人成军·创享未来”为主题的2026年青岛市“产创融合”赋能服务季暨市南区AIGC·OPC创业能力提升营
2026-03-06 11:10:00
传闻喊涨,门店未动!杭州手机市场实探:现在买还是再等等?
近日,“手机3月份大涨价”话题冲上社交平台热搜,恰逢开学季换机需求集中释放,不少市民担心购机成本上升。网传全品类手机将迎来普涨
2026-03-06 11:18:00
跨境版爱他美进口奶粉缺货,杭州宝妈急了
“我儿子吃的奶粉,跨境电商平台一直没有发货,是不是因为中东那边影响?”最近,杭州市民徐女士焦急地向朋友倾诉着对儿子“口粮”断供的担忧
2026-03-06 11:18:00
鲁网3月6日讯“从‘劳保小店’到智慧仓储,再到如今的现代化商城,在新明辉成长的每一个阶段,我都有一个‘小愿望’。”全国人大代表
2026-03-06 11:46:00
招工“抢跑”、AI“助跑”,潍坊“春风行动”折射用工新趋势
鲁网3月6日讯(记者 王玉龙)农历正月十二,年味尚未散尽,潍坊新华路人力资源市场已是人头攒动。2026年潍坊“春风行动”暨就业援助季开年首场招聘会在这里拉开帷幕
2026-03-06 11:47:00
中新经纬3月6日电 据路透社报道,故障监测平台Downdetector周四(3月5日)数据显示,亚马逊的电商网站在发生故障
2026-03-06 12:06:00
中国科大揭示聚焦光场中内禀自旋纹理
大皖新闻讯 3月6日,大皖新闻记者从中国科学技术大学获悉,该校物理学院席铮特任教授团队在拓扑光场研究方面取得重要进展。研究团队揭示并验证
2026-03-06 13:13:00
在医美填充剂市场,胶原蛋白正迎来一场价值回归。从早期的动物源胶原到重组胶原,再到如今兼具活性与支撑力的三代胶原,技术的演进让“长效活性”成为新的关键词
2026-03-06 11:44:00
《2026胡润全球富豪榜》昨发布厦门上榜企业家人数大幅增加字节跳动创始人张一鸣蝉联中国首富,安踏丁世忠仍是厦门首富厦门网讯(厦门日报记者 李晓平)昨日
2026-03-06 08:33:00
厦门“她经济”升温 带动春日消费热潮
各大商场景区纷纷推出优惠活动,鲜花依旧是热卖品项。图为市民在天虹超市选购鲜花。厦门网讯(文/图 厦门日报记者 沈彦彦)“三八”妇女节临近
2026-03-06 08:33:00
【奋进“十五五”·代表委员献良策】张云泉委员:推进算力与智能体技术创新,夯实AI核心技术根基
全国政协委员张云泉。中国网3月6日讯(记者 谢露莹)今年是“十五五”规划开局之年,如何在新一轮科技革命和产业革命加速演进中占先机
2026-03-06 08:48:00
向新向优 河北力量|全国第一!河北算力指数折射发展新动能
全国第一河北算力指数折射发展新动能整理/河北日报记者 米彦泽 制图/喻萍算力是数字经济时代的新型生产力,是人工智能的基石之一
2026-03-06 09:18:00
向新向优 河北力量|覆盖率100%!共享智造赋能107个重点产业集群
覆盖率100%共享智造赋能107个重点产业集群■阅读提示2024年以来,河北省委、省政府审时度势,以“共享智造”为钥,开启县域特色产业跃升之门
2026-03-06 09:18:00
【宅男财经|财眼观两会】全国政协委员、新希望集团董事长刘永好接受中新经纬采访时称,作为民营企业家,最关注的是民营企业的健康
2026-03-06 10:08:00