• 我的订阅
  • 科技

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试

类别:科技 发布时间:2024-09-30 09:51:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队,共同第一作者为上海交通大学博士生邱芃铖和吴超逸,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授,这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。

在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型,并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。

为了克服这一挑战,近期一篇发表在《nature communications》的论文全面地从数据、测评、模型多个角度考虑了多语言医学大语言模型的构建,做出了三项贡献:

1. 创建了一个包含 25.5 Billion tokens 的多语言医疗语料库 MMedC。

2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言,21 种医学子课题。

3. 推出了一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。

所有数据和代码、模型均已开源。

MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。

大规模多语医疗语料(MMedC)构建

在构建数据集方面,研究团队收集了一份多语言医疗语料库,命名为 MMedC。该数据集包含 255 亿 tokens,其内容来自于四个来源:

1. 通过启发式算法,从广泛的多语言语料库中(例如 CommonCrawl)筛选相关内容。

2. 搜集全球各地的电子版医疗教科书,并使用光学字符识别(OCR)技术转化为文本数据。

3. 从多个国家的许可的医疗相关网站抓取数据。

4. 整合已有的小型医疗语料库,以丰富和完善数据集。

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试

MMedC 数据集统计概览。图 a 展示了该语料库覆盖的语言对应的地域;图 b 提供了各种语言的详细数据量统计;图 c 深入呈现了每种语言数据的来源分布比例。

全面多语言医学能力测试基准数据集(MMedBench)构建

为了评估医学领域多语言模型的发展,研究团队设计了一项全新的多语言选择题问答评测标准,命名为 MMedBench。此基准测试的所有问题均直接源自各国的医学考试题库,而非简单地通过翻译获得,避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。

此外,研究团队还为每个题目提供了正确答案的详细解释。在评测过程中,要求模型不仅要选出正确答案,还需提供合理的解答理由。这样的设计不仅测试了模型回答选择题的能力,也测试其理解和解释复杂医疗信息的能力,从而更全面地评估其性能。

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试

MMedBench 数据统计。图 a 呈现了 MMedBench 训练集与测试集的基础数值统计信息;图 b 揭示了 MMedBench 样本在不同主题上的分布情况。

MMedBench 模型测评

研究团队对主流医疗语言模型在 MMedBench 基准上,对三种不同的测试策略进行了评估:

Zero-shot:适用于没有开源的模型,通过提供 Prompt,引导模型回答选择题,并解释其答案选择的原因。 PEFT Finetuning:适用于已开源的模型,首先利用 LoRA 技术对模型在 MMedBench 训练集上进行局部微调,然后在测试集上评估其性能。 Full model Finetuning:适用于已开源的模型,首先在 MMedBench 的训练集上进行全量微调,随后再在 MMedBench 的测试集上进行测试。

模型准确率评测

如表所示,主流的医学大语言模型在英语中通常表现出很高的准确率,但在非英语语言中的性能显著下降。具体来说,经过微调的 PMC-LLaMA 在英语上的平均准确率为 47.53,尽管其性能超过了同时期的其他模型,但仍显著落后于 GPT 模型。随后,随着更先进的基础模型的应用,开源模型开始缩小与 GPT 系列的差距。例如,在 MMedBench 的训练集上进行全量微调,Mistral、InternLM 2、Llama 3 的平均准确率分数为 60.73、58.59 和 62.79。在 MMedC 语料库上进行进一步自回归训练后,也观察到性能的提升。具体来说,最终模型 MMed-Llama 3 与其基座模型 Llama 3 相比,表现出了显著的性能提升,在全量微调评估下,MMed-Llama 3(67.75)平均准确率显著超越了 Llama 3(62.79)。对于 PEFT 微调也有类似的结论,即在 MMedC 上的进一步自回归训练带来了显著的收益。

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试

主流模型在 MMedBench 上的准确率评测。其中 “MMedC” 标志着模型是否在 MMedC 语料库上完成进一步预训练,“MMedBench” 则标志着模型是否在 MMedBench 的训练集上完成微调。需要注意的是,English,Chinese,Spanish 是四选一选择题,Russian 是二选一选择题,French,Japanese 是不定项选择题。只有模型输出完全正确时,才会被视为正样本。“Avg.” 代表这六种语言的平均准确率。

模型解释答案能力评测(ROUGE-1/BLEU-1)

除了多项选择问答任务外,研究还扩展到评测各种大型语言模型的推理能力具体来说,对于给定的问题和选项,模型在输出选择答案的同时,还需要输出选择该答案的理由。下表展示了主流模型在 MMedBench 上对选择题答案的解释能力。

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试

主流模型在 MMedBench 上进行答案解释能力评测。使用的自动指标是 BLEU-1/ROUGE-1。

考虑到基于句子相似度的自动指标不一定能准确地反应人类偏好,研究团队进一步对模型生成的答案解释进行了人工评估,精选了六种代表性强的语言模型进行研究,并对人工评价结果与自动评估指标的一致性进行了深入分析。

模型打分结果对比分析。图 a 展示了按照 BLEU 分数、人工质量排序和 GPT-4 质量排序的量化分数。图 B 展示了自动指标和人类评估之间的相关性,其中 k 代表拟合直线的斜率,t 代表坎德尔相关系数。

公开英文评测基准模型测评

为了在英语基准测试上与现有的大型语言模型进行公平比较,研究团队还基于 MMed-Llama 3 基座模型进行英文指令微调(数据集来自 PMC-LLaMA)。常用的医疗多项选择问答基准测试有四个,分别是 MedQA、MedMCQA、PubMedQA 和 MMLU-Medical。如下表所示,MMed-Llama 3 在英语基准测试上展示了很好的表现,在 MedQA、MedMCQA 和 PubMedQA 上分别获得了 4.5%、4.3% 和 2.2% 的性能提升。同样地,在 MMLU 上,MMed-Llama 3 也在大部分结果中都能达到了开源大语言模型中最好的表现,显著超过了 GPT-3.5。

英语多项选择题答题基准的准确率评估。报告了每个模型在不同任务中的准确率,“Avg. ” 表示九个任务的平均得分。请注意,为公平起见,所有分数都是基于基本的 zero-shot 生成设置,没有额外的提示策略。由于英文基准已被广泛得应用,因此直接使用其原始论文中报告的分数。对于 MedAlpaca、GPT-4、GPT-3.5 和 Llama 3,它们的分数基于 Open Medical-LLM 排行榜。

数据侧消融实验

在数据侧的消融实验中,作者研究了不同的预训练语料构建过程造成的影响。消融实验是在全量微调下对 MMedLM、MMedLM 2 和 MMed-Llama 3 进行的,分别以 InternLM、InternLM 2 和 Llama 3 作为基础模型。总体而言,三个模型的结论是一致的,在接下来的讨论中,将重点关注最终模型 MMed-Llama 3。

研究团队区分了 HQ-Data(高质量数据)和 US-Data(未指定来源数据)。HQ-Data 包括来自书籍和网站的内容,这些内容经过了人工检验,而 US-Data 则是从一般通用语料库中筛选出的与医学相关的内容。如下表所示,为选择题配备选择理由可以辅助模型更好地理解问题,从 58.72 提高到 62.79,增幅 4.06(对比各模型结果表格的第一行与第二行)。然而,仅在 MMedC 的英语部分进行进一步的自回归训练(参考 MMed-Llama 3-EN)并没有带来准确率的提升。这可能是因为过拟合英语,尽管在英语中的性能优越,但在其他语言中的结果较差。当将自回归训练扩展到整个多语言医学语料库时,这个问题可以在很大程度上得到缓解,显著改善最终结果。这不仅提高了选择准确率至 64.40,还分别在 BLEU-1 和 ROUGE-1 上提高了推理能力 0.48 和 0.54(对比各模型结果表格的第三行与第四行)。此外,引入自动收集的 US-Data 有助于进一步将准确率从 64.40 提高到 67.75,显著增加了 3.35(参考 MMed-Llama 3)。在解释能力上也可以观察到性能增益,即 BLEU-1 增加 0.29,ROUGE-1 增加 0.16。

消融实验。其中 HQ-Data 与 US-Data 用于区分医疗数据是否经过人工审核。具体而言,通过启发式算法从 CommonCrawl 自动获取的数据被归类为 US-Data(未审核数据),而来自其他来源的语料信息均经过了严格的人工审核,因此被标记为 HQ-Data(高质量数据)。

研究与临床价值

在本项工作中,研究团队首次引入了医疗领域的多语言大模型,这对研究和临床实践都有着重要的影响。在研究方面,本工作促进了以下研究的发展:

通用医疗人工智能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展可用的多模态训练数据,提升对其它模态信息表征的质量。 增强检索的生成任务:在当前的大型语言模型中,"幻觉" 问题被认为是一个主要挑战,尤其是在医疗领域。一种有效的解决策略是开发具有检索功能的架构,其核心思想是通过从额外的知识库中检索事实信息,并将这些信息输入到大型语言模型中,来增强其输出的准确性。然而,迄今为止,大部分的研究都集中在英语上,这极大地限制了检索增强方法对其他语言知识库的利用。通过开发多语言的医疗模型,能够极大地提高检索过程对不同语言知识库的利用。

在临床实践中,开源的多语言医疗模型也能缓解以下挑战:

语言障碍。在众多医疗保健系统中,语言障碍是患者与医疗服务提供者之间有效沟通的一个主要障碍。这种障碍可能导致误解、误诊,最终使得高质量的医疗资源对大多数人而言变得难以触及。通过提供实时翻译服务,多语言医疗级大型语言模型使患者能够清晰表达自己的症状,并准确理解其诊断与治疗方案。 深入理解文化与法律的异同。多语言医疗语言模型能够通过进一步的指令微调,以识别并应对不同国家在医疗诊断过程中的文化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解,不仅可以显著增强用户对医疗大语言模型的信任,还能促进更高质量的医疗服务体验,确保医疗服务的全球化和个性化。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-30 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

openai发布多语言大规模多任务语言理解
...23日)发布博文,报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解(MMMLU)数据集
2024-09-24 22:07:00
重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...标贝科技致力于为大语言模型提供终身学习语料ChatGPT的大规模语言模型浪潮兴起伊始,对数据也提出了全新的要求。如何为大语言模型提供的、多样化高质量语料,成为行业面临的共同挑
2023-05-18 18:00:00
击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B都写在论文里
... 和 8B 模型这些较小模型的质量。3、为了支持 405B 模型的大规模生产推理,Meta 将 16 位 (BF16) 量化为 8 位 (FP8)
2024-07-25 09:32:00
腾讯ailab发现了chatgpt的又一个短板
...性:ChatGPT是基于GPT-3开发的模型,GPT-3在涵盖各种领域的大规模数据集进行上训练,因此,在特定领域的表现
2023-02-14 15:51:00
迎接新一轮AI狂欢,小i机器人厚积薄发|智氪
...对话式AI领域,而小i机器人便是最早将人机交互技术引入大规模商用的技术厂商之一。早在2006年,小i机器人上线第一款B端产品“上海科委海德先生”,成功摸索出一条智能客服商业化
2023-03-10 17:56:00
Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源
...100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言
2023-08-24 11:03:00
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL
2023-10-30 15:35:00
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购
2024-11-21 09:45:00
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您
2024-10-29 09:55:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 沈彦彦)近日,厦门市商务局、厦门市财政局联合印发《厦门市促进直播电商产业园(基地)高质量发展扶持办法》(以下简称《扶持办法》)
2025-10-13 08:47:00
牢记嘱托 感恩奋进—— 安徽往前赶 | “风神之眼” 开启智慧送风时代 美博助推安庆宜秀“智造” 出海
大皖新闻讯 “人在哪,风就到哪!”10月10日,“牢记嘱托 感恩奋进 —— 安徽往前赶” 集中采访团走进安庆市宜秀区美博集团安庆智能化制造基地
2025-10-13 09:51:00
近日,在中国人民银行雄安新区分行指导下,中国银行河北雄安分行推动数字人民币硬钱包在雄安新区容东片区南文营社区食堂正式启用
2025-10-13 10:13:00
广州:“以税赋能”提振消费 黄金假期“好旺好彩”
羊城焕彩,共贺金秋。今年国庆假期与中秋佳节“快乐叠加”,又恰逢十五运会举办的冲刺阶段,广州旅游、餐饮、零售等消费场景迎来多轮热潮
2025-10-13 10:21:00
网友新手机号意外登录李玟账号,网易云回应
10月11日,有网友发文称,使用新办理的手机号注册网易云音乐时,通过短信验证码直接登录了歌手李玟的账号。登录后,该网友还能在账号后台看到粉丝们发来的怀念私信
2025-10-13 10:34:00
雷军开启小米汽车高原测试,回应没舍得买8000元的小刀
10月12日,小米创办人,董事长兼CEO雷军微博发文:我们测试车队来到了盘龙古道,海拔3500多米,连续急弯的山路,30公里山路超过600多个弯路
2025-10-13 10:35:00
果立方郑州突围记:新消费品牌如何在中原大地完成势能跃迁
河南,一种新的入场规则过去,新消费品牌的“入场券” 似乎必须由北上广深来颁发:要在北上验证市场,因为这里聚集着引领潮流的年轻人
2025-10-13 11:01:00
2025 VDC安全与隐私分会:技术持续创新,夯实安全地基
2025年度vivo开发者大会于10月10日成功举办。此次大会以“同心•同行”为主题,开设主会场及11大分会场。其中,在安全与隐私分会上
2025-10-13 11:04:00
齐鲁晚报·齐鲁壹点 李可 通讯员 马传哲近日,在郓城农商银行重点行业营销专项汇报会上,某支行行长对升级后的智慧服务平台赞不绝口
2025-10-13 11:09:00
据央视新闻报道,全国首张“职业弹幕人”罚单近期落地:北京市市场监管局对一家销售“燃咔果冻”的生物科技公司开出10万元罚单
2025-10-13 11:14:00
海尔空调双11将推可感知呼吸、可一键托管等新发明
与利物浦、巴黎圣日耳曼并肩,和中国女排同行!当竞技精神遇上空气科技,海尔空调以“可触摸、可感知”的千人“众测”开启双11
2025-10-13 11:39:00
填补空白!海尔智能门锁主导的《AI智能锁》团体标准发布
随着人工智能飞速发展, AI智能锁正成为市场新宠。奥维云网公布的消费者调研数据显示,超60%的用户愿为了AI智能锁而加价买单
2025-10-13 11:40:00
央视财经综合《新西兰先驱报》等媒体12日报道,美国微软公司将于10月14日起,停止对Windows 10系统提供安全更新和技术支持
2025-10-13 11:42:00
“大地之子”C位出道!深圳车展跨界顶流艺术IP,打造国庆打卡新地标
2025深圳国际车展在跨界融合中开辟新路径,通过引入现象级艺术IP“大地之子”,成功打造了一场艺术与汽车工业深度对话的盛宴
2025-10-13 12:10:00
海尔集团与阿里巴巴达成全面AI合作
10月11日,海尔集团与阿里巴巴集团签署全面战略合作协议,达成全面AI合作。双方将充分发挥海尔的全生态布局与阿里的全栈AI能力优势
2025-10-13 12:29:00