书铭产品书铭产品

国内首个脑血管专病大 模 型亮相 对话参与医生:被AI“上了一课”

国内首个脑血管专病大 模 型亮相 对话参与医生:被AI“上了一课”

  每经记者(zhě) 林姿(zī)辰(chén)    每经编辑 张海妮    

  距(jù)离(lí)谷歌大模型(xíng)(MedPaLM 2)拿下美国医学执照考试已 经(jīng)快两年了(le),人工(gōng)智(zhì)能(AI)够资格成为临床医生的“假想敌”了(le)吗?

  今年7月,一篇(piān)发表于(yú)Nature Medicine的论文显示,即使是目前最先进的大语言模型(LLM)也无法为所有患者作(zuò)出准确诊断,且诊断正(zhèng)确率(73%)明显差于人类医生(shēng)(89%);在极端情况(胆囊炎诊(zhěn)断)下(xià),LLM的正确率仅为13%。

  但对于 北京清(qīng)华长庚(gēng)医院神(shén)经中心(xīn)医师邳靖陶来说,他今年 刚(gāng)被AI“上了一课”。8月下旬,邳 靖陶参(cān)与的灵犀医(yī)学(xué)脑血管(guǎn)病专病大模(mó)型(xíng)正式发布,该模型由其所(suǒ)在医院的神经中心武剑教授团队主导研发,是(shì)国内首个基于专 病的(de)医学人工智能模型。

  “大模型的能力说强也强,说弱也(yě)弱,我(wǒ)们不能(néng)让(ràng)它天马行空地自由(yóu)发挥。”邳靖(jìng)陶表示,专(zhuān)病大模型与ChatGPT的最(zuì)大不同(tóng),是要(yào)将AI杜撰的似是(shì)而非的诊疗建议扼杀在摇篮里,避免灾(zāi)难性后果。

  8月下旬,灵犀医学脑血管病专病大(dà)模型正式发布,该模型由北京清华长(zhǎng)庚医院神经(jīng)中心武剑教(jiào)授团队主导研 发,是国内首个基(jī)于专病(bìng)的医学(xué)人工智能模型。图为灵犀医学大模型技术交流(liú)会现(xiàn)场。 受访(fǎng)者供图

  对标专科和专病(bìng)专家

  作为国内(nèi)四(sì)大慢病之一,脑(nǎo)血管病的首次发病者约(yuē)有 三分之二是60岁以上(shàng)的 老年人,其具有“高发病率、高患(huàn)病率、高死亡率、高复(fù)发率”的特(tè)点。而截(jié)至2021年,我(wǒ)国65岁及以上的老年(nián)人口(kǒu)已经超过2亿人(rén),脑血管病医生短缺、水(shuǐ)平 参差不齐的问题尤(yóu)为突出。

  “基层医院不(bù)缺全科医生,但缺专科专家或专病专家(jiā),这(zhè)就是大模型(xíng)要解决的问题。”邳靖(jìng)陶介绍,脑血(xuè)管病专病大(dà)模型 是医疗机构与科技企业的合作产物。具体来说,新华三集团提供技(jì)术人员、AI算法和算力,北京清华长庚医(yī)院和清(qīng)华大学提(tí)供(gōng)大数据和临床需求,共同打造(zào)一款面向临床医(yī)生的辅助诊断工具。

  武剑教授曾表示,医学人工智能在缓(huǎn)解医疗资(zī)源紧张和提升医疗 服务水平方面,具有巨大的潜(qián)力和优 势(shì)。其核(hé)心在于对(duì)海量健康数据的深度挖掘和智能分析,这能够大(dà)幅提升(shēng)临床诊断和(hé)治疗(liáo)的准确性与效(xiào)率。

  目前,这个大模型的核心功能是分析和提取病历中的关键信息,并(bìng)与临床知识库相匹配,最终提供符合临床指南的标准化治疗建(jiàn)议。

  一方面,临床医生可以(yǐ)输入脱敏(不(bù)包括患者个人信息)的临床病程信息,由大(dà)模 型生成最终的治疗方案。其间,如果大模型察觉到病程信息存在疏漏,会提醒医生及时补充,保证病历(lì)记录的标准化。

  另一方面,临(lín)床医生也可以输入患者主诉(如主要症状和持续时间等信息)等简单信息,大模型将通过选(xuǎn)择性交互引导问诊方向,根据医生点击的选项,逐步完善临床诊疗过程,提升医生的(de)循(xún)证能力。

  专业性体(tǐ)现在两方面

  在邳靖陶看来,与ChatGPT等通用(yòng)大模型相比(bǐ),专病大模型的专业性体现在思维链(liàn)和知识库两方面。以脑血管病(bìng)专病大模型为例,其数据来源包(bāo)括两大部分:一部分(fēn)是经过脱敏处理的(de)临床(chuáng)资料,涉及疾病的特定特征,发病情况以及诊疗过程等综(zōng)合信息。另一部分是公开(kāi)获取的临(lín)床指南、大量(liàng)神经病学(xué国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”)和神(shén)经科学的教科书(shū)和参考书(shū)籍,这些构成了数据库的核心内容。值得注意的是,大(dà)模型并不能直接接收这些知识,而是需要经(jīng)临床医生和工科团队之(zhī)手,将临(lín)床指南的框架和(hé)重点 内容重(zhòng)新(xīn)整理,转化为计算 机能够理解的语言和流(liú)程后,再输给大(dà)模型。

  “如果不加限制地(dì)直接投(tóu)喂,大模型会发散到其(qí)他方面,生成(chéng)一些新的理解。但(dàn)临床指南已经是最高级别(bié)的(de)标准化诊疗推荐,在此基础上的任何修(xiū)改都是错误的,也不是我们(men)想要的。”邳靖陶告诉记者,想让大 模(mó)型“听话”,除了要投喂计算机能“听懂 ”的知识,更关键的是教给(gěi)它一套临床医(yī)生(shēng)的“思维链(liàn)”,并依托这一能力对不同患者的临床资料进行推(tuī)理。

  例如,一位脑血管病医生的诊疗流程大致包括询问病史,进行体格检查,考虑辅助检查国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”,综合(hé)分析后(hòu)给(gěi)出准确诊断等环节。基于诊断结果,医生会考虑(lǜ)患者的具(jù)体病因(yīn)和其他基础疾病情况,结合标(biāo)准化的(de)诊(zhěn)疗(liáo)建(jiàn)议,制定(dìng)规范化(huà)的治疗方案。

  在这(zhè)个过(guò)程(chéng)中(zhōng),不同的患者主诉指向不同的询问(wèn)方向。但问题(tí)是,大模(mó)型的思维虽然“发散”,但不具(jù)备自主搭建(jiàn)思维链的能力,所(suǒ)以需(xū)要工(gōng)科团队深(shēn)刻理解临床诊疗场景,将医生的临床思(sī)维转换为机器可以理(lǐ)解 的思(sī)维(wéi)。而这个过程让(ràng)临床(chuáng)医生和(hé)技术团队,都经历(lì)了交(jiāo)叉学习的(de)历练。

  “Gap(差距)主要是语(yǔ)言 交流上(shàng)的障碍,比如我们不理解思维链,他们不理解不同疾(jí)病(bìng)间的关系。但这不(bù)会对我们的研究造成实质性影响,只要(yào)了解对方(fāng)领域的基础知识(shí),就能(néng)扫清困难(nán)。”邳 靖陶说。

  负责(zé)的仍(réng)是临床(chuáng)医生

  邳靖陶透(tòu)露,目前脑血管病专病大模(mó)型正在北京清 华长庚医院神经中心进行临床验证。此前,他和同事们使(shǐ)用真实病例或模拟复杂(zá)临(lín)床场景(jǐng),对大模型进行过内部测试。这项测试建(jiàn)立在前期简单测试的基础之上,旨在评估大模型对(duì)不同复杂程度、不同语言风格(gé)和不同级别医生的病历(lì)的理解能(néng)力。

  其中(zhōng),最困扰邳靖陶的一个 问题是,如果大模型出现了错(cuò)误,怎么保证临床(chuáng)医生(shēng)不受干扰呢(ne)?换言之,临床医生应该怎(zěn)么(me)处理和大(dà)模型之间的关系?

  这(zhè)一矛盾(dùn)在首次内部(bù)测试时就出现了。当时,邳靖陶模拟了一个复杂(zá)的临床场景,大模型(xíng)给出的治疗方案和预想的“标准 答(dá)案”有所出入。随后,技术人(rén)员(yuán)介入并回溯了大模型的推理过程,试图找出可能的错误,却无功而(ér)返(fǎn)。而当邳靖陶用(yòng)“标准答案”去匹(pǐ)配临床(chuáng)指南时(shí),让他印(yìn)象深刻的结果(guǒ)出现了:是自己(jǐ)的诊疗思(sī)路存(cún)在盲 区。

  “一开(kāi)始这个模型设计(jì)出来,到底能不能用于临(lín)床,能不能起(qǐ)到提升和改善(诊疗效率)的作用,其实我心里也没有底(dǐ)。但是这件(jiàn)事之后,给了我特别大(dà)的底气。”邳靖 陶总结这次经历,发现患者的临床症状(zhuàng)是一个(gè)综(zōng)合结果。例如,患者 可能因为(wèi)神(shén)经系统问题住院,但心血(xuè)管、肾脏、肝脏状况也在发生变化。尽管医(yī)生接受过规范化的专科培训,但诊疗思维仍可能(néng)存(cún)在盲点,无法保证每次都能提供全(quán)面的诊疗方案。

  另外,临 床指南是(shì)不断更新(xīn)的,并非所 有医生都能及时更新知识。当医(yī)生的知识更新滞后时(shí),大(dà)模型可以帮助弥补这些纰(pī)漏。

  不过(guò),阅读(dú)指南并作出判断,仍是临床医生不(bù)能丢弃(qì)的基本功。邳靖陶表示,如(rú)果(guǒ)医生(shēng)发现大模型提供的(de)诊疗方(fāng)案与自身(shēn)判(pàn)断不(bù)符,不(bù)应简单地接受(shòu)或拒绝,而应深入探究原因。这一思考过(guò)程(chéng)有助(zhù)于医生提高临床诊疗 能力,是大模(mó)型(xíng)作为临床辅助诊断工具的终(zhōng)极愿(yuàn)景。毕竟,虽然大模型 可以(yǐ)提供结论,但对诊(zhěn)疗过程负责的仍是临床医生(shēng)本人。

  呼吁更多人(rén)加入

  2023年7月,谷歌(gē)Research和DeepMind共同打造的全球首个(gè)全科医疗大模型Med-PaLM M正式发布。资料显示,这个大模型具(jù)备临床语言、影像和基因组学的理解能力,用(yòng)于(yú)临床指日可待。

  而根据《2023医疗(liáo)健康AI大模型(xíng)行业研究报(bào)告(gào)》,截至2023年10月(yuè),国内累计公开的大模型(xíng)数量达(dá)到238个,其中(zhōng),医疗大模型近50个,涉及患(huàn)者问诊、医生助手、药物(wù)研发、健康科(kē)普(pǔ)等多个领域。据邳靖陶观察,许(xǔ)多医疗大模型(xíng)的开发从“全科”出发,试图直接构建一个涵(hán)盖所有专科的大型全科模型,供用户咨询各种疾病。

  但(dàn)在参与构建脑血管病专病(bìng)大模(mó)型后,武剑教授(shòu)团队对这一模式表 示 怀疑。他们(men)发现,把一种疾 病的临床指南梳理清楚颇具 难(nán)度(dù),打造对(duì)应的思维链也耗 时耗力,短期内很难(nán)用同样的方法训练出(chū)全科(kē)模型。换(huàn)言之,目前的全科大模型能够做 到医学科普,但很难在特(tè)定专科领域提供 有效(xiào)的临床(chuáng)指导。因(yīn)此,武剑教授团队的研发思路是以专病为起(国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”qǐ)点,再走向全科。

  “如果针对脑血管病的专病(bìng)大模型走通了,我们可以把成功(gōng)经验(yàn)复制(zhì)到其他神经系统疾(jí)病上;如果神经系统(tǒng)疾病(bìng)覆盖全面(miàn)了,就成了专科大模型;神经科的经验再复制到其他科(kē),就会(huì)形成一个真正的全科医疗大模型。”邳靖陶表示,在武剑教授看来,国内(nèi)发病人数(shù)越 多、疾病负(fù)担(dān)越大的疾病,其专病大模型的临床(chuáng)需求和研发空间(jiān)就会越(yuè)大(dà),例如我国发病(bìng)率最高的四大(dà)慢病——高血压、糖尿病、冠(guān)心病、脑(nǎo)血管(guǎn)病都有非常广阔的大模型开发(fā)空间(jiān)。

  而在脑血管病(bìng)专病 大模型(xíng)的发布会上,武 剑教(jiào)授已(yǐ)经(jīng)通过(guò)招募令的形式,呼吁全(quán)国神经 系统(tǒng)疾病领域的专家,以及(jí)人工智能领域的专业人士携手把握创新技术的改革可能,改善临床诊疗现状。他表示,如果能打破学术壁垒(lěi),医疗大模型的重复性工作(zuò)是完全 可以避免的。

  “这不是我们一个人能做的事情。”邳靖陶说。

责任编辑:何松琳

未经允许不得转载:书铭产品 国内首个脑血管专病大模型亮相 对话参与医生:被AI“上了一课”

评论

5+2=