国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”

　　每经记者(zhě) 林姿(zī)辰(chén) 每经编辑张海妮

　　距(jù)离(lí)谷歌大模型(xíng)（MedPaLM 2）拿下美国医学执照考试已经(jīng)快两年了(le)，人工(gōng)智(zhì)能（AI）够资格成为临床医生的“假想敌”了(le)吗？

　　今年7月，一篇(piān)发表于(yú)Nature Medicine的论文显示，即使是目前最先进的大语言模型（LLM）也无法为所有患者作(zuò)出准确诊断，且诊断正(zhèng)确率（73%）明显差于人类医生(shēng)（89%）；在极端情况（胆囊炎诊(zhěn)断）下(xià)，LLM的正确率仅为13%。

　　但对于北京清(qīng)华长庚(gēng)医院神(shén)经中心(xīn)医师邳靖陶来说，他今年刚(gāng)被AI“上了一课”。8月下旬，邳靖陶参(cān)与的灵犀医(yī)学(xué)脑血管(guǎn)病专病大模(mó)型(xíng)正式发布，该模型由其所(suǒ)在医院的神经中心武剑教授团队主导研发，是(shì)国内首个基于专病的(de)医学人工智能模型。

　　“大模型的能力说强也强，说弱也(yě)弱，我(wǒ)们不能(néng)让(ràng)它天马行空地自由(yóu)发挥。”邳靖(jìng)陶表示，专(zhuān)病大模型与ChatGPT的最(zuì)大不同(tóng)，是要(yào)将AI杜撰的似是(shì)而非的诊疗建议扼杀在摇篮里，避免灾(zāi)难性后果。

　　8月下旬，灵犀医学脑血管病专病大(dà)模型正式发布，该模型由北京清华长(zhǎng)庚医院神经(jīng)中心武剑教(jiào)授团队主导研发，是国内首个基(jī)于专病(bìng)的医学(xué)人工智能模型。图为灵犀医学大模型技术交流(liú)会现(xiàn)场。受访(fǎng)者供图

　　对标专科和专病(bìng)专家

　　作为国内(nèi)四(sì)大慢病之一，脑(nǎo)血管病的首次发病者约(yuē)有三分之二是60岁以上(shàng)的老年人，其具有“高发病率、高患(huàn)病率、高死亡率、高复(fù)发率”的特(tè)点。而截(jié)至2021年，我(wǒ)国65岁及以上的老年(nián)人口(kǒu)已经超过2亿人(rén)，脑血管病医生短缺、水(shuǐ)平参差不齐的问题尤(yóu)为突出。

　　“基层医院不(bù)缺全科医生，但缺专科专家或专病专家(jiā)，这(zhè)就是大模型(xíng)要解决的问题。”邳靖(jìng)陶介绍，脑血(xuè)管病专病大(dà)模型是医疗机构与科技企业的合作产物。具体来说，新华三集团提供技(jì)术人员、AI算法和算力，北京清华长庚医(yī)院和清(qīng)华大学提(tí)供(gōng)大数据和临床需求，共同打造(zào)一款面向临床医(yī)生的辅助诊断工具。

　　武剑教授曾表示，医学人工智能在缓(huǎn)解医疗资(zī)源紧张和提升医疗服务水平方面，具有巨大的潜(qián)力和优势(shì)。其核(hé)心在于对(duì)海量健康数据的深度挖掘和智能分析，这能够大(dà)幅提升(shēng)临床诊断和(hé)治疗(liáo)的准确性与效(xiào)率。

　　目前，这个大模型的核心功能是分析和提取病历中的关键信息，并(bìng)与临床知识库相匹配，最终提供符合临床指南的标准化治疗建(jiàn)议。

　　一方面，临床医生可以(yǐ)输入脱敏（不(bù)包括患者个人信息）的临床病程信息，由大(dà)模型生成最终的治疗方案。其间，如果大模型察觉到病程信息存在疏漏，会提醒医生及时补充，保证病历(lì)记录的标准化。

　　另一方面，临(lín)床医生也可以输入患者主诉（如主要症状和持续时间等信息）等简单信息，大模型将通过选(xuǎn)择性交互引导问诊方向，根据医生点击的选项，逐步完善临床诊疗过程，提升医生的(de)循(xún)证能力。

　　专业性体(tǐ)现在两方面

　　在邳靖陶看来，与ChatGPT等通用(yòng)大模型相比(bǐ)，专病大模型的专业性体现在思维链(liàn)和知识库两方面。以脑血管病(bìng)专病大模型为例，其数据来源包(bāo)括两大部分：一部分(fēn)是经过脱敏处理的(de)临床(chuáng)资料，涉及疾病的特定特征，发病情况以及诊疗过程等综(zōng)合信息。另一部分是公开(kāi)获取的临(lín)床指南、大量(liàng)神经病学(xué国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”)和神(shén)经科学的教科书(shū)和参考书(shū)籍，这些构成了数据库的核心内容。值得注意的是，大(dà)模型并不能直接接收这些知识，而是需要经(jīng)临床医生和工科团队之(zhī)手，将临(lín)床指南的框架和(hé)重点内容重(zhòng)新(xīn)整理，转化为计算机能够理解的语言和流(liú)程后，再输给大(dà)模型。

　　“如果不加限制地(dì)直接投(tóu)喂，大模型会发散到其(qí)他方面，生成(chéng)一些新的理解。但(dàn)临床指南已经是最高级别(bié)的(de)标准化诊疗推荐，在此基础上的任何修(xiū)改都是错误的，也不是我们(men)想要的。”邳靖陶告诉记者，想让大模(mó)型“听话”，除了要投喂计算机能“听懂 ”的知识，更关键的是教给(gěi)它一套临床医(yī)生(shēng)的“思维链(liàn)”，并依托这一能力对不同患者的临床资料进行推(tuī)理。

　　例如，一位脑血管病医生的诊疗流程大致包括询问病史，进行体格检查，考虑辅助检查国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”，综合(hé)分析后(hòu)给(gěi)出准确诊断等环节。基于诊断结果，医生会考虑(lǜ)患者的具(jù)体病因(yīn)和其他基础疾病情况，结合标(biāo)准化的(de)诊(zhěn)疗(liáo)建(jiàn)议，制定(dìng)规范化(huà)的治疗方案。

　　在这(zhè)个过(guò)程(chéng)中(zhōng)，不同的患者主诉指向不同的询问(wèn)方向。但问题(tí)是，大模(mó)型的思维虽然“发散”，但不具(jù)备自主搭建(jiàn)思维链的能力，所(suǒ)以需(xū)要工(gōng)科团队深(shēn)刻理解临床诊疗场景，将医生的临床思(sī)维转换为机器可以理(lǐ)解的思(sī)维(wéi)。而这个过程让(ràng)临床(chuáng)医生和(hé)技术团队，都经历(lì)了交(jiāo)叉学习的(de)历练。

　　“Gap（差距）主要是语(yǔ)言交流上(shàng)的障碍，比如我们不理解思维链，他们不理解不同疾(jí)病(bìng)间的关系。但这不(bù)会对我们的研究造成实质性影响，只要(yào)了解对方(fāng)领域的基础知识(shí)，就能(néng)扫清困难(nán)。”邳靖陶说。

　　负责(zé)的仍(réng)是临床(chuáng)医生

　　邳靖陶透(tòu)露，目前脑血管病专病大模(mó)型正在北京清华长庚医院神经中心进行临床验证。此前，他和同事们使(shǐ)用真实病例或模拟复杂(zá)临(lín)床场景(jǐng)，对大模型进行过内部测试。这项测试建(jiàn)立在前期简单测试的基础之上，旨在评估大模型对(duì)不同复杂程度、不同语言风格(gé)和不同级别医生的病历(lì)的理解能(néng)力。

　　其中(zhōng)，最困扰邳靖陶的一个问题是，如果大模型出现了错(cuò)误，怎么保证临床(chuáng)医生(shēng)不受干扰呢(ne)？换言之，临床医生应该怎(zěn)么(me)处理和大(dà)模型之间的关系？

　　这(zhè)一矛盾(dùn)在首次内部(bù)测试时就出现了。当时，邳靖陶模拟了一个复杂(zá)的临床场景，大模型(xíng)给出的治疗方案和预想的“标准答(dá)案”有所出入。随后，技术人(rén)员(yuán)介入并回溯了大模型的推理过程，试图找出可能的错误，却无功而(ér)返(fǎn)。而当邳靖陶用(yòng)“标准答案”去匹(pǐ)配临床(chuáng)指南时(shí)，让他印(yìn)象深刻的结果(guǒ)出现了：是自己(jǐ)的诊疗思(sī)路存(cún)在盲区。

　　“一开(kāi)始这个模型设计(jì)出来，到底能不能用于临(lín)床，能不能起(qǐ)到提升和改善（诊疗效率）的作用，其实我心里也没有底(dǐ)。但是这件(jiàn)事之后，给了我特别大(dà)的底气。”邳靖陶总结这次经历，发现患者的临床症状(zhuàng)是一个(gè)综(zōng)合结果。例如，患者可能因为(wèi)神(shén)经系统问题住院，但心血(xuè)管、肾脏、肝脏状况也在发生变化。尽管医(yī)生接受过规范化的专科培训，但诊疗思维仍可能(néng)存(cún)在盲点，无法保证每次都能提供全(quán)面的诊疗方案。

　　另外，临床指南是(shì)不断更新(xīn)的，并非所有医生都能及时更新知识。当医(yī)生的知识更新滞后时(shí)，大(dà)模型可以帮助弥补这些纰(pī)漏。

　　不过(guò)，阅读(dú)指南并作出判断，仍是临床医生不(bù)能丢弃(qì)的基本功。邳靖陶表示，如(rú)果(guǒ)医生(shēng)发现大模型提供的(de)诊疗方(fāng)案与自身(shēn)判(pàn)断不(bù)符，不(bù)应简单地接受(shòu)或拒绝，而应深入探究原因。这一思考过(guò)程(chéng)有助(zhù)于医生提高临床诊疗能力，是大模(mó)型(xíng)作为临床辅助诊断工具的终(zhōng)极愿(yuàn)景。毕竟，虽然大模型可以(yǐ)提供结论，但对诊(zhěn)疗过程负责的仍是临床医生(shēng)本人。

　　呼吁更多人(rén)加入

　　2023年7月，谷歌(gē)Research和DeepMind共同打造的全球首个(gè)全科医疗大模型Med-PaLM M正式发布。资料显示，这个大模型具(jù)备临床语言、影像和基因组学的理解能力，用(yòng)于(yú)临床指日可待。

　　而根据《2023医疗(liáo)健康AI大模型(xíng)行业研究报(bào)告(gào)》，截至2023年10月(yuè)，国内累计公开的大模型(xíng)数量达(dá)到238个，其中(zhōng)，医疗大模型近50个，涉及患(huàn)者问诊、医生助手、药物(wù)研发、健康科(kē)普(pǔ)等多个领域。据邳靖陶观察，许(xǔ)多医疗大模型(xíng)的开发从“全科”出发，试图直接构建一个涵(hán)盖所有专科的大型全科模型，供用户咨询各种疾病。

　　但(dàn)在参与构建脑血管病专病(bìng)大模(mó)型后，武剑教授(shòu)团队对这一模式表示怀疑。他们(men)发现，把一种疾病的临床指南梳理清楚颇具难(nán)度(dù)，打造对(duì)应的思维链也耗时耗力，短期内很难(nán)用同样的方法训练出(chū)全科(kē)模型。换(huàn)言之，目前的全科大模型能够做到医学科普，但很难在特(tè)定专科领域提供有效(xiào)的临床(chuáng)指导。因(yīn)此，武剑教授团队的研发思路是以专病为起(国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”qǐ)点，再走向全科。

　　“如果针对脑血管病的专病(bìng)大模型走通了，我们可以把成功(gōng)经验(yàn)复制(zhì)到其他神经系统疾(jí)病上；如果神经系统(tǒng)疾病(bìng)覆盖全面(miàn)了，就成了专科大模型；神经科的经验再复制到其他科(kē)，就会(huì)形成一个真正的全科医疗大模型。”邳靖陶表示，在武剑教授看来，国内(nèi)发病人数(shù)越多、疾病负(fù)担(dān)越大的疾病，其专病大模型的临床(chuáng)需求和研发空间(jiān)就会越(yuè)大(dà)，例如我国发病(bìng)率最高的四大(dà)慢病——高血压、糖尿病、冠(guān)心病、脑(nǎo)血管(guǎn)病都有非常广阔的大模型开发(fā)空间(jiān)。

　　而在脑血管病(bìng)专病大模型(xíng)的发布会上，武剑教(jiào)授已(yǐ)经(jīng)通过(guò)招募令的形式，呼吁全(quán)国神经系统(tǒng)疾病领域的专家，以及(jí)人工智能领域的专业人士携手把握创新技术的改革可能，改善临床诊疗现状。他表示，如果能打破学术壁垒(lěi)，医疗大模型的重复性工作(zuò)是完全可以避免的。

　　“这不是我们一个人能做的事情。”邳靖陶说。

责任编辑：何松琳

未经允许不得转载：书铭产品国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”