从结果来看,该系统的表现确实优于初级医生,但它绝对不能完全取代临床医生。无论使用多少训练样例,都无法保证100%正确的结果。
本文的作者之一,张康教授也表示:“医生和AI的关系,可以类比于人类驾驶员和在其监督下的自动驾驶汽车。它只会让医生在更短的时间内以更低的成本做更好的事情。”
基于人工智能(AI)的方法已成改变医疗保健的有力工具
虽然机器学习分类器(MLCs)已经在基于图像的诊断中显示出其强大的性能,但对各种大规模电子健康记录(EHR)数据的分析仍然具有挑战性。
在本文,作者表明MLC可以以类似于医生使用的假设- 演绎推理的方式查询EHR,并且发现以前的统计方法所没有找到的关联特性。作者的模型采用一种自动化的自然语言处理系统,使用深度学习技术从EHR中提取临床相关信息。
本研究共分析了1362559名儿科患者就诊于某大型转诊中心的10160万个数据点,对该框架进行了训练和验证。

儿科诊断框架的工作流程图
首先提取数据,基于深度学习构建NLP模型,对数据进行语义分析,其次将数据进行结构化,最后对这些完全结构化的数据库用疾病分类器处理,预测临床诊断。

大型儿科队列中诊断框架的层次结构:使用分层逻辑回归分类器,来建立基于解剖学划分的诊断系统
基于器官的方法,首先将器官系统按照大类可以划分为5类,分别是呼吸系统疾病、系统性全身性疾病、神经精神疾病、泌尿生殖系统疾病、胃肠道疾病。然后将每个大类再细分成器官子系统,甚至更具体的诊断组。

下划线为计算机预测的诊断结果,医生诊断显示在顶部的第一行
在诊断层级的第一级,分类器能准确地辨别出,大量儿科患者的器官系统之间,存在哪些广泛解剖学分类。接下来诊断层级的第二级,我们拿呼吸系统疾病诊断举例。
在呼吸系统疾病的诊断中,分类器可以辨别上呼吸状况和下呼吸状况。
在上呼吸道系统内,可以进一步区分最常见的急性上呼吸道感染:鼻窦炎和喉炎,二者诊断准确度均超过95%。
哮喘被归类为呼吸系统中的一个独立类别,诊断系统准确地区分了无并发症的哮喘、咳嗽变异性哮喘和急性哮喘急性发作。
人类医生确诊的315661次主要呼吸道疾病中,AI够正确预测其中的295403例,精确度达到92%。

使用F1score来评估不同组(行)的诊断性能(Root是诊断分类的第一级)
表中第二列是AI的诊断结果,后面的1组和2组都是初级医师诊断结果,剩下的3组结果分别由三个高级医师给出。
可以看出,机器学习模型比初级医师组表现更好,但比三个经验丰富的医师组略差。
AI诊断系统方法介绍
数据收集
我们的数据收集自广州妇女儿童医学中心,来自该机构的567498名儿科患者中获得了1362559次门诊的电子病历。时间范围从2016年1月至2017年7月。患者年龄中位数为2.35岁,40.11%为女性。我们使用广东省增城妇女儿童医院的一组独立儿科患者的11926例就诊记录,将我们的AI系统和人类医生的表现进行对比。
NLP模型构建
我们建立了原始信息提取模型,从电子病历的原始数据中提取出关键概念和相关类别,并将其转换为查询-答案组合的新格式的临床数据。这些数据将相关症状进行分组,通过表示模型依赖的确切特征来进行诊断,从而提高了可解释性。三名医生策划并验证了这些模式,其中包括患者主诉、现有病史,体检和实验室报告。

自然语言处理信息提取模型的设计
NLP框架有多个组成部分:词典构建、符号化、单词嵌入、图构建,以及使用LSTM架构的句子分类。
词典构建
我们通过阅读训练数据中的句子,并选择临床相关单词以用于查询-答案模型构建来生成词典。词典的关键词由我们的医生策划,并使用中文医学词典生成。接下来,根据医生的临床知识和经验,以及专家共识修订词典中的错误。迭代运行程序,直到找不到现有疾病和体检的新的概念为止。然后使用这些句子来训练单词嵌入模型。
架构设计
架构由医生策划的问题列表组成,用于提取症状信息以进行诊断。比如问题有“患者是否发烧?”和“患者是否咳嗽?”。答案包括关键位置和数字函数。前者对解剖的位置进行编码,如肺或胃肠道。因此,该值可以是分类变量,也可以是二进制数,具体取决于要素类型。
然后,我们为每种类型的病例数据构建一个模式:由当前疾病的病史和患者主诉,体检与实验室检查构成。然后将此架构用于文本新格式的建模。架构设计的基本原理是增强不同医院之间的数据的互操作性,以便将来进行进一步研究。此外,与使用有可能被识别出的原始病例相比,以新格式提供病例也有助于保护患者的隐私。
符号化与词嵌入
由于缺乏公开的标记临床中文数据资源,我们为分词建立了标准数据集。我们使用pythonTensorflow包中的word2vec来嵌入具有100个特征的4,363个令牌,以表示高维空间中单词的语义和相似性。
LSTM模型训练集和测试集的构建
我们创建了一个用于训练问答提取模型的小数据集,并在训练和验证队列中对问答信息进行了手动注释。对于答案为是/否的问题,我们使用0或1来表示。
对自由文本协调过程使用之前描述的基于注意力的LSTM建模。我们使用Tensorflow实现并训练模型。我们将NLP模型应用于所有电子病历中。我们没有调整超参数,而是使用LSTM模型的默认或常用的超参数设置。
分层多标签诊断模型
(编辑:温州站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!