机器学习模型用 85 个维度诊断冠心病人心梗可能性?

1100 万人,这是国家心血管病中心发布的中国冠心病患者的最新数字。冠心病全称冠状动脉性心脏病,一般是由于冠状动脉狭窄、血流不通畅导致出现心肌缺血现象,是一种比较普遍的心血管疾病。

当冠状动脉较大的分支完全闭塞、形成血栓时,就出现了冠心病最严重的后果——心梗。这种急性、持续性的缺血缺氧会引起心肌坏死,可能危及生命而猝死。因此,如果能够准确地预测心梗的发生,将会挽救很多生命。

近日,荷兰格罗宁根大学医学中心(UMCG)的实验心脏病学研究人员 Luis Eduardo Juarez-Orozco 等人,利用一个基于集成学习 Boost 方法的机器学习模型(LogitBoost),实现了对冠心病人医疗数据的更充分挖掘,在判断心梗的可能性上,超越了人类医生。

用什么数据?

医疗 AI 领域所面临的最大难题就是数据的匮乏。与常规人脸识别、物体识别等计算机视觉领域不同,研究人员无法使用 ImageNet 等现成的大型图像数据集来训练他们的模型,必须想办法组建高清的专业医疗数据集。

对于冠心病而言,这些数据便是 PET(正电子发射断层显像)和 CT(电子计算机断层扫描)心肌显像结果。PET/CT 是一种权威的辅助诊断方法,利用放射性核素标记的显影剂,PET 可对人体组织进行造影,CT 则是利用X射线断层成像。融合利用两种技术形成的图像可以安全、无创的实现对病变组织的定位,并快速准确的排查病灶。故一些 PET/CT 指标是冠心病的重要特征。

因此,为了建立能够判断冠心病人心梗可能性的模型,Luis Eduardo Juarez-Orozco 等人追踪了 951 例冠心病人 6 年内的一系列临床指标和 PET/CT 结果,组建起了冠心病的数据集。

图 | 一位患有结节硬化 Hodgkin’s 病的病人的 PET 显影和 CT 显影图。A 为 CT 图,B 为 PET 显影图,C 为 PET 和 CT 共定位图。(来源 Malik E. Juweid, et al./ University of Iowa)

这些数据具体包括 CCTA(冠状动脉 CT 造影)图像数据所显示的动脉粥样硬化区域、血管狭窄百分比、斑块钙化程度和 PET 心肌灌注所记录的每克心肌每分钟血流量数值。还有抽取自病人病历的临床指标,比如性别、年龄、烟史、糖尿病、高血压、高血脂、家族病史、胸痛、呼吸困难、早期血管重建等记录。

用什么模型和特征?

鉴于数据集规模并不大,研究者选择利用集成学习的 Boost方法 提高模型的效率。他们采用十折交叉验证,建立模型 LogitBoost,对病人是否发生心肌梗死或冠心病致死做出预测,并利用 AUC(Area under Curve Roc,ROC 曲线下面的面积,值越靠近 1,说明二分类模型表现越好)和 ACC(Accuracy,准确率,即正确判断正样本和负样本的概率)指标评估模型结果。

在对前期建立的数据集特征进行层层筛选后,研究人员采取了 85 个特征,既 85 个维度,它们分别来自 10 个临床指标、58 个 CCTA 指标和 17 个 PET 指标。

为了验证各个特征的作用,研究人员选择分批逐步进行训练与测试。当他们仅利用临床指标建模时,模型的 AUC 为 0.65,ACC 为 90%。在引入 PET 指标后,模型 AUC 提升至 0.69,ACC 达到 92.5%。再进一步引入 CCTA 数据让模型 AUC 达到惊人的 0.82,ACC 至 95.4%,远超人类医生水平,这是对冠心病人数据的更高效利用,同时这也说明比起医生仅凭借单纯的指标比对,机器学习模型更能综合利用检测数据的潜在特征,达到更精准的预测。

展望

冠心病作为一种普遍高发的疾病,其危险性不容多说,心梗过世并不罕见,并且很多时候由于没有明显症状而被人忽略。人工智能用于医疗领域也不是一天两天,但能够切实可行、广泛用于社会、治病救人悬壶济世,是本模型的优秀之处。充分利用已有的医疗数据,挖掘潜在信息,达到更准确的预测,超越人力,这正是 AI 的初衷。

未来的医疗,绝不再会仅靠人类专家。