机器学习模型用 85 个维度诊断冠心病人心梗可能性？

1100 万人，这是国家心血管病中心发布的中国冠心病患者的最新数字。冠心病全称冠状动脉性心脏病，一般是由于冠状动脉狭窄、血流不通畅导致出现心肌缺血现象，是一种比较普遍的心血管疾病。

当冠状动脉较大的分支完全闭塞、形成血栓时，就出现了冠心病最严重的后果——心梗。这种急性、持续性的缺血缺氧会引起心肌坏死，可能危及生命而猝死。因此，如果能够准确地预测心梗的发生，将会挽救很多生命。

近日，荷兰格罗宁根大学医学中心（UMCG）的实验心脏病学研究人员 Luis Eduardo Juarez-Orozco 等人，利用一个基于集成学习 Boost 方法的机器学习模型（LogitBoost），实现了对冠心病人医疗数据的更充分挖掘，在判断心梗的可能性上，超越了人类医生。

用什么数据？

医疗 AI 领域所面临的最大难题就是数据的匮乏。与常规人脸识别、物体识别等计算机视觉领域不同，研究人员无法使用 ImageNet 等现成的大型图像数据集来训练他们的模型，必须想办法组建高清的专业医疗数据集。

对于冠心病而言，这些数据便是 PET（正电子发射断层显像）和 CT（电子计算机断层扫描）心肌显像结果。PET/CT 是一种权威的辅助诊断方法，利用放射性核素标记的显影剂，PET 可对人体组织进行造影，CT 则是利用X射线断层成像。融合利用两种技术形成的图像可以安全、无创的实现对病变组织的定位，并快速准确的排查病灶。故一些 PET/CT 指标是冠心病的重要特征。

因此，为了建立能够判断冠心病人心梗可能性的模型，Luis Eduardo Juarez-Orozco 等人追踪了 951 例冠心病人 6 年内的一系列临床指标和 PET/CT 结果，组建起了冠心病的数据集。

图 | 一位患有结节硬化 Hodgkin’s 病的病人的 PET 显影和 CT 显影图。A 为 CT 图，B 为 PET 显影图，C 为 PET 和 CT 共定位图。（来源 Malik E. Juweid, et al./ University of Iowa）

这些数据具体包括 CCTA（冠状动脉 CT 造影）图像数据所显示的动脉粥样硬化区域、血管狭窄百分比、斑块钙化程度和 PET 心肌灌注所记录的每克心肌每分钟血流量数值。还有抽取自病人病历的临床指标，比如性别、年龄、烟史、糖尿病、高血压、高血脂、家族病史、胸痛、呼吸困难、早期血管重建等记录。

用什么模型和特征？

鉴于数据集规模并不大，研究者选择利用集成学习的 Boost方法提高模型的效率。他们采用十折交叉验证，建立模型 LogitBoost，对病人是否发生心肌梗死或冠心病致死做出预测，并利用 AUC（Area under Curve Roc，ROC 曲线下面的面积，值越靠近 1，说明二分类模型表现越好）和 ACC（Accuracy，准确率，即正确判断正样本和负样本的概率）指标评估模型结果。

在对前期建立的数据集特征进行层层筛选后，研究人员采取了 85 个特征，既 85 个维度，它们分别来自 10 个临床指标、58 个 CCTA 指标和 17 个 PET 指标。

为了验证各个特征的作用，研究人员选择分批逐步进行训练与测试。当他们仅利用临床指标建模时，模型的 AUC 为 0.65，ACC 为 90%。在引入 PET 指标后，模型 AUC 提升至 0.69，ACC 达到 92.5%。再进一步引入 CCTA 数据让模型 AUC 达到惊人的 0.82，ACC 至 95.4%，远超人类医生水平，这是对冠心病人数据的更高效利用，同时这也说明比起医生仅凭借单纯的指标比对，机器学习模型更能综合利用检测数据的潜在特征，达到更精准的预测。

展望

冠心病作为一种普遍高发的疾病，其危险性不容多说，心梗过世并不罕见，并且很多时候由于没有明显症状而被人忽略。人工智能用于医疗领域也不是一天两天，但能够切实可行、广泛用于社会、治病救人悬壶济世，是本模型的优秀之处。充分利用已有的医疗数据，挖掘潜在信息，达到更准确的预测，超越人力，这正是 AI 的初衷。

未来的医疗，绝不再会仅靠人类专家。